Vue normale

Hier — 11 mars 2025Flux principal

☕️ Sony a déjà fait retirer 75 000 deepfakes musicaux des plateformes de streaming

11 mars 2025 à 10:38

Les chansons générées par IA afin d’imiter de vrais artistes sont en train de devenir « un sérieux problème », note Gizmodo. Sony, qui a d’ores et déjà retiré plus de 75 000 deepfakes de ce type sur les diverses plateformes de streaming, précise que ce chiffre n’en représente cela dit qu’une fraction des contrefaçons musicales de l’IA disponibles en ligne.

Les équipes en charge du problème doivent en effet « parcourir manuellement » les services de streaming à la recherche de ces contrefaçons et exiger leur suppression, explique le FT.

L’industrie musicale estime également que l’explosion de services et logiciels de création audiovisuelle via des intelligences artificielles génératives entraîne d’ores et déjà « un préjudice commercial pour les artistes ».

La société, qui est l’un des trois plus grands labels de l’industrie musicale, a communiqué ce chiffre et ses craintes dans le cadre d’une consultation du gouvernement britannique sur les règles en matière de droits d’auteur.

Le gouvernement britannique a en effet publié ces propositions dans le cadre d’une initiative visant à faire du Royaume-Uni « le meilleur endroit pour lancer et développer une entreprise d’IA », comme l’a expliqué le Premier ministre, Sir Keir Starmer.

Une exception au Copyright serait introduite. Celle-ci laisserait, par défaut, les entreprises du numérique entrainer leurs systèmes sur les contenus copyrightés en échange de plus de transparence.

L’une des propositions permettrait ainsi aux entreprises d’IA d’entraîner gratuitement leurs modèles à des fins commerciales sur une série de contenus produits au Royaume-Uni, notamment la musique, les films, les livres et les journaux. Les titulaires de droits d’auteur devraient demander une dérogation spécifique pour être exemptés.

Sony rétorque que cela affecterait l’économie britannique, le Royaume-Uni étant le troisième marché mondial de la musique enregistrée et le deuxième exportateur mondial de musique enregistrée.

Médias et artistes britanniques s’étaient eux aussi mobilisés, fin février, arguant du fait que « le gouvernement britannique ne doit pas légaliser le vol au profit des sociétés d’intelligence artificielle ».

☕️ Sony a déjà fait retirer 75 000 deepfakes musicaux des plateformes de streaming

11 mars 2025 à 10:38

Les chansons générées par IA afin d’imiter de vrais artistes sont en train de devenir « un sérieux problème », note Gizmodo. Sony, qui a d’ores et déjà retiré plus de 75 000 deepfakes de ce type sur les diverses plateformes de streaming, précise que ce chiffre n’en représente cela dit qu’une fraction des contrefaçons musicales de l’IA disponibles en ligne.

Les équipes en charge du problème doivent en effet « parcourir manuellement » les services de streaming à la recherche de ces contrefaçons et exiger leur suppression, explique le FT.

L’industrie musicale estime également que l’explosion de services et logiciels de création audiovisuelle via des intelligences artificielles génératives entraîne d’ores et déjà « un préjudice commercial pour les artistes ».

La société, qui est l’un des trois plus grands labels de l’industrie musicale, a communiqué ce chiffre et ses craintes dans le cadre d’une consultation du gouvernement britannique sur les règles en matière de droits d’auteur.

Le gouvernement britannique a en effet publié ces propositions dans le cadre d’une initiative visant à faire du Royaume-Uni « le meilleur endroit pour lancer et développer une entreprise d’IA », comme l’a expliqué le Premier ministre, Sir Keir Starmer.

Une exception au Copyright serait introduite. Celle-ci laisserait, par défaut, les entreprises du numérique entrainer leurs systèmes sur les contenus copyrightés en échange de plus de transparence.

L’une des propositions permettrait ainsi aux entreprises d’IA d’entraîner gratuitement leurs modèles à des fins commerciales sur une série de contenus produits au Royaume-Uni, notamment la musique, les films, les livres et les journaux. Les titulaires de droits d’auteur devraient demander une dérogation spécifique pour être exemptés.

Sony rétorque que cela affecterait l’économie britannique, le Royaume-Uni étant le troisième marché mondial de la musique enregistrée et le deuxième exportateur mondial de musique enregistrée.

Médias et artistes britanniques s’étaient eux aussi mobilisés, fin février, arguant du fait que « le gouvernement britannique ne doit pas légaliser le vol au profit des sociétés d’intelligence artificielle ».

☕️ Un « geek anticapitaliste » installé à Dubaï arnaque des commerces en ligne de 20 à 30 M€

11 mars 2025 à 07:35

Le Parisien a appris que six personnes ont été mises en examen, et quatre incarcérées, dans le cadre d’une « gigantesque escroquerie aux faux colis ou remboursement de colis » ayant contribué à détourner de 20 à 30 millions d’euros entre 2021 et 2025.

Le groupe, surnommé « Zulon », opérait « depuis au moins quatre ans » une chaîne Telegram baptisée « Refund France ». Elle proposait à ses abonnés des « services de remboursement frauduleux de colis, ainsi que des modes d’emploi et des formations pour flouer les plates-formes commerciales en ligne », résume Le Parisien :

« Ainsi expliquaient-ils comment renvoyer un colis vide, abîmé ou le faire égarer tout en obtenant quand même un remboursement de la commande. »

Moyennant commission, ils les incitaient à passer des « commandes massives » sur des plateformes de commerce en ligne comme Amazon, Auchan, Leroy-Merlin ou Ikea. Des facteurs complices, grâce à leurs téléphones professionnels Facteo, scannaient les codes-barres pour déclencher de « faux retours » via Colissimo ou Chronopost, quand bien même les acquéreurs ne renvoyaient pas leurs commandes, pour en profiter ou les revendre.

Le Parisien explique que les plateformes de commerce en ligne procèdent en effet à un « remboursement immédiat » dès la création d’un code barre de retour, sans attendre que le colis soit renvoyé, « les enseignes souhaitant améliorer toujours plus l’expérience client pour se démarquer dans un milieu très concurrentiel ».

Le fondateur présumé, un Français d’une vingtaine d’années installé à Dubaï, « présenté comme un génie de l’informatique », a été arrêté alors qu’il revenait pour des raisons familiales. Par ailleurs atteint de troubles psychiatriques, il a depuis été hospitalisé d’office en psychiatrie.

Le suspect, qualifié de « geek anticapitaliste » par le Parisien, aurait justifié ces arnaques « par le fait de défendre le consommateur face à une industrie libérale prétendument effrénée, qu’il voudrait déstabiliser », résume Le Parisien, arguant que les plateformes seraient de toute façon remboursées par leurs assurances.

Un avocat parisien d’une trentaine d’années, spécialisé dans le droit des affaires, qui aurait détourné plus de 140 000 euros de commandes remboursées, aurait en outre supervisé certaines des opérations du groupe Zulon. Il a, lui aussi, été incarcéré, tout comme deux autres membres du groupe.

☕️ Un « geek anticapitaliste » installé à Dubaï arnaque des commerces en ligne de 20 à 30 M€

11 mars 2025 à 07:35

Le Parisien a appris que six personnes ont été mises en examen, et quatre incarcérées, dans le cadre d’une « gigantesque escroquerie aux faux colis ou remboursement de colis » ayant contribué à détourner de 20 à 30 millions d’euros entre 2021 et 2025.

Le groupe, surnommé « Zulon », opérait « depuis au moins quatre ans » une chaîne Telegram baptisée « Refund France ». Elle proposait à ses abonnés des « services de remboursement frauduleux de colis, ainsi que des modes d’emploi et des formations pour flouer les plates-formes commerciales en ligne », résume Le Parisien :

« Ainsi expliquaient-ils comment renvoyer un colis vide, abîmé ou le faire égarer tout en obtenant quand même un remboursement de la commande. »

Moyennant commission, ils les incitaient à passer des « commandes massives » sur des plateformes de commerce en ligne comme Amazon, Auchan, Leroy-Merlin ou Ikea. Des facteurs complices, grâce à leurs téléphones professionnels Facteo, scannaient les codes-barres pour déclencher de « faux retours » via Colissimo ou Chronopost, quand bien même les acquéreurs ne renvoyaient pas leurs commandes, pour en profiter ou les revendre.

Le Parisien explique que les plateformes de commerce en ligne procèdent en effet à un « remboursement immédiat » dès la création d’un code barre de retour, sans attendre que le colis soit renvoyé, « les enseignes souhaitant améliorer toujours plus l’expérience client pour se démarquer dans un milieu très concurrentiel ».

Le fondateur présumé, un Français d’une vingtaine d’années installé à Dubaï, « présenté comme un génie de l’informatique », a été arrêté alors qu’il revenait pour des raisons familiales. Par ailleurs atteint de troubles psychiatriques, il a depuis été hospitalisé d’office en psychiatrie.

Le suspect, qualifié de « geek anticapitaliste » par le Parisien, aurait justifié ces arnaques « par le fait de défendre le consommateur face à une industrie libérale prétendument effrénée, qu’il voudrait déstabiliser », résume Le Parisien, arguant que les plateformes seraient de toute façon remboursées par leurs assurances.

Un avocat parisien d’une trentaine d’années, spécialisé dans le droit des affaires, qui aurait détourné plus de 140 000 euros de commandes remboursées, aurait en outre supervisé certaines des opérations du groupe Zulon. Il a, lui aussi, été incarcéré, tout comme deux autres membres du groupe.

À partir d’avant-hierFlux principal

[Récap] Nous avons découvert des milliers de sites d’info générés par IA : tous nos articles

8 mars 2025 à 07:29
« Mais tu écris n'importe quoi, en fait »
[Récap] Nous avons découvert des milliers de sites d’info générés par IA : tous nos articles

Entamée début 2024, notre enquête sur les soi-disant « sites d’information » générés par IA (GenAI) a donné lieu de multiples révélations depuis la publication de ses premiers articles, début février. Signe de l’ampleur de cette pollution médiatique : notre enquête nous avait permis d’en identifier une centaine en octobre 2024, 500 à Noël, 1 000 fin janvier, plus de 2 000 mi-février, près de 3 000 début mars…

Vu l’ampleur du problème, nous avions donc proposé au service de fact-checking CheckNews de Libération, ainsi qu’à des fact-checkers de Wikipédia, de nous aider à enquêter sur ce qui s’apparente à une véritable « pollution » numérique et médiatique.

Près de 150 des 500 sites GenAI que nous avions initialement identifiés étaient en effet mentionnés comme « sources » sur Wikipédia. Et ce, alors que leurs articles ne semblent avoir été ni relus, ni corrigés, ni validés avant leur publication automatisée (et, donc, sans supervision humaine).

La plupart des articles mentionnés dans l’encyclopédie avaient été publiés avant que leurs noms de domaine (expirés) ne soient rachetés par des professionnels du référencement – SEO – et du marketing numérique. Ces sites n’en restent pas moins référencés sur Google Actualités, quand bien même ils n’émanent donc pas de « journalistes » ni de « médias » reconnus par la profession, que leurs articles sont générés par IA, et qu’ils polluent le moteur de recherche et son algorithme de recommandation Discover.

Nous avons depuis également découvert que, parmi la centaine de professionnels du référencement (SEO) et du marketing numérique qui les administrent, certains en gèrent plusieurs centaines, et même plusieurs milliers, sans être en capacité d’identifier combien polluent de la sorte Google, et particulièrement Google Actualités.

Nous avons bien évidemment détaillé notre méthodologie, challengée et vérifiée par les deux contributeurs expérimentés de l’encyclopédie Wikipédia, et les deux journalistes du service de fact-checking CheckNews de Libération.

Next a en outre développé une extension pour les navigateurs compatibles Chrome et Firefox (y compris sur Android), afin d’alerter ses utilisateurs lorsqu’ils consultent un site GenAI (cf sa présentation, et notre méthodologie). Elle les alerte aussi désormais lorsqu’ils visitent aussi des noms de domaines « potentiellement malveillants » identifiés par Red Flag Domains, et des « entités non autorisées à proposer des produits ou services financiers en France » par l’Autorité des marchés financiers.

40 médias français ont depuis demandé à la Justice d’ordonner aux FAI le blocage du site news.dayfr.com. Ce dernier, le plus bourrin du millier de sites d’informations générés par IA que nous avons identifiés, plagiait de 5 à 15 articles… par minute, et jusqu’à plus de 6 000 par jour. Ironie de l’histoire : il a aussi été jusqu’à…. plagier deux des articles mentionnant la plainte le concernant.

Une enquête de l’équipe « pour une IA responsable » de la BBC a par ailleurs découvert que plus de la moitié des réponses fournies par les assistants d’intelligence artificielle (IA) à qui il avait été demandé de chercher leurs réponses dans les articles de la BBC étaient « factuellement incorrectes, trompeuses et potentiellement dangereuses ». Mais également que 20 % d’entre elles ont en outre rajouté des « inexactitudes factuelles » qui ne figuraient pas dans les articles pourtant mentionnés.

Plus d’une centaine (au moins, et probablement plusieurs centaines, voire milliers) des sites GenIA que nous avions initialement identifiés plagient en outre des articles de véritables journalistes, sans mentionner leurs sources ni préciser qu’ils ont été générés avec des IA. Ils sont pourtant, pour la plupart, référencés sur Google Actualités, et parfois relayés par son IA de recommandation algorithmique Discover. Certains se contentent de traduire des articles en français quand d’autres les paraphrasent, rendant leurs plagiats plus difficiles à identifier.

Interrogé par Arrêt sur images, à qui nous avions transmis notre enquête à son sujet, le patron du groupe de presse Économie Matin, par ailleurs co-directeur pédagogique d’une école de journalisme d’extrême-droite, a reconnu que ses articles étaient bien générés par IA, contrairement à ce que son rédacteur en chef adjoint prétendait initialement. Ce dernier, par ailleurs « prompt engineer » du groupe, attribue de son côté les dizaines de plagiats que nous avons en outre identifiés à un « bug du script » envoyé à ChatGPT qui, « étant complètement idiot, parfois, ne fait pas ce qu’on lui dit » (sic).

Notre enquête nous a valu quelques remarques acerbes de la part de professionnels du SEO, au motif que le fait de rendre public le fait que certains de leurs sites sont GenAI pourrait nuire à leur business :

« Les gens veulent manger de la merde ? Donnez en leur à la pelle plutôt que d essayer de buzzer et cherchant à bousiller le business de milliers de sites. »

L’un d’entre eux nous a par exemple rétorqué que de nombreux médias français avaient récemment relayé une « rumeur »… qu’ils n’auraient cela dit probablement pas relayée si les journalistes avaient été informés que l’information initiale avait en fait été « hallucinée » dans des articles générés par IA.

Les sites d’information de la presse quotidienne régionale (PQR) sont, eux aussi, de plus en plus victimes de pure players qui les concurrencent, voire les plagient, tout en étant générés par des IA. Si certains se positionnent comme des « médias indépendants », d’autres ne cherchent qu’à faire du clic. Au point que des journalistes de la PQR se retrouvent à devoir fact-checker des infos erronées car « hallucinées » par les IA qui les publient.

Après avoir analysé un échantillon de 8 795 posts LinkedIn publics de plus de 100 mots publiés entre janvier 2018 et octobre 2024, une start-up de détection de contenus générés par IA a par ailleurs découvert que plus de 50 % d’entre eux étaient GenAI, et que le nombre de messages longs susceptibles d’avoir été générés par IA avait explosé de 189 % dans les mois suivants le lancement de ChatGPT.

Dans son (216e) podcast, Mediarama a en outre reçu Alexandre Laurent, directeur de la rédaction de Next.ink, pour discuter de notre enquête-fleuve sur les 2 000 (au moment de l’enregistrement, mi-février) 3 000 (depuis début mars) « sites d’information » en tout ou partie générés par IA (GenAI) que nous avons identifiés, où il résume (et revient sur) les articles que nous y avons consacrés.

[à suivre…]

[Récap] Nous avons découvert des milliers de sites d’info générés par IA : tous nos articles

8 mars 2025 à 07:29
« Mais tu écris n'importe quoi, en fait »
[Récap] Nous avons découvert des milliers de sites d’info générés par IA : tous nos articles

Entamée début 2024, notre enquête sur les soi-disant « sites d’information » générés par IA (GenAI) a donné lieu de multiples révélations depuis la publication de ses premiers articles, début février. Signe de l’ampleur de cette pollution médiatique : notre enquête nous avait permis d’en identifier une centaine en octobre 2024, 500 à Noël, 1 000 fin janvier, plus de 2 000 mi-février, près de 3 000 début mars…

Vu l’ampleur du problème, nous avions donc proposé au service de fact-checking CheckNews de Libération, ainsi qu’à des fact-checkers de Wikipédia, de nous aider à enquêter sur ce qui s’apparente à une véritable « pollution » numérique et médiatique.

Près de 150 des 500 sites GenAI que nous avions initialement identifiés étaient en effet mentionnés comme « sources » sur Wikipédia. Et ce, alors que leurs articles ne semblent avoir été ni relus, ni corrigés, ni validés avant leur publication automatisée (et, donc, sans supervision humaine).

La plupart des articles mentionnés dans l’encyclopédie avaient été publiés avant que leurs noms de domaine (expirés) ne soient rachetés par des professionnels du référencement – SEO – et du marketing numérique. Ces sites n’en restent pas moins référencés sur Google Actualités, quand bien même ils n’émanent donc pas de « journalistes » ni de « médias » reconnus par la profession, que leurs articles sont générés par IA, et qu’ils polluent le moteur de recherche et son algorithme de recommandation Discover.

Nous avons depuis également découvert que, parmi la centaine de professionnels du référencement (SEO) et du marketing numérique qui les administrent, certains en gèrent plusieurs centaines, et même plusieurs milliers, sans être en capacité d’identifier combien polluent de la sorte Google, et particulièrement Google Actualités.

Nous avons bien évidemment détaillé notre méthodologie, challengée et vérifiée par les deux contributeurs expérimentés de l’encyclopédie Wikipédia, et les deux journalistes du service de fact-checking CheckNews de Libération.

Next a en outre développé une extension pour les navigateurs compatibles Chrome et Firefox (y compris sur Android), afin d’alerter ses utilisateurs lorsqu’ils consultent un site GenAI (cf sa présentation, et notre méthodologie). Elle les alerte aussi désormais lorsqu’ils visitent aussi des noms de domaines « potentiellement malveillants » identifiés par Red Flag Domains, et des « entités non autorisées à proposer des produits ou services financiers en France » par l’Autorité des marchés financiers.

40 médias français ont depuis demandé à la Justice d’ordonner aux FAI le blocage du site news.dayfr.com. Ce dernier, le plus bourrin du millier de sites d’informations générés par IA que nous avons identifiés, plagiait de 5 à 15 articles… par minute, et jusqu’à plus de 6 000 par jour. Ironie de l’histoire : il a aussi été jusqu’à…. plagier deux des articles mentionnant la plainte le concernant.

Une enquête de l’équipe « pour une IA responsable » de la BBC a par ailleurs découvert que plus de la moitié des réponses fournies par les assistants d’intelligence artificielle (IA) à qui il avait été demandé de chercher leurs réponses dans les articles de la BBC étaient « factuellement incorrectes, trompeuses et potentiellement dangereuses ». Mais également que 20 % d’entre elles ont en outre rajouté des « inexactitudes factuelles » qui ne figuraient pas dans les articles pourtant mentionnés.

Plus d’une centaine (au moins, et probablement plusieurs centaines, voire milliers) des sites GenIA que nous avions initialement identifiés plagient en outre des articles de véritables journalistes, sans mentionner leurs sources ni préciser qu’ils ont été générés avec des IA. Ils sont pourtant, pour la plupart, référencés sur Google Actualités, et parfois relayés par son IA de recommandation algorithmique Discover. Certains se contentent de traduire des articles en français quand d’autres les paraphrasent, rendant leurs plagiats plus difficiles à identifier.

Interrogé par Arrêt sur images, à qui nous avions transmis notre enquête à son sujet, le patron du groupe de presse Économie Matin, par ailleurs co-directeur pédagogique d’une école de journalisme d’extrême-droite, a reconnu que ses articles étaient bien générés par IA, contrairement à ce que son rédacteur en chef adjoint prétendait initialement. Ce dernier, par ailleurs « prompt engineer » du groupe, attribue de son côté les dizaines de plagiats que nous avons en outre identifiés à un « bug du script » envoyé à ChatGPT qui, « étant complètement idiot, parfois, ne fait pas ce qu’on lui dit » (sic).

Notre enquête nous a valu quelques remarques acerbes de la part de professionnels du SEO, au motif que le fait de rendre public le fait que certains de leurs sites sont GenAI pourrait nuire à leur business :

« Les gens veulent manger de la merde ? Donnez en leur à la pelle plutôt que d essayer de buzzer et cherchant à bousiller le business de milliers de sites. »

L’un d’entre eux nous a par exemple rétorqué que de nombreux médias français avaient récemment relayé une « rumeur »… qu’ils n’auraient cela dit probablement pas relayée si les journalistes avaient été informés que l’information initiale avait en fait été « hallucinée » dans des articles générés par IA.

Les sites d’information de la presse quotidienne régionale (PQR) sont, eux aussi, de plus en plus victimes de pure players qui les concurrencent, voire les plagient, tout en étant générés par des IA. Si certains se positionnent comme des « médias indépendants », d’autres ne cherchent qu’à faire du clic. Au point que des journalistes de la PQR se retrouvent à devoir fact-checker des infos erronées car « hallucinées » par les IA qui les publient.

Après avoir analysé un échantillon de 8 795 posts LinkedIn publics de plus de 100 mots publiés entre janvier 2018 et octobre 2024, une start-up de détection de contenus générés par IA a par ailleurs découvert que plus de 50 % d’entre eux étaient GenAI, et que le nombre de messages longs susceptibles d’avoir été générés par IA avait explosé de 189 % dans les mois suivants le lancement de ChatGPT.

Dans son (216e) podcast, Mediarama a en outre reçu Alexandre Laurent, directeur de la rédaction de Next.ink, pour discuter de notre enquête-fleuve sur les 2 000 (au moment de l’enregistrement, mi-février) 3 000 (depuis début mars) « sites d’information » en tout ou partie générés par IA (GenAI) que nous avons identifiés, où il résume (et revient sur) les articles que nous y avons consacrés.

[à suivre…]

☕️ #LIDD : un podcast sur notre enquête-fleuve GenAI et le modèle éco de Next.ink

8 mars 2025 à 05:30

Dans son dernier (et 216e) podcast, Mediarama a reçu Alexandre Laurent, directeur de la rédaction de Next.ink, pour discuter de notre enquête-fleuve sur les 2 000 (au moment de l’enregistrement, mi-février) 3 000 (depuis début mars) « sites d’information » en tout ou partie générés par IA (GenAI) que nous avons identifiés, auxquels nous avons consacré plusieurs articles le mois dernier.

Une bonne partie du podcast (de la 7e à la 41e minute) revient sur les coulisses de cette enquête entamée il y a maintenant plus d’un an, les dérives et problèmes que nous avons constatés, comment nous avons fait pour les identifier, et le rôle de Google dans leur prolifération.

Le podcast revient ensuite sur les problèmes qu’avaient rencontrés NextINpact.com par le passé, le rachat par @Ferd & moji, la renaissance de Next.ink, son modèle économique « RSE » et « radical » (« 100 % abonnements, 0% cookies »), ainsi que les défis concernant la conquête et la conversion des abonnés :

« Un épisode incontournable pour tous ceux qui s’intéressent à l’avenir du journalisme numérique, aux enjeux de l’IA et aux défis d’un média 100% indépendant. »

☕️ #LIDD : un podcast sur notre enquête-fleuve GenAI et le modèle éco de Next.ink

8 mars 2025 à 05:30

Dans son dernier (et 216e) podcast, Mediarama a reçu Alexandre Laurent, directeur de la rédaction de Next.ink, pour discuter de notre enquête-fleuve sur les 2 000 (au moment de l’enregistrement, mi-février) 3 000 (depuis début mars) « sites d’information » en tout ou partie générés par IA (GenAI) que nous avons identifiés, auxquels nous avons consacré plusieurs articles le mois dernier.

Une bonne partie du podcast (de la 7e à la 41e minute) revient sur les coulisses de cette enquête entamée il y a maintenant plus d’un an, les dérives et problèmes que nous avons constatés, comment nous avons fait pour les identifier, et le rôle de Google dans leur prolifération.

Le podcast revient ensuite sur les problèmes qu’avaient rencontrés NextINpact.com par le passé, le rachat par @Ferd & moji, la renaissance de Next.ink, son modèle économique « RSE » et « radical » (« 100 % abonnements, 0% cookies »), ainsi que les défis concernant la conquête et la conversion des abonnés :

« Un épisode incontournable pour tous ceux qui s’intéressent à l’avenir du journalisme numérique, aux enjeux de l’IA et aux défis d’un média 100% indépendant. »

TrackingFiles : des agents de la DGSE ont (encore) été géolocalisés via leurs portables

7 mars 2025 à 15:41
ADINT - OPSEC = PEBCAK
TrackingFiles : des agents de la DGSE ont (encore) été géolocalisés via leurs portables

Sept ans après les premières révélations concernant la possibilité de géolocaliser des militaires et membres de services de renseignement, voire même d’identifier leurs domiciles et véritables identités, via la géolocalisation de leurs téléphones portables, une nouvelle enquête vient remettre le couvert.

Des journalistes de « L’Œil du 20 heures » de France Télévisions et de Franceinfo racontent s’être fait passer pour une entreprise de marketing fictive auprès d’un « data broker » états-unien. Ce dernier leur a expliqué disposer de données émanant de 25 millions de téléphones portables en France, et être en capacité de leur fournir « plus d’un milliard de points GPS au mètre et à la minute près, à travers tout le pays » pour seulement quelques milliers d’euros par mois :

« Cela vous coûterait entre 7 500 et 10 000 dollars par mois d’avoir ces données, c’est le prix en ce moment pour les données françaises. Vous êtes une petite boîte, donc on vous fait un bon prix. »

« Nous respectons la législation européenne, plein d’entreprises utilisent nos données pour des campagnes d’affichage dans la rue, ou de la publicité ciblée », ajoutait le broker, sans pour autant préciser d’où provenaient les données.

15 minutes seulement après être entrés en contact avec l’un de ses concurrents, ils se voyaient proposer un échantillon commercial gratuit constitué de plusieurs centaines de fichiers, couvrant une période de deux semaines en janvier 2025.

Les données, émanant de 11,7 millions de téléphones et totalisant plus d’un milliard de coordonnées GPS, sont a priori anonymes, et uniquement reliées aux identifiants publicitaires associés aux téléphones.

Traquer des convoyeurs de fonds ou membres de la DGSE jusqu’à leurs domiciles

Les journalistes ont cela dit pu identifier 400 téléphones bornant au siège de France Télévisions, suivre en particulier les déplacements de l’une de ses employés, mais aussi et surtout ceux de convoyeurs de fonds de la Brink’s, jusqu’à leurs domiciles.

Contactée, la société de sécurité explique que leurs téléphones professionnels « ne sont pas traçables », qu’il est impossible d’y télécharger une application, et qu’il leur est pourtant demandé d’éteindre leurs téléphones personnels au travail.

Les données ont également permis aux journalistes d’identifier 366 téléphones géolocalisés à l’Élysée, 440 au ministère des Affaires étrangères, et des centaines d’autres dans d’autres ministères, centrales nucléaires et bases militaires, notamment.

Plus inquiétant : ils en ont même identifié 749 au Fort de Noisy, une emprise de la DGSE à Romainville, en Seine-Saint-Denis (les points laissent cela dit supposer qu’un certain nombre émanerait de personnes identifiées aux abords immédiats du Fort, sans forcément y être entrés, la géolocalisation n’étant pas précise au mètre près), et « 37 téléphones qui bornent régulièrement dans l’enceinte » du centre parachutiste d’entraînement spécialisé (CPES) du Service Action de la DGSE à Cercottes, dans le Loiret :

« Des trajets entre le fort de Noisy et Cercottes permettent de conclure qu’il s’agit de membres de la DGSE. S’il est impossible de connaître leur fonction exacte, il est aisé d’en apprendre beaucoup sur ces personnes. On peut ainsi savoir où elles font leurs courses, mais aussi où elles passent leurs soirées. »

Ils auraient également réussi à identifier les domiciles de plusieurs personnes travaillant pour le service de renseignement, ou encore à « retrouver des identités probables de personnes passant leurs journées au camp de Cercottes », et même à remonter jusqu’à des comptes de réseaux sociaux.

Un problème dûment identifié depuis (au moins) 7 ans

Contactée, la DGSE « ne fera pas de commentaire sur la manière dont on appréhende l’existence de ces données », précisant cela dit qu’il s’agit « de choses qui sont effectivement connues ».

Le fait de pouvoir identifier des militaires et employés de services de renseignement à partir des données de géolocalisation de leurs téléphones portables est connu depuis au moins 2018, après qu’un OSINTeur a identifié sur le réseau social de sportifs Strava des forces spéciales en Irak et en Syrie, et l’auteur de ces lignes des agents de la DGSE (et de la DGSI, aussi).

Quand j'ai trouvé un joggeur se géolocalisant au QG de la DGSE, j'ai demandé à un ancien ce qu'il risquait: "cher, sauf s'ils sont plusieurs: dur d'en sanctionner un et pas les autres".
Au final, j'en ai trouvé plus de 25 (à la DGSI aussi)… dont le n°2 :https://t.co/SuPMgjlaNF

— jean marc manach (@manhack) March 30, 2018

Next avait également raconté comment nous avions, dans la foulée, été en mesure de géolocaliser et d’identifier des centaines d’agents de service de renseignement états-uniens, britanniques et israéliens, pendant quatre ans, sans que leurs services de contre-espionnage respectifs ne s’en aperçoivent.

Ce n’est qu’après avoir été dénoncé au Mossad par un OSINTeur israélien que notre compte Strava fut finalement coupé. Fin 2024, Le Monde avait de son côté raconté dans ses « StravaLeaks » comment le réseau social de sportifs lui avait permis d’identifier et suivre les déplacements de gardes du corps des présidents français, russes et états-uniens.

L’ADvertising INTelligence (ADINT), nouvel or noir des services de renseignement

Nicolas Lerner, directeur général de la sécurité extérieure (DGSE), avait de son côté opportunément pointé du doigt les problèmes, encore plus grands, que semblaient lui poser l’ADINT (pour ADvertising INTelligence), du nom donné à la collecte de données publicitaires, potentiellement encore plus intrusives.

Faisant suite à d’autres investigations de ce type effectuées aux USA, en Norvège, aux Pays-Bas et en Suisse, BR, le service public audiovisuel de la Bavière) et le média indépendant netzpolitik.org avaient eux aussi révélé, dans toute une série d’articles, qu’il était possible de géolocaliser des personnes à l’intérieur de bâtiments de l’armée et des services de renseignement allemands, mais également dans les installations américaines sensibles en Allemagne, où les États-Unis maintiennent une force d’au moins 35 000 soldats.

Intelligence Online relève pour sa part, en réaction aux « TrackingFiles », que « l’achat de données publicitaires et de géolocalisation via des brokers spécialisés est, depuis un certain temps déjà, utilisé par la plupart des services de renseignement pour leur propre collecte » :

« La pratique a déjà ses acronymes, signe de son institutionnalisation dans les communautés du renseignement : les Commercially Available Information (CAI) et le Commercially Sourced Intelligence (CSINT) du point de vue des services, l’ADINT (Advertising Intelligence) du point de vue des opérateurs commerciaux. »

Une pratique répandue qui rend d’autant plus étonnant le fait que, sept ans après les premières révélations au sujet de Strava, des dizaines voire centaines d’agents de la DGSE continuent de se géolocaliser à l’intérieur des emprises du service de renseignement. Signe que les bases de l’OPSEC (pour « OPerations SECurity », Sécurité opérationnelle en français), à savoir le fait de se protéger des risques autres que ceux relatifs à la cybersécurité, semblent encore être ignorées.

Il leur suffirait pourtant, tout simplement, de ne pas laisser la géolocalisation activée par défaut sur leurs téléphones, et de ne la réactiver qu’en cas de nécessité, et uniquement en dehors des emprises militaires. L’Œil du 20 heures précise qu’il est aussi possible de réinitialiser l’identifiant publicitaire associé à son téléphone et qui permet de suivre ses déplacements et utilisations.

TrackingFiles : des agents de la DGSE ont (encore) été géolocalisés via leurs portables

7 mars 2025 à 15:41
ADINT - OPSEC = PEBCAK
TrackingFiles : des agents de la DGSE ont (encore) été géolocalisés via leurs portables

Sept ans après les premières révélations concernant la possibilité de géolocaliser des militaires et membres de services de renseignement, voire même d’identifier leurs domiciles et véritables identités, via la géolocalisation de leurs téléphones portables, une nouvelle enquête vient remettre le couvert.

Des journalistes de « L’Œil du 20 heures » de France Télévisions et de Franceinfo racontent s’être fait passer pour une entreprise de marketing fictive auprès d’un « data broker » états-unien. Ce dernier leur a expliqué disposer de données émanant de 25 millions de téléphones portables en France, et être en capacité de leur fournir « plus d’un milliard de points GPS au mètre et à la minute près, à travers tout le pays » pour seulement quelques milliers d’euros par mois :

« Cela vous coûterait entre 7 500 et 10 000 dollars par mois d’avoir ces données, c’est le prix en ce moment pour les données françaises. Vous êtes une petite boîte, donc on vous fait un bon prix. »

« Nous respectons la législation européenne, plein d’entreprises utilisent nos données pour des campagnes d’affichage dans la rue, ou de la publicité ciblée », ajoutait le broker, sans pour autant préciser d’où provenaient les données.

15 minutes seulement après être entrés en contact avec l’un de ses concurrents, ils se voyaient proposer un échantillon commercial gratuit constitué de plusieurs centaines de fichiers, couvrant une période de deux semaines en janvier 2025.

Les données, émanant de 11,7 millions de téléphones et totalisant plus d’un milliard de coordonnées GPS, sont a priori anonymes, et uniquement reliées aux identifiants publicitaires associés aux téléphones.

Traquer des convoyeurs de fonds ou membres de la DGSE jusqu’à leurs domiciles

Les journalistes ont cela dit pu identifier 400 téléphones bornant au siège de France Télévisions, suivre en particulier les déplacements de l’une de ses employés, mais aussi et surtout ceux de convoyeurs de fonds de la Brink’s, jusqu’à leurs domiciles.

Contactée, la société de sécurité explique que leurs téléphones professionnels « ne sont pas traçables », qu’il est impossible d’y télécharger une application, et qu’il leur est pourtant demandé d’éteindre leurs téléphones personnels au travail.

Les données ont également permis aux journalistes d’identifier 366 téléphones géolocalisés à l’Élysée, 440 au ministère des Affaires étrangères, et des centaines d’autres dans d’autres ministères, centrales nucléaires et bases militaires, notamment.

Plus inquiétant : ils en ont même identifié 749 au Fort de Noisy, une emprise de la DGSE à Romainville, en Seine-Saint-Denis (les points laissent cela dit supposer qu’un certain nombre émanerait de personnes identifiées aux abords immédiats du Fort, sans forcément y être entrés, la géolocalisation n’étant pas précise au mètre près), et « 37 téléphones qui bornent régulièrement dans l’enceinte » du centre parachutiste d’entraînement spécialisé (CPES) du Service Action de la DGSE à Cercottes, dans le Loiret :

« Des trajets entre le fort de Noisy et Cercottes permettent de conclure qu’il s’agit de membres de la DGSE. S’il est impossible de connaître leur fonction exacte, il est aisé d’en apprendre beaucoup sur ces personnes. On peut ainsi savoir où elles font leurs courses, mais aussi où elles passent leurs soirées. »

Ils auraient également réussi à identifier les domiciles de plusieurs personnes travaillant pour le service de renseignement, ou encore à « retrouver des identités probables de personnes passant leurs journées au camp de Cercottes », et même à remonter jusqu’à des comptes de réseaux sociaux.

Un problème dûment identifié depuis (au moins) 7 ans

Contactée, la DGSE « ne fera pas de commentaire sur la manière dont on appréhende l’existence de ces données », précisant cela dit qu’il s’agit « de choses qui sont effectivement connues ».

Le fait de pouvoir identifier des militaires et employés de services de renseignement à partir des données de géolocalisation de leurs téléphones portables est connu depuis au moins 2018, après qu’un OSINTeur a identifié sur le réseau social de sportifs Strava des forces spéciales en Irak et en Syrie, et l’auteur de ces lignes des agents de la DGSE (et de la DGSI, aussi).

Quand j'ai trouvé un joggeur se géolocalisant au QG de la DGSE, j'ai demandé à un ancien ce qu'il risquait: "cher, sauf s'ils sont plusieurs: dur d'en sanctionner un et pas les autres".
Au final, j'en ai trouvé plus de 25 (à la DGSI aussi)… dont le n°2 :https://t.co/SuPMgjlaNF

— jean marc manach (@manhack) March 30, 2018

Next avait également raconté comment nous avions, dans la foulée, été en mesure de géolocaliser et d’identifier des centaines d’agents de service de renseignement états-uniens, britanniques et israéliens, pendant quatre ans, sans que leurs services de contre-espionnage respectifs ne s’en aperçoivent.

Ce n’est qu’après avoir été dénoncé au Mossad par un OSINTeur israélien que notre compte Strava fut finalement coupé. Fin 2024, Le Monde avait de son côté raconté dans ses « StravaLeaks » comment le réseau social de sportifs lui avait permis d’identifier et suivre les déplacements de gardes du corps des présidents français, russes et états-uniens.

L’ADvertising INTelligence (ADINT), nouvel or noir des services de renseignement

Nicolas Lerner, directeur général de la sécurité extérieure (DGSE), avait de son côté opportunément pointé du doigt les problèmes, encore plus grands, que semblaient lui poser l’ADINT (pour ADvertising INTelligence), du nom donné à la collecte de données publicitaires, potentiellement encore plus intrusives.

Faisant suite à d’autres investigations de ce type effectuées aux USA, en Norvège, aux Pays-Bas et en Suisse, BR, le service public audiovisuel de la Bavière) et le média indépendant netzpolitik.org avaient eux aussi révélé, dans toute une série d’articles, qu’il était possible de géolocaliser des personnes à l’intérieur de bâtiments de l’armée et des services de renseignement allemands, mais également dans les installations américaines sensibles en Allemagne, où les États-Unis maintiennent une force d’au moins 35 000 soldats.

Intelligence Online relève pour sa part, en réaction aux « TrackingFiles », que « l’achat de données publicitaires et de géolocalisation via des brokers spécialisés est, depuis un certain temps déjà, utilisé par la plupart des services de renseignement pour leur propre collecte » :

« La pratique a déjà ses acronymes, signe de son institutionnalisation dans les communautés du renseignement : les Commercially Available Information (CAI) et le Commercially Sourced Intelligence (CSINT) du point de vue des services, l’ADINT (Advertising Intelligence) du point de vue des opérateurs commerciaux. »

Une pratique répandue qui rend d’autant plus étonnant le fait que, sept ans après les premières révélations au sujet de Strava, des dizaines voire centaines d’agents de la DGSE continuent de se géolocaliser à l’intérieur des emprises du service de renseignement. Signe que les bases de l’OPSEC (pour « OPerations SECurity », Sécurité opérationnelle en français), à savoir le fait de se protéger des risques autres que ceux relatifs à la cybersécurité, semblent encore être ignorées.

Il leur suffirait pourtant, tout simplement, de ne pas laisser la géolocalisation activée par défaut sur leurs téléphones, et de ne la réactiver qu’en cas de nécessité, et uniquement en dehors des emprises militaires. L’Œil du 20 heures précise qu’il est aussi possible de réinitialiser l’identifiant publicitaire associé à son téléphone et qui permet de suivre ses déplacements et utilisations.

La presse régionale est, elle aussi, cannibalisée par des sites d’infos générés par IA

6 mars 2025 à 10:17
PQAIR guitar
La presse régionale est, elle aussi, cannibalisée par des sites d’infos générés par IA

Les sites d’information de la presse quotidienne régionale (PQR) sont de plus en plus victimes de pure players qui les concurrencent, voire les plagient, tout en étant générés par des IA. Si certains se positionnent comme des « médias indépendants », d’autres ne cherchent qu’à faire du clic. Au point que des journalistes de la PQR se retrouvent à devoir fact-checker des infos erronées car « hallucinées » par les IA qui les publient.

Si la majeure partie des plus de 2 000 sites d’information générés par IA (GenAI) que nous avons identifiés tirent « tous azimuts », cherchant à concurrencer (voire plagier) les médias généralistes ou spécialisés, plusieurs cherchent tout particulièrement à concurrencer les sites d’informations de la presse quotidienne régionale (PQR).

Au point, pour certains, de les plagier, à l’instar de Breizh-Info, un site d’extrême-droite identitaire et conspirationniste dont les actualités régionales ne sont souvent, par ailleurs, que des « plagiats » d’articles préalablement publiés sur d’autres sites de la PQR (cf notre enquête).

Jusqu’à sa fermeture, mi-novembre, Gilles Charles, directeur de la publication « par interim » (sic) de GILLESCHARLES.INFO (GC!), le présentait comme « un site d’information nationale » (sic). Les articles de GC! montraient cela dit un focus tout particulier sur le département de la Loire et la métropole de Saint-Étienne, par ailleurs préfecture du département.

Sa chaîne YouTube contient plusieurs anciennes vidéos qualifiant Gilles Charles du sobriquet de « Stéphanois à la casquette », du nom du site web éponyme qu’il avait alors créé (archive) pour promouvoir les commerces et initiatives de sa ville de prédilection.

L’un de ces reportages, émanant de France 3 Loire, le présentait comme une « figure des réseaux sociaux » locaux, mais également comme un « accidenté de la vie, divorcé, handicapé et chômeur de longue durée », devenu présentateur sur une radio associative. « Demain, micros éteints, il retrouvera son quotidien : la précarité », concluait le journaliste.


Il reste 91% de l'article à découvrir.
Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

#ChatControl : la Médiatrice européenne condamne le pantouflage de deux anciens d’Europol

5 mars 2025 à 08:46
Europopol
#ChatControl : la Médiatrice européenne condamne le pantouflage de deux anciens d’Europol

La journaliste irlandaise Emily O’Reilly, médiatrice européenne depuis 2013, estime que la façon qu’a eu Europol de traiter les potentiels conflits d’intérêt de ses deux anciens employés « relevait de la mauvaise administration ». Europol a de son côté accepté de réviser ses procédés afin d’éviter les erreurs.

L’affaire concernait la manière dont Europol, l’Agence européenne de coopération policière, avait géré le transfert de deux de ses anciens membres du personnel vers Thorn, une entité privée états-unienne. Cette dernière développe en effet des solutions logicielles basées sur l’IA pour détecter les contenus pédopornographiques (CSAM) en ligne, alors que l’UE envisageait précisément d’adopter une proposition controversée de règlement visant à prévenir et combattre les abus sexuels sur enfants en ligne.

Surnommée #ChatControl par ses opposants, elle visait à scanner, de façon proactive, les contenus échangés dans les messageries (y compris chiffrées de bout en bout). Un projet irréalisable et décrié par de très nombreuses ONG, scientifiques et professionnels de la sécurité informatique, au point d’être qualifié de « projet de loi européen le plus critiqué de tous les temps ».

Après avoir quitté Europol à la fin de 2021, le premier des deux hommes avait « immédiatement » commencé à travailler en tant qu’employé pour Thorn. Le deuxième avait rejoint le conseil d’administration de Thorn en 2023 après avoir quitté Europol en 2022.

Passé d’Europol à une ONG cherchant à vendre son produit à Europol

Créée par les stars hollywoodiennes Ashton Kutcher et Demi Moore pour combattre le trafic sexuel des enfants au Cambodge, cette ONG commercialise par ailleurs des technologies reposant sur des IA permettant d’identifier les images d’abus sexuels commis sur des enfants.


Il reste 82% de l'article à découvrir.
Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

☕️ Cellebrite interdit à la police serbe d’utiliser sa technologie

27 février 2025 à 14:28

La société d’informatique légale (forensics) israélienne Cellebrite vient d’annoncer qu’elle empêchait désormais la Serbie d’utiliser sa technologie, rapporte TechCrunch.

Amnesty avait révélé, en décembre dernier, que la police serbe avait en effet déverrouillé les téléphones de dizaines de journalistes et d’activistes grâce à ses outils avant, dans certains cas, de les infecter avec le logiciel espion Novispy pour continuer à les surveiller.

Développée pour les forces de l’ordre et les entités gouvernementales, la suite de produits Cellebrite UFED permet d’extraire des données de divers appareils mobiles, même sans disposer des codes d’accès de l’utilisateur.

Dans son communiqué, Cellebrite explique qu’elle se conforme aux sanctions imposées par les États-Unis, l’Union européenne, le Royaume-Uni « et d’autres réglementations et contrôles à l’exportation » qui interdisent de faire des affaires avec certaines nations.

Elle précise en outre avoir mis en place, en 2021, un comité d’éthique et d’intégrité afin de conseiller son conseil d’administration « sur les pratiques commerciales éthiques » :

« Depuis 2020, Cellebrite a volontairement cessé de vendre à des clients dans plus de 60 pays, y compris certains pays spécifiquement cités dans le rapport d’Amnesty International. »

« Les autorités serbes doivent maintenant mener de toute urgence leurs propres enquêtes approfondies et impartiales, demander des comptes aux responsables, offrir des réparations aux victimes et mettre en place des garanties adéquates pour empêcher de nouveaux abus », a déclaré Donncha Ó Cearbhaill, responsable du laboratoire de sécurité d’Amnesty International, dans un communiqué :

« Toute nouvelle exportation de technologies de surveillance ou de criminalistique numérique vers la Serbie doit être interrompue jusqu’à ce que les autorités aient mis en place un système efficace et indépendant de contrôle et de surveillance de toute mesure susceptible de restreindre le droit à la vie privée, à la liberté d’expression ou à la liberté de réunion pacifique. »

☕️ Cellebrite interdit à la police serbe d’utiliser sa technologie

27 février 2025 à 14:28

La société d’informatique légale (forensics) israélienne Cellebrite vient d’annoncer qu’elle empêchait désormais la Serbie d’utiliser sa technologie, rapporte TechCrunch.

Amnesty avait révélé, en décembre dernier, que la police serbe avait en effet déverrouillé les téléphones de dizaines de journalistes et d’activistes grâce à ses outils avant, dans certains cas, de les infecter avec le logiciel espion Novispy pour continuer à les surveiller.

Développée pour les forces de l’ordre et les entités gouvernementales, la suite de produits Cellebrite UFED permet d’extraire des données de divers appareils mobiles, même sans disposer des codes d’accès de l’utilisateur.

Dans son communiqué, Cellebrite explique qu’elle se conforme aux sanctions imposées par les États-Unis, l’Union européenne, le Royaume-Uni « et d’autres réglementations et contrôles à l’exportation » qui interdisent de faire des affaires avec certaines nations.

Elle précise en outre avoir mis en place, en 2021, un comité d’éthique et d’intégrité afin de conseiller son conseil d’administration « sur les pratiques commerciales éthiques » :

« Depuis 2020, Cellebrite a volontairement cessé de vendre à des clients dans plus de 60 pays, y compris certains pays spécifiquement cités dans le rapport d’Amnesty International. »

« Les autorités serbes doivent maintenant mener de toute urgence leurs propres enquêtes approfondies et impartiales, demander des comptes aux responsables, offrir des réparations aux victimes et mettre en place des garanties adéquates pour empêcher de nouveaux abus », a déclaré Donncha Ó Cearbhaill, responsable du laboratoire de sécurité d’Amnesty International, dans un communiqué :

« Toute nouvelle exportation de technologies de surveillance ou de criminalistique numérique vers la Serbie doit être interrompue jusqu’à ce que les autorités aient mis en place un système efficace et indépendant de contrôle et de surveillance de toute mesure susceptible de restreindre le droit à la vie privée, à la liberté d’expression ou à la liberté de réunion pacifique. »

Cette « rumeur » relayée par de nombreux médias émanait de sites générés par IA

26 février 2025 à 12:03
IAkafokon
Cette « rumeur » relayée par de nombreux médias émanait de sites générés par IA

De nombreux médias français ont récemment relayé une « rumeur » avançant que les voitures de plus de 10 ans devraient faire l’objet d’un contrôle technique annuel, contre tous les deux ans comme c’est le cas actuellement. Or, ils ne l’auraient probablement pas relayée si les journalistes avaient été informés que l’information initiale avait été « hallucinée » dans des articles générés par IA (GenAI).

Notre enquête sur les (soi-disant) sites d’information générés par IA (GenAI) nous a valu quelques remarques acerbes de la part de professionnels du SEO, notamment sur X.com, au motif que le fait de rendre public le fait que certains de leurs sites sont GenAI pourrait nuire à leur business. « Le problème de fond est amha qu’internet a rendu la presse obsolète, comme les agents de change, les agences de voyage et beaucoup d’autres métiers », a-t-on pu aussi lire.

Leur principale critique tient au fait que nombre de journalistes se contentent de paraphraser des dépêches AFP (notamment), et qu’ils ne voyaient donc pas pourquoi ils ne pourraient pas le faire, eux aussi, de sorte de se « partager le gâteau » (sic) en mode « Ils veulent nous enleves (sic) le pain de la bouche les salauds ! », au point, pour l’un d’entre-eux, de nous rétorquer :

« Les gens veulent manger de la merde ? Donnez en leur à la pelle plutôt que d essayer de buzzer et cherchant à bousiller le business de milliers de sites. »

En 2017, l’économiste Julia Cagé et deux chercheurs de l’INA avaient en effet découvert que, pour ce qui est des actualités « chaudes », 64 % de l’information publiée en ligne correspondait « à du copié-collé pur et simple ». Ils estimaient alors que « Ce recours croissant au copié-collé, combiné à une vitesse de propagation extrêmement élevée de l’information en ligne, risque de tuer les incitations des médias à produire de l’information originale ».

À l’époque, Libé relevait en outre qu’en excluant les reprises de dépêches de l’AFP, ce taux de copie restait de 41 % : « Est-ce à dire que les sites copient allègrement d’autres sites qui en ont eux-mêmes copié d’autres à partir de l’AFP dans une chaîne sans fin ? »

« L’automatisation est un formidable progrès pour le journalisme si elle permet aux journalistes de se concentrer sur leur travail de journalistes et d’éviter de dépenser du temps et de l’énergie dans des tâches répétitives pour lesquelles leur valeur ajoutée est faible », voulaient alors croire les auteurs, qui pensaient que le développement de l’intelligence artificielle pourrait y aider.

Qu’est-ce qui pourrait mal tourner ?

Voire. Si, dans les rédactions, les journalistes chargés du « desk » et donc de l’actualité « chaude », doivent souvent « bâtonner de la dépêche » pour reprendre l’expression (hélas) consacrée dans le métier, et donc reprendre des informations sans avoir généralement le temps de les vérifier, les sites d’infos générés par IA ont, de leur côté, industrialisé le processus. Au point de publier des dizaines, des centaines, voire jusqu’à plus de 6 000 articles par jour, comme c’était le cas avec le site News.dayFR.

Or, les articles émanant d’un « desk » sont (a priori) censés être relus avant publication, tant pour des raisons grammaticales et orthographiques qu’éditoriales. A contrario, les sites d’info GenAI semblent, pour la plupart, être complètement automatisés, sans supervision humaine, sans que leurs articles soient vérifiés ni même relus avant publication, comme nous l’avons démontré avec notre enquête sur le groupe de presse Économie Matin (qui emploie pourtant des journalistes professionnels, titulaires de la carte de presse).

De plus, la quasi-totalité des sites d’infos GenAI que nous avons identifiés ne mentionnent pas les sources des articles qu’ils paraphrasent (et plagient, faute de mentionner leurs sources), allant dans certains cas jusqu’à « halluciner » et déformer informations et citations, faute de supervision et donc de vérification des articles avant qu’ils ne soient publiés.

L’un de nos contradicteurs se vante ainsi d’éditer plus de 600 sites, pour seulement 10 employés revendiqués (« le double », nous a-t-il répondu, lorsque nous lui avons fait remarquer que, à Next, « Nous on est 8 pour 1 seul » site), rendant matériellement impossible le fait de vérifier les centaines voire milliers d’articles GenAI qu’il n’en publie donc pas moins « à la pelle ».

« Je préfère un peu d’hallucination plutôt que de tromper le monde »

Un tweet de Paul Sanchez, PDG de l’agence SEO Hackers (dont notre extension a flaggué quelques sites d’infos GenAI, sans que l’on sache, par ailleurs, combien elle en a créé), revenait à ce titre récemment sur « un bel exemple de propagation sans vérification » par certains médias d’une « rumeur » mal sourcée.

Il y insinuait que les problèmes posés par les sites d’infos GenAI devraient être relativisés du fait de ces « copier-collers » émanant de (vrais) journalistes, dressant une « chronologie d’une fake news concernant le « contrôle technique obligatoire tous les ans » venant des médias et non des réseaux comme certains journaux l’affirment ». Ou comment « une fausse info se propage… non pas à partir des réseaux sociaux, mais depuis la presse ».

Un tweet commenté et partagé par de nombreux autres professionnels du SEO, en défense de leurs articles GenAI , en mode : « Et après on vient nous casser les cacahuètes avec de la GenAI ? Je préfère un peu d’hallucination plutôt que de tromper le monde… »

Or, la « rumeur » en question émanait en fait d’articles générés par IA, qui avaient « halluciné » une (véritable) information, initialement publiée par un journaliste (spécialisé), sur un média digne de foi.

Les voitures connectées semblent plus problématiques que les anciennes

Le 22 janvier, un journaliste d’autoplus.fr publiait, en effet, un article intitulé « Pourquoi certaines voitures devront-elles bientôt passer le contrôle technique plus souvent ? ».

Il relayait un rapport du TÜV (abréviation de Technischer Überwachungsverein, le nom des organismes de normalisation allemands) de Süd Munich s’inquiétant du fait que « pas moins de 150 000 véhicules ont été identifiés comme présentant des « défauts dangereux » nécessitant une immobilisation immédiate ». Il préconisait d’ « imposer un contrôle technique annuel pour les véhicules de plus de dix ans, contre un contrôle bisannuel actuellement ».

L’information émanait d’un article du Spiegel (dont il ne fournissait pas le lien) soulignant que « l’âge moyen des voitures immatriculées en Allemagne est actuellement de 10,3 ans », et que « le parc automobile vieillissant devient un risque pour la sécurité routière ».

« Il est difficile de prouver si les voitures plus anciennes provoquent davantage d’accidents », y plaidait Kirstin Zeidler, responsable de la recherche sur les accidents pour les assureurs à l’Association générale du secteur allemand des assurances, reconnaissant cela dit que « nous ne disposons d’aucune recherche à ce sujet ».

« Le ministère fédéral des Transports rejette également la demande de TÜV », précisait en outre l’article du Spiegel : « Selon les conclusions disponibles, l’état technique des voitures d’occasion ne s’est pas détérioré ».

De plus, l’article soulignait que « les voitures modernes et connectées semblent être plus problématiques que les anciennes », et qu’il était par ailleurs « prévu que les voitures dotées d’une fonction de conduite autonome » soient, « bien que de tels véhicules ne soient pas encore disponibles à l’achat », contrôlées « tous les six mois ».

« Faites-vous partie des concernés ? »

Paul Sanches relève à ce titre que, le 26 janvier, soit quatre jours plus tard, « 20 Minutes (Journal des Seniors) reprend sans vérification et sans citer Auto Plus ». Il est à noter ici que si le site Journal des Seniors est hébergé sur un sous-domaine de 20minutes.fr, il est édité par une société tierce, qui se présente comme « un éditeur indépendant de médias et portails d’information à destination du grand public », et non par les journalistes de 20minutes.fr.

L’article en question, intitulé « Ces voitures devront désormais passer au contrôle technique tous les ans : faites-vous partie des concernés ? », reprenait la rumeur à son compte :

« Ces mesures ciblent les véhicules de plus de 10 ans, qui devront passer un contrôle chaque année. Aujourd’hui, cette catégorie représente une part importante du parc automobile, notamment chez les conducteurs qui préfèrent garder leur voiture thermique plutôt que d’investir dans un modèle électrique ou hybride. »


Il reste 78% de l'article à découvrir.
Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

☕️ Un proche de Donald Trump devient co-PDG de la société de reconnaissance faciale Clearview

21 février 2025 à 08:50
Un proche de Donald Trump devient co-PDG de la société de reconnaissance faciale Clearview

Hoan Ton-That a démissionné de son poste de PDG de Clearview AI, l’entreprise de reconnaissance faciale servant de prestataire aux forces de l’ordre. Il continuera à siéger à son conseil d’administration.

L’entreprise s’était fait connaître pour avoir téléchargé, sans leur consentement, des milliards de photos d’être humains sur le web et les réseaux sociaux, ce qui lui avait valu plusieurs poursuites des CNIL européennes notamment, et quelques condamnations.

En septembre 2024, TechCrunch avait calculé que Clearview AI avait accumulé « un total d’environ 100 millions d’euros d’amendes liées à la protection de la vie privée dans l’UE », que l’entreprise, qui n’a pas de représentant légal en Europe, refuse de payer.

Clearview AI se targue aujourd’hui de disposer d’une base de données de plus de 60 milliards d’images, dont l’usage serait réservé aux forces de police et agences gouvernementales.

D’après Forbes, il aurait quitté Clearview « après que l’entreprise ait eu du mal à décrocher d’importants contrats avec le gouvernement fédéral » états-unien. Une nouvelle direction a dès lors été mise en place « pour capitaliser sur les « opportunités émergentes » de l’administration Trump ».

L’entreprise est désormais co-dirigée par Hal Lambert, investisseur de la première heure et membre du conseil d’administration, co-PDG depuis décembre, aux côtés de Richard Schwartz, cofondateur de Clearview, qui supervise les opérations quotidiennes.

Les deux hommes « ont une longue histoire avec le parti républicain », relève TechCrunch. La société d’investissement de Lambert, Point Bridge Capital, est en effet connue pour avoir lancé en 2017 le MAGA ETF, un fonds d’investissement qui investit dans des sociétés soutenant les candidats républicains. Schwartz a pour sa part été conseiller principal de Rudy Giuliani lorsqu’il était maire de New York.

Ancien collecteur de fonds de Donald Trump, M. Lambert a déclaré qu’il était intervenu pour aider Clearview « avec la nouvelle administration », au motif qu’elle offrirait de nouvelles « opportunités », et qu’il entendait pouvoir « contribuer à cet effort ».

La première administration Trump avait déjà « fait pression » pour intensifier le recours à l’identification biométrique, notamment aux frontières du pays, afin de lutter contre l’immigration, rappelle Forbes.

Les priorités de la nouvelle administration, « Make America Safe Again », et la promesse de Trump d’entamer « la plus grande déportation de l’histoire de notre pays », font entrevoir à M. Lambert « une grande opportunité » pour Clearview :

« Sous l’administration Trump, nous espérons nous développer davantage que sous l’administration Biden… Nous discutons avec le [Pentagone], la Sécurité intérieure. Nous sommes également en dialogue actif avec nombre d’agences différentes ».

Clearview n’avait pas vraiment réussi à se développer sous l’administration Biden, qui s’inquiétait de l’impact que la reconnaissance faciale pourrait avoir sur les droits civils, les libertés et la vie privée, souligne Forbes. Le responsable des ventes de Clearview au Pentagone et à la communauté du renseignement avait de son côté quitté l’entreprise en décembre.

Clearview aurait réalisé un chiffre d’affaires annuel récurrent de 16 millions de dollars, « dont une grande partie a été générée par des contrats avec des organismes locaux chargés de l’application de la loi ». Hal Lambert espère que Clearview, qui n’est toujours pas rentable, triplera son chiffre d’affaires cette année.

☕️ Un proche de Donald Trump devient co-PDG de la société de reconnaissance faciale Clearview

21 février 2025 à 08:50
Un proche de Donald Trump devient co-PDG de la société de reconnaissance faciale Clearview

Hoan Ton-That a démissionné de son poste de PDG de Clearview AI, l’entreprise de reconnaissance faciale servant de prestataire aux forces de l’ordre. Il continuera à siéger à son conseil d’administration.

L’entreprise s’était fait connaître pour avoir téléchargé, sans leur consentement, des milliards de photos d’être humains sur le web et les réseaux sociaux, ce qui lui avait valu plusieurs poursuites des CNIL européennes notamment, et quelques condamnations.

En septembre 2024, TechCrunch avait calculé que Clearview AI avait accumulé « un total d’environ 100 millions d’euros d’amendes liées à la protection de la vie privée dans l’UE », que l’entreprise, qui n’a pas de représentant légal en Europe, refuse de payer.

Clearview AI se targue aujourd’hui de disposer d’une base de données de plus de 60 milliards d’images, dont l’usage serait réservé aux forces de police et agences gouvernementales.

D’après Forbes, il aurait quitté Clearview « après que l’entreprise ait eu du mal à décrocher d’importants contrats avec le gouvernement fédéral » états-unien. Une nouvelle direction a dès lors été mise en place « pour capitaliser sur les « opportunités émergentes » de l’administration Trump ».

L’entreprise est désormais co-dirigée par Hal Lambert, investisseur de la première heure et membre du conseil d’administration, co-PDG depuis décembre, aux côtés de Richard Schwartz, cofondateur de Clearview, qui supervise les opérations quotidiennes.

Les deux hommes « ont une longue histoire avec le parti républicain », relève TechCrunch. La société d’investissement de Lambert, Point Bridge Capital, est en effet connue pour avoir lancé en 2017 le MAGA ETF, un fonds d’investissement qui investit dans des sociétés soutenant les candidats républicains. Schwartz a pour sa part été conseiller principal de Rudy Giuliani lorsqu’il était maire de New York.

Ancien collecteur de fonds de Donald Trump, M. Lambert a déclaré qu’il était intervenu pour aider Clearview « avec la nouvelle administration », au motif qu’elle offrirait de nouvelles « opportunités », et qu’il entendait pouvoir « contribuer à cet effort ».

La première administration Trump avait déjà « fait pression » pour intensifier le recours à l’identification biométrique, notamment aux frontières du pays, afin de lutter contre l’immigration, rappelle Forbes.

Les priorités de la nouvelle administration, « Make America Safe Again », et la promesse de Trump d’entamer « la plus grande déportation de l’histoire de notre pays », font entrevoir à M. Lambert « une grande opportunité » pour Clearview :

« Sous l’administration Trump, nous espérons nous développer davantage que sous l’administration Biden… Nous discutons avec le [Pentagone], la Sécurité intérieure. Nous sommes également en dialogue actif avec nombre d’agences différentes ».

Clearview n’avait pas vraiment réussi à se développer sous l’administration Biden, qui s’inquiétait de l’impact que la reconnaissance faciale pourrait avoir sur les droits civils, les libertés et la vie privée, souligne Forbes. Le responsable des ventes de Clearview au Pentagone et à la communauté du renseignement avait de son côté quitté l’entreprise en décembre.

Clearview aurait réalisé un chiffre d’affaires annuel récurrent de 16 millions de dollars, « dont une grande partie a été générée par des contrats avec des organismes locaux chargés de l’application de la loi ». Hal Lambert espère que Clearview, qui n’est toujours pas rentable, triplera son chiffre d’affaires cette année.

Le directeur pédagogique d’une école de journalisme génère ses articles par IA

17 février 2025 à 10:19
« Mais tu écris n'importe quoi, en fait »
Le directeur pédagogique d’une école de journalisme génère ses articles par IA

Interrogé par Arrêt sur images, à qui nous avions transmis notre enquête à son sujet, le patron du groupe de presse Économie Matin reconnaît que ses articles sont bien générés par IA, contrairement à ce que son rédacteur en chef adjoint prétendait initialement. Ce dernier, par ailleurs « prompt engineer » du groupe, attribue de son côté les dizaines de plagiats que nous avons en outre identifiés à un « bug du script » envoyé à ChatGPT qui, « étant complètement idiot, parfois, ne fait pas ce qu’on lui dit ».

Plus des 2/3 des (soi-disant) 1 500 sites d’informations générés par des IA (GenAI) que nous avons identifiés dans le cadre de notre enquête ont été créés par des professionnels du marketing numérique et du SEO (pour Search Engine Optimization).

Si quelques-uns cherchent à se présenter comme émanant de groupes de presse, seuls 10 de ces sites sont édités par une entreprise reconnue « d’intérêt politique et général » (IPG) par la Commission paritaire des publications et des agences de presse (CPPAP), ce qui ouvre droit à un taux réduit de TVA à 2,1 %, une exonération de taxe professionnelle et des tarifs postaux préférentiels : Économie Matin.

Le site, qui figurait à la 284ᵉ place du classement SimilarWeb des sites web d’information (catégorie presse et médias) les plus consultés en France, en janvier, et qui se présente comme « le leader des pureplayers économiques français », est cela dit considéré comme « n’étant pas fiable » par L’Observatoire des sources de Wikipédia, parce qu’ « épinglé pour avoir relayé des infox et publié des publicités déguisées ».

En 2022, une enquête d’Arrêt sur Images avait en effet identifié Economie Matin et son fondateur Jean-Baptiste Giraud comme faisant partie des médias et journalistes ayant contribué à diffuser des articles de désinformation en faveur de clients ou à l’encontre de concurrents de l’ « agence de communication » Avisa Partners (qui avait de son côté attaqué Next INpact en Justice suite à ces révélations, avant de les abandonner – Next a depuis fait appel). Ce pourquoi nous leur avons partagé notre enquête, n’hésitez pas à aller consultez la leur : « Chez « Economie Matin », l’IA est déjà partout ».

Codirecteur pédagogique d’une école de journalisme d’extrême-droite

Également chroniqueur à CNews, Jean-Baptiste Giraud est aussi le cofondateur et codirecteur pédagogique de l’Institut libre de journalisme (ILdJ), proche des réseaux des milliardaires d’extrême-droite Vincent Bolloré et Pierre-Edouard Stérin.

Cette école privée, qui « prépare la relève à droite » d’après Valeurs Actuelles, « pépinière pour libéraux conservateurs et catholiques identitaires » selon La Vie, est par ailleurs hébergée « par le très droitier Institut de formation politique » (IFP) relevait Arrêt sur images, et « créée par la droite identitaire pour conquérir les médias », soulignait une enquête du Monde.

« Plus de 80 % des intervenants y assument ouvertement un discours de droite, ou d’extrême-droite », relevait Le Monde. Si la majeure partie des offres d’emploi qui leur sont proposés émanent du Figaro, les médias possédés par le milliardaire conservateur Vincent Bolloré, dont CNews et le JDD, représenteraient « le premier filon de recrutement » de ses étudiants.

Sa « formation aux techniques du journalisme », initialement répartie en « 6 week-ends » seulement, ne dure accessoirement que 150 heures, désormais étalées sur 10 week-ends, « soit 10 fois moins que dans la plupart des écoles reconnues par la profession, où la formation s’étale généralement sur toute la semaine, pendant deux années », précisait Le Monde.

Ce qui en ferait une formation « low-cost » d’un point de vue pédagogique, mais fort onéreuse comparée aux autres écoles privées : la formation y coûte en effet « 1 250 € les 10 week-ends », contre 7 000 à 8 000 euros par an en moyenne pour les autres écoles privées de journalisme.

La Lettre révélait par ailleurs, en décembre dernier, que Jean-Baptiste Giraud briguait en outre une investiture comme candidat estampillé Rassemblement National (RN) dans le Perche, après y avoir adhéré suite à la dissolution du Parlement en 2024.

Des articles amputés par une énigmatique balise « « `html »

La page de présentation de Jean-Baptiste Giraud, sur le site d’Economie Matin, rappelle que le titre de presse fut initialement un hebdomadaire papier, lancé en 2004, relancé comme pure-player sur Internet en 2012. Le journaliste renvoie étrangement à son profil Google+. Un réseau social qui n’existe plus depuis avril 2019, alors qu’il est pourtant et par ailleurs actif sur X.com depuis 2010 (sous le pseudonyme @mediatrainingfr, passé en privé).

Tout aussi étrangement, Jean-Baptiste Giraud n’écrit quasiment que sur les prix du fioul domestique, du gaz, du carburant et les résultats du Loto. Et ce, tous les jours (fériés compris). Il a plus précisément pour « morning routines » de publier ses articles sur le prix du carburant en France (à 3h31 pétantes), du fioul domestique (à 5h30) et du gaz (à 10h03), ainsi que, tous les soirs, ses articles sur les résultats du loto ou d’Euromillions (à 20h10), systématiquement illustrés par les mêmes images.

Ses articles sur les prix des carburants finissent tous, là aussi étrangement, par un paragraphe intitulé « Conclusion » (ce que ne font jamais les journalistes : un article n’est pas une rédaction scolaire ou universitaire), systématiquement amputée, empêchant ses lecteurs de pouvoir la lire. Elles sont, au surplus, clôturées par une énigmatique balise « « `html ».

Il pourrait s’agir d’un simple bug technique. Mais ses articles sont aussi truffés de listes à puces et de tableaux, l’un des marqueurs caractéristiques des tactiques, techniques et procédures (TTP) des articles GenAI, tout comme le fait de les conclure par un paragraphe intitulé « Conclusion ».

« 0 joueurs ont remporté 0 euros, soit un total de 0 euros »

Un recours généralisé à l’IA que semblent confirmer ses articles sur les résultats du loto et/ou d’EuroMillions, qu’il publie souvent à 20h10 tapantes, et qui révèlent en outre que Jean-Baptiste Giraud ne relit probablement pas les articles qu’il signe pourtant de son nom.

Les 9 mars, 21 août et 23 novembre, le journaliste écrivait par exemple que « Lors du dernier tirage loto en date, 0 joueurs ont remporté 0 euros, soit un total de 0 euros. De même, 0 joueurs ont touché 0 euros ce qui représente tout de même 0 euros ». Une formulation pour le moins étonnante, qu’il a pourtant publié au moins 10 autres fois.


Il reste 74% de l'article à découvrir.
Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

Google Actualités est truffé d’articles plagiés par des IA

14 février 2025 à 11:32
Générateurs de plagIAts
Google Actualités est truffé d’articles plagiés par des IA

Plus d’une centaine (au moins) des 1 500 sites francophones d’information générés en tout ou partie par des IA que nous avons identifiés plagient des articles de véritables journalistes, sans mentionner leurs sources ni préciser qu’ils ont été générés avec des IA. Ils sont, pour la plupart, référencés sur Google Actualités, et parfois relayés par son IA Discover. Certains se contentent de traduire des articles en français quand d’autres les paraphrasent, rendant leurs plagiats plus difficiles à identifier.

Le site News.dayFR.com, qui plagie jusqu’à 6 000 articles par jour et vient de faire l’objet d’un recours en justice de la part de 40 médias français, n’est que la partie émergée de l’iceberg des prétendus sites d’information générés par des intelligences artificielles (GenAI, pour Generative AI en anglais) reposant sur du plagiat.

Comme indiqué dans le premier volet de notre enquête, notre base de données recensait une centaine de sites d’infos GenAI mi-octobre, plus de 250 fin octobre, 500 à la veille de Noël, 850 mi-janvier, plus de 1 000 en ce début février, et plus de 1 500 depuis la publication de notre enquête.

Une explosion qui ne témoigne pas tant, cela dit, d’une explosion récente de ce type de sites (certains étaient déjà référencés par Google avant même le lancement de ChatGPT, fin 2022), mais d’une amélioration de nos méthodes de détection. Il nous a fallu du temps, en effet, pour affiner notre regard, parvenir à accumuler nombre de « signaux faibles » et indicateurs des contenus GenAI, au point d’estimer qu’ils seraient probablement des (dizaines ?) de milliers, rien qu’en français.

Ce pourquoi nous avons aussi développé une extension (pour les navigateurs basés sur Chromium et Firefox) afin d’alerter les internautes lorsqu’ils consultent un site reposant, « en tout ou partie », sur des articles GenAI, mais également de permettre à ses utilisateurs de nous adresser des signalements concernant des sites que nous n’aurions pas encore identifiés (ce qui nous a d’ailleurs permis d’en rajouter plusieurs dizaines depuis son lancement).

Jamais nous n’aurions imaginé l’ampleur qu’a pris cette enquête, entamée il y a maintenant plus d’un an. Ce pourquoi nous avons donc aussi proposé à Libération et son service de fact-checking CheckNews de s’y atteler avec nous, au vu du nombre de sites, et de problématiques, auxquels nous sommes confrontés (cf leur enquête, l’article sur les coulisses de celle de Next, et leurs articles – eux aussi sous paywall – au sujet de «News of Marseille», le site touristique à la sauce IA, les «petites mains» africaines du web remplacées par ChatGPT, et comment l’IA modifie les pratiques des journalistes).

Une véritable « pollution informationnelle », en pleine expansion

Nous avons cessé de comptabiliser les sites d’infos générés par IA (GenAI) reposant sur du plagiat au bout d’un peu plus de 100. D’une part parce que, au-delà de ce chiffre symbolique, l’identification des 1 000 sites d’infos francophones GenAI que nous avions initialement répertoriés nous a déjà pris un temps (littéralement) dément, nonobstant le fait que notre extension en dénombre donc désormais plus de 1 500.

D’autre part parce que le fait d’identifier qu’un site est GenAI est une tâche qui peut s’avérer relativement facile (cf notre mode d’emploi). A contrario, la reconnaissance des plagiats s’avère parfois bien plus ardue, et prend donc encore plus de temps.

Nous avons également cessé de répertorier les sites GenAI relevant du plagiat au bout de 100 parce qu’ils sont tellement nombreux à recourir à des générateurs d’articles par IA optimisés pour Google Actualités et son IA Discover (nous y reviendrons) que leur nombre ne change pas grand-chose : nous sommes confrontés à une véritable « pollution informationnelle », en pleine expansion, et dont la prolifération soulève de nombreuses questions économiques, sociales et politiques, comme le souligne notre édito.

Le problème n’est pas tant qu’ils soient 100, 200, 500 ou (vraisemblablement) plusieurs milliers à pomper et plagier des articles écrits par des journalistes professionnels et humains : le simple fait que plus de 100 médias GenAI reposant sur du plagiat aient réussi à être référencés par Google Actualités, pour certains depuis des années, montre que ses algorithmes ont (et posent) de très gros problèmes.

Il n’est pas rare que deux des 15 articles mis en avant sur Google Discover, son IA de recommandation d’actualités, soient des articles GenAI, même et y compris avec des titres putaclics, relayant des informations « hallucinées » par les IA (nous y reviendrons également), et illustrées par des images elles-mêmes GenAI.

C’est d’ailleurs précisément après avoir commencé à recevoir des alertes Google renvoyant vers de tels articles GenAI que cette enquête a débuté. Ces articles, générés par des IA, relaient de nombreuses fausses informations. Ils ne sauraient dès lors être considérés comme fiables, et devraient donc être blacklistés par Google Actualités et son IA Discover.

Si vous voulez un exemple de ce que peut proposer une IA générative en se basant sur des communiqués de presse, nous avons monté un site GenAI (en 2 h, pour 1,2 euro par mois).

Plusieurs de ces articles GenAI ont en outre été mentionnés comme « sources » par des journalistes professionnels en lieu et place de ceux qu’ils plagient, et de nombreux internautes ont pu les lire, commenter voire partager sur les réseaux sociaux, sans même se rendre compte qu’il s’agissait d’articles générés par IA, non fiables, voire complètement erronés (nous y reviendrons).

Or, et comme indiqué dans le premier volet de notre enquête, sur les 148 sites initialement mentionnés comme « sources » sur l’encyclopédie collaborative Wikipédia (sur les 327 sites que nous avions alors identifiés en novembre), 105 avaient recours à l’IA pour la rédaction de textes, et 65 au plagiat (avec ou sans traduction, ou reformulation par IA).

Sachant, par ailleurs, que 284 autres des sites GenAI de notre base de données (sur 750 recherchés, soit près de 38 %) ont depuis été, eux aussi, identifiés comme ayant été mentionnés sur Wikipédia (qui interdit les mentions de plagiats, et de sites GenAI, notamment).

Nous sommes conscients que ces 1 500 sites ne sont probablement que la partie émergée de l’iceberg des contenus GenAI indexés par Google et consorts. Ils sont probablement des (dizaines de) milliers d’autres à polluer le web de la sorte (a fortiori si l’on y rajoute les sites GenAI non-francophones), mais le problème ne fait que commencer, et il est donc urgent de s’y atteler.

Ce pourquoi il nous a semblé important d’expliquer comment nous avons pu identifier les sites GenAI reposant sur du plagiat, omettant sciemment de mentionner les articles dont ils s’inspirent, traduisent, voire paraphrasent, en l’illustrant par quelques exemples choisis, représentatifs de leurs modus operandi.

« Comment humaniser ChatGPT pour rendre ses textes indétectables »

Le samedi 13 janvier 2024, à 5h40 du matin, un certain Charles A., qui se présente comme un « expert en produits chinois », publiait par exemple sur le site netcost-security.fr un article intitulé « Comment humaniser ChatGPT pour rendre ses textes indétectables » (il a depuis été effacé, mais nous l’avions archivé) :

« Dans les paragraphes suivants, je vais vous donner quelques conseils pour améliorer la qualité des textes de ChatGPT, en les rendant plus humains et surtout indétectables par d’autres personnes. De cette façon, vous pourrez exploiter ses capacités pour générer du contenu sans que personne ne s’en rende compte. »


Il reste 76% de l'article à découvrir.
Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

Même connectées aux articles de la BBC, les IA se trompent plus de la moitié du temps

12 février 2025 à 16:30
Don't hate the media, become the media... ou pas
Même connectées aux articles de la BBC, les IA se trompent plus de la moitié du temps

Plus de la moitié des réponses fournies par les assistants d’intelligence artificielle (IA) et reposant sur les articles de la BBC sont « factuellement incorrectes, trompeuses et potentiellement dangereuses ». Et 20 % d’entre elles ont en outre rajouté des « inexactitudes factuelles » qui ne figuraient pas dans les articles mentionnés.

Quand bien même ils iraient chercher les réponses aux questions qu’on leur pose dans les articles de la BBC, « les assistants d’IA risquent d’induire le public en erreur », relève une étude effectuée par la « BBC’s Responsible AI team » (équipe pour une IA responsable, en français).

Dans une tribune publiée en parallèle, Deborah Turness, PDG de BBC News, qualifie le phénomène de « distorsion » de l’information, à savoir le fait qu’un assistant d’IA « récupère » des informations pour répondre à une question, avant d’en générer une réponse « factuellement incorrecte, trompeuse et potentiellement dangereuse » :

« Il n’est pas difficile de voir à quelle vitesse la distorsion par l’IA pourrait saper la confiance déjà fragile des gens dans les faits et les informations vérifiées. Nous vivons une époque troublée, et combien de temps faudra-t-il avant qu’un titre déformé par l’IA ne cause un préjudice important dans le monde réel ? Les entreprises qui développent des outils d’IA générative (GenAI) jouent avec le feu. »

Ce pourquoi la BBC voudrait « ouvrir un nouveau dialogue » avec les fournisseurs de technologies d’IA et d’autres grandes marques de médias afin de travailler ensemble à la recherche de solutions.

Mais pour cela, elle devait d’abord se faire une idée de l’ampleur du problème. La BBC a donc posé « 100 questions de base » portant sur l’actualité, pendant un mois, aux quatre outils d’IA grand public leaders sur le marché : ChatGPT d’OpenAI, Copilot de Microsoft, Gemini de Google et Perplexity.

Même en se basant sur les articles de la BBC, les IA ne peuvent s’empêcher d’halluciner

Si, d’ordinaire, la BBC bloque l’accès aux robots des IA, elle les avait temporairement autorisés à venir consulter ses articles, en les incitant, « dans la mesure du possible », à utiliser les articles de BBC News comme sources. Chaque prompt était en effet précédé de la mention : « Use BBC News sources where possible [QUESTION] ».

Leurs 362 réponses ont ensuite été vérifiées par 45 journalistes de la BBC, experts dans les domaines concernés, en fonction de sept critères : l’exactitude, l’attribution des sources, l’impartialité, la distinction entre les opinions et les faits, l’éditorialisation (via l’insertion de commentaires et de descriptions non étayés par les faits présentés dans la source), le contexte et, enfin, la représentation du contenu de la BBC dans la réponse.

Les résultats de l’étude, qualifiés de « préoccupants » par la BCC, montrent que les IA relaient de nombreuses erreurs factuelles et informations « déformées » ou « distordues », en introduisant des « erreurs factuelles évidentes » dans environ un cinquième des réponses qu’ils disaient provenir d’articles de la BBC :

  • 51 % de leurs réponses ont été jugées comme « présentant des problèmes importants » ;
  • 19 % des réponses citant des contenus de la BBC y ont rajouté des erreurs factuelles, déclarations erronées, chiffres et dates incorrects ;
  • 13 % des citations tirées d’articles de la BBC « ont été soit modifiées, soit n’existaient pas dans l’article en question ».

Gisèle Pelicot vue par le Copilot de Microsoft


Il reste 74% de l'article à découvrir.
Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

❌
❌