Les sites d’information de la presse quotidienne régionale (PQR) sont de plus en plus victimes de pure players qui les concurrencent, voire les plagient, tout en étant générés par des IA. Si certains se positionnent comme des « médias indépendants », d’autres ne cherchent qu’à faire du clic. Au point que des journalistes de la PQR se retrouvent à devoir fact-checker des infos erronées car « hallucinées » par les IA qui les publient.
Si la majeure partie des plus de 2 000 sites d’information générés par IA (GenAI) que nous avons identifiés tirent « tous azimuts », cherchant à concurrencer (voire plagier) les médias généralistes ou spécialisés, plusieurs cherchent tout particulièrement à concurrencer les sites d’informations de la presse quotidienne régionale (PQR).
Au point, pour certains, de les plagier, à l’instar de Breizh-Info, un site d’extrême-droite identitaire et conspirationniste dont les actualités régionales ne sont souvent, par ailleurs, que des « plagiats » d’articles préalablement publiés sur d’autres sites de la PQR (cf notre enquête).
Jusqu’à sa fermeture, mi-novembre, Gilles Charles, directeur de la publication « par interim » (sic) de GILLESCHARLES.INFO (GC!), le présentait comme « un site d’information nationale » (sic). Les articles de GC! montraient cela dit un focus tout particulier sur le département de la Loire et la métropole de Saint-Étienne, par ailleurs préfecture du département.
Sa chaîne YouTube contient plusieurs anciennes vidéos qualifiant Gilles Charles du sobriquet de « Stéphanois à la casquette », du nom du site web éponyme qu’il avait alors créé (archive) pour promouvoir les commerces et initiatives de sa ville de prédilection.
L’un de ces reportages, émanant de France 3 Loire, le présentait comme une « figure des réseaux sociaux » locaux, mais également comme un « accidenté de la vie, divorcé, handicapé et chômeur de longue durée », devenu présentateur sur une radio associative. « Demain, micros éteints, il retrouvera son quotidien : la précarité », concluait le journaliste.
Il reste 91% de l'article à découvrir. Vous devez être abonné•e pour lire la suite de cet article. Déjà abonné•e ? Générez une clé RSS dans votre profil.
La journaliste irlandaise Emily O’Reilly, médiatrice européenne depuis 2013, estime que la façon qu’a eu Europol de traiter les potentiels conflits d’intérêt de ses deux anciens employés « relevait de la mauvaise administration ». Europol a de son côté accepté de réviser ses procédés afin d’éviter les erreurs.
L’affaire concernait la manière dont Europol, l’Agence européenne de coopération policière, avait géré le transfert de deux de ses anciens membres du personnel vers Thorn, une entité privée états-unienne. Cette dernière développe en effet des solutions logicielles basées sur l’IA pour détecter les contenus pédopornographiques (CSAM) en ligne, alors que l’UE envisageait précisément d’adopter une proposition controversée de règlement visant à prévenir et combattre les abus sexuels sur enfants en ligne.
Surnommée #ChatControl par ses opposants, elle visait à scanner, de façon proactive, les contenus échangés dans les messageries (y compris chiffrées de bout en bout). Un projet irréalisable et décrié par de très nombreuses ONG, scientifiques et professionnels de la sécurité informatique, au point d’être qualifié de « projet de loi européen le plus critiqué de tous les temps ».
Après avoir quitté Europol à la fin de 2021, le premier des deux hommes avait « immédiatement » commencé à travailler en tant qu’employé pour Thorn. Le deuxième avait rejoint le conseil d’administration de Thorn en 2023 après avoir quitté Europol en 2022.
Passé d’Europol à une ONG cherchant à vendre son produit à Europol
Créée par les stars hollywoodiennes Ashton Kutcher et Demi Moore pour combattre le trafic sexuel des enfants au Cambodge, cette ONG commercialise par ailleurs des technologies reposant sur des IA permettant d’identifier les images d’abus sexuels commis sur des enfants.
Il reste 82% de l'article à découvrir. Vous devez être abonné•e pour lire la suite de cet article. Déjà abonné•e ? Générez une clé RSS dans votre profil.
La société d’informatique légale (forensics) israélienne Cellebrite vient d’annoncer qu’elle empêchait désormais la Serbie d’utiliser sa technologie, rapporte TechCrunch.
Amnesty avait révélé, en décembre dernier, que la police serbe avait en effet déverrouillé les téléphones de dizaines de journalistes et d’activistes grâce à ses outils avant, dans certains cas, de les infecter avec le logiciel espion Novispy pour continuer à les surveiller.
Développée pour les forces de l’ordre et les entités gouvernementales, la suite de produits Cellebrite UFED permet d’extraire des données de divers appareils mobiles, même sans disposer des codes d’accès de l’utilisateur.
Dans son communiqué, Cellebrite explique qu’elle se conforme aux sanctions imposées par les États-Unis, l’Union européenne, le Royaume-Uni « et d’autres réglementations et contrôles à l’exportation » qui interdisent de faire des affaires avec certaines nations.
Elle précise en outre avoir mis en place, en 2021, un comité d’éthique et d’intégrité afin de conseiller son conseil d’administration « sur les pratiques commerciales éthiques » :
« Depuis 2020, Cellebrite a volontairement cessé de vendre à des clients dans plus de 60 pays, y compris certains pays spécifiquement cités dans le rapport d’Amnesty International. »
« Les autorités serbes doivent maintenant mener de toute urgence leurs propres enquêtes approfondies et impartiales, demander des comptes aux responsables, offrir des réparations aux victimes et mettre en place des garanties adéquates pour empêcher de nouveaux abus », a déclaré Donncha Ó Cearbhaill, responsable du laboratoire de sécurité d’Amnesty International, dans un communiqué :
« Toute nouvelle exportation de technologies de surveillance ou de criminalistique numérique vers la Serbie doit être interrompue jusqu’à ce que les autorités aient mis en place un système efficace et indépendant de contrôle et de surveillance de toute mesure susceptible de restreindre le droit à la vie privée, à la liberté d’expression ou à la liberté de réunion pacifique. »
La société d’informatique légale (forensics) israélienne Cellebrite vient d’annoncer qu’elle empêchait désormais la Serbie d’utiliser sa technologie, rapporte TechCrunch.
Amnesty avait révélé, en décembre dernier, que la police serbe avait en effet déverrouillé les téléphones de dizaines de journalistes et d’activistes grâce à ses outils avant, dans certains cas, de les infecter avec le logiciel espion Novispy pour continuer à les surveiller.
Développée pour les forces de l’ordre et les entités gouvernementales, la suite de produits Cellebrite UFED permet d’extraire des données de divers appareils mobiles, même sans disposer des codes d’accès de l’utilisateur.
Dans son communiqué, Cellebrite explique qu’elle se conforme aux sanctions imposées par les États-Unis, l’Union européenne, le Royaume-Uni « et d’autres réglementations et contrôles à l’exportation » qui interdisent de faire des affaires avec certaines nations.
Elle précise en outre avoir mis en place, en 2021, un comité d’éthique et d’intégrité afin de conseiller son conseil d’administration « sur les pratiques commerciales éthiques » :
« Depuis 2020, Cellebrite a volontairement cessé de vendre à des clients dans plus de 60 pays, y compris certains pays spécifiquement cités dans le rapport d’Amnesty International. »
« Les autorités serbes doivent maintenant mener de toute urgence leurs propres enquêtes approfondies et impartiales, demander des comptes aux responsables, offrir des réparations aux victimes et mettre en place des garanties adéquates pour empêcher de nouveaux abus », a déclaré Donncha Ó Cearbhaill, responsable du laboratoire de sécurité d’Amnesty International, dans un communiqué :
« Toute nouvelle exportation de technologies de surveillance ou de criminalistique numérique vers la Serbie doit être interrompue jusqu’à ce que les autorités aient mis en place un système efficace et indépendant de contrôle et de surveillance de toute mesure susceptible de restreindre le droit à la vie privée, à la liberté d’expression ou à la liberté de réunion pacifique. »
De nombreux médias français ont récemment relayé une « rumeur » avançant que les voitures de plus de 10 ans devraient faire l’objet d’un contrôle technique annuel, contre tous les deux ans comme c’est le cas actuellement. Or, ils ne l’auraient probablement pas relayée si les journalistes avaient été informés que l’information initiale avait été « hallucinée » dans des articles générés par IA (GenAI).
Notre enquête sur les (soi-disant) sites d’information générés par IA (GenAI) nous a valu quelques remarques acerbes de la part de professionnels du SEO, notamment sur X.com, au motif que le fait de rendre public le fait que certains de leurs sites sont GenAI pourrait nuire à leur business. « Le problème de fond est amha qu’internet a rendu la presse obsolète, comme les agents de change, les agences de voyage et beaucoup d’autres métiers », a-t-on pu aussi lire.
Leur principale critique tient au fait que nombre de journalistes se contentent de paraphraser des dépêches AFP (notamment), et qu’ils ne voyaient donc pas pourquoi ils ne pourraient pas le faire, eux aussi, de sorte de se « partager le gâteau » (sic) en mode « Ils veulent nous enleves (sic) le pain de la bouche les salauds ! », au point, pour l’un d’entre-eux, de nous rétorquer :
« Les gens veulent manger de la merde ? Donnez en leur à la pelle plutôt que d essayer de buzzer et cherchant à bousiller le business de milliers de sites. »
En 2017, l’économiste Julia Cagé et deux chercheurs de l’INA avaient en effet découvert que, pour ce qui est des actualités « chaudes », 64 % de l’information publiée en ligne correspondait « à du copié-collé pur et simple ». Ils estimaient alors que « Ce recours croissant au copié-collé, combiné à une vitesse de propagation extrêmement élevée de l’information en ligne, risque de tuer les incitations des médias à produire de l’information originale ».
À l’époque, Libé relevait en outre qu’en excluant les reprises de dépêches de l’AFP, ce taux de copie restait de 41 % : « Est-ce à dire que les sites copient allègrement d’autres sites qui en ont eux-mêmes copié d’autres à partir de l’AFP dans une chaîne sans fin ? »
« L’automatisation est un formidable progrès pour le journalisme si elle permet aux journalistes de se concentrer sur leur travail de journalistes et d’éviter de dépenser du temps et de l’énergie dans des tâches répétitives pour lesquelles leur valeur ajoutée est faible », voulaient alors croire les auteurs, qui pensaient que le développement de l’intelligence artificielle pourrait y aider.
Qu’est-ce qui pourrait mal tourner ?
Voire. Si, dans les rédactions, les journalistes chargés du « desk » et donc de l’actualité « chaude », doivent souvent « bâtonner de la dépêche » pour reprendre l’expression (hélas) consacrée dans le métier, et donc reprendre des informations sans avoir généralement le temps de les vérifier, les sites d’infos générés par IA ont, de leur côté, industrialisé le processus. Au point de publier des dizaines, des centaines, voire jusqu’à plus de 6 000 articles par jour, comme c’était le cas avec le site News.dayFR.
Or, les articles émanant d’un « desk » sont (a priori) censés être relus avant publication, tant pour des raisons grammaticales et orthographiques qu’éditoriales. A contrario, les sites d’info GenAI semblent, pour la plupart, être complètement automatisés, sans supervision humaine, sans que leurs articles soient vérifiés ni même relus avant publication, comme nous l’avons démontré avec notre enquête sur le groupe de presse Économie Matin (qui emploie pourtant des journalistes professionnels, titulaires de la carte de presse).
De plus, la quasi-totalité des sites d’infos GenAI que nous avons identifiés ne mentionnent pas les sources des articles qu’ils paraphrasent (et plagient, faute de mentionner leurs sources), allant dans certains cas jusqu’à « halluciner » et déformer informations et citations, faute de supervision et donc de vérification des articles avant qu’ils ne soient publiés.
L’un de nos contradicteurs se vante ainsi d’éditer plus de 600 sites, pour seulement 10 employés revendiqués (« le double », nous a-t-il répondu, lorsque nous lui avons fait remarquer que, à Next, « Nous on est 8 pour 1 seul » site), rendant matériellement impossible le fait de vérifier les centaines voire milliers d’articles GenAI qu’il n’en publie donc pas moins « à la pelle ».
« Je préfère un peu d’hallucination plutôt que de tromper le monde »
Un tweet de Paul Sanchez, PDG de l’agence SEO Hackers (dont notre extension a flaggué quelques sites d’infos GenAI, sans que l’on sache, par ailleurs, combien elle en a créé), revenait à ce titre récemment sur « un bel exemple de propagation sans vérification » par certains médias d’une « rumeur » mal sourcée.
Il y insinuait que les problèmes posés par les sites d’infos GenAI devraient être relativisés du fait de ces « copier-collers » émanant de (vrais) journalistes, dressant une « chronologie d’une fake news concernant le « contrôle technique obligatoire tous les ans » venant des médias et non des réseaux comme certains journaux l’affirment ». Ou comment « une fausse info se propage… non pas à partir des réseaux sociaux, mais depuis la presse ».
Un tweet commenté et partagé par de nombreux autres professionnels du SEO, en défense de leurs articles GenAI , en mode : « Et après on vient nous casser les cacahuètes avec de la GenAI ? Je préfère un peu d’hallucination plutôt que de tromper le monde… »
Or, la « rumeur » en question émanait en fait d’articles générés par IA, qui avaient « halluciné » une (véritable) information, initialement publiée par un journaliste (spécialisé), sur un média digne de foi.
Les voitures connectées semblent plus problématiques que les anciennes
Il relayait un rapport du TÜV (abréviation de Technischer Überwachungsverein, le nom des organismes de normalisation allemands) de Süd Munich s’inquiétant du fait que « pas moins de 150 000 véhicules ont été identifiés comme présentant des « défauts dangereux » nécessitant une immobilisation immédiate ». Il préconisait d’ « imposer un contrôle technique annuel pour les véhicules de plus de dix ans, contre un contrôle bisannuel actuellement ».
L’information émanait d’un article du Spiegel (dont il ne fournissait pas le lien) soulignant que « l’âge moyen des voitures immatriculées en Allemagne est actuellement de 10,3 ans », et que « le parc automobile vieillissant devient un risque pour la sécurité routière ».
« Il est difficile de prouver si les voitures plus anciennes provoquent davantage d’accidents », y plaidait Kirstin Zeidler, responsable de la recherche sur les accidents pour les assureurs à l’Association générale du secteur allemand des assurances, reconnaissant cela dit que « nous ne disposons d’aucune recherche à ce sujet ».
« Le ministère fédéral des Transports rejette également la demande de TÜV », précisait en outre l’article du Spiegel : « Selon les conclusions disponibles, l’état technique des voitures d’occasion ne s’est pas détérioré ».
De plus, l’article soulignait que « les voitures modernes et connectées semblent être plus problématiques que les anciennes », et qu’il était par ailleurs « prévu que les voitures dotées d’une fonction de conduite autonome » soient, « bien que de tels véhicules ne soient pas encore disponibles à l’achat », contrôlées « tous les six mois ».
« Faites-vous partie des concernés ? »
Paul Sanches relève à ce titre que, le 26 janvier, soit quatre jours plus tard, « 20 Minutes (Journal des Seniors) reprend sans vérification et sans citer Auto Plus ». Il est à noter ici que si le site Journal des Seniors est hébergé sur un sous-domaine de 20minutes.fr, il est édité par une société tierce, qui se présente comme « un éditeur indépendant de médias et portails d’information à destination du grand public », et non par les journalistes de 20minutes.fr.
« Ces mesures ciblent les véhicules de plus de 10 ans, qui devront passer un contrôle chaque année. Aujourd’hui, cette catégorie représente une part importante du parc automobile, notamment chez les conducteurs qui préfèrent garder leur voiture thermique plutôt que d’investir dans un modèle électrique ou hybride. »
Il reste 78% de l'article à découvrir. Vous devez être abonné•e pour lire la suite de cet article. Déjà abonné•e ? Générez une clé RSS dans votre profil.
Hoan Ton-That a démissionné de son poste de PDG de Clearview AI, l’entreprise de reconnaissance faciale servant de prestataire aux forces de l’ordre. Il continuera à siéger à son conseil d’administration.
L’entreprise s’était fait connaître pour avoir téléchargé, sans leur consentement, des milliards de photos d’être humains sur le web et les réseaux sociaux, ce qui lui avait valu plusieurs poursuites des CNIL européennes notamment, et quelques condamnations.
En septembre 2024, TechCrunch avait calculé que Clearview AI avait accumulé « un total d’environ 100 millions d’euros d’amendes liées à la protection de la vie privée dans l’UE », que l’entreprise, qui n’a pas de représentant légal en Europe, refuse de payer.
Clearview AI se targue aujourd’hui de disposer d’une base de données de plus de 60 milliards d’images, dont l’usage serait réservé aux forces de police et agences gouvernementales.
D’après Forbes, il aurait quitté Clearview « après que l’entreprise ait eu du mal à décrocher d’importants contrats avec le gouvernement fédéral » états-unien. Une nouvelle direction a dès lors été mise en place « pour capitaliser sur les « opportunités émergentes » de l’administration Trump ».
L’entreprise est désormais co-dirigée par Hal Lambert, investisseur de la première heure et membre du conseil d’administration, co-PDG depuis décembre, aux côtés de Richard Schwartz, cofondateur de Clearview, qui supervise les opérations quotidiennes.
Les deux hommes « ont une longue histoire avec le parti républicain », relève TechCrunch. La société d’investissement de Lambert, Point Bridge Capital, est en effet connue pour avoir lancé en 2017 le MAGA ETF, un fonds d’investissement qui investit dans des sociétés soutenant les candidats républicains. Schwartz a pour sa part été conseiller principal de Rudy Giuliani lorsqu’il était maire de New York.
Ancien collecteur de fonds de Donald Trump, M. Lambert a déclaré qu’il était intervenu pour aider Clearview « avec la nouvelle administration », au motif qu’elle offrirait de nouvelles « opportunités », et qu’il entendait pouvoir « contribuer à cet effort ».
La première administration Trump avait déjà « fait pression » pour intensifier le recours à l’identification biométrique, notamment aux frontières du pays, afin de lutter contre l’immigration, rappelle Forbes.
Les priorités de la nouvelle administration, « Make America Safe Again », et la promesse de Trump d’entamer « la plus grande déportation de l’histoire de notre pays », font entrevoir à M. Lambert « une grande opportunité » pour Clearview :
« Sous l’administration Trump, nous espérons nous développer davantage que sous l’administration Biden… Nous discutons avec le [Pentagone], la Sécurité intérieure. Nous sommes également en dialogue actif avec nombre d’agences différentes ».
Clearview n’avait pas vraiment réussi à se développer sous l’administration Biden, qui s’inquiétait de l’impact que la reconnaissance faciale pourrait avoir sur les droits civils, les libertés et la vie privée, souligne Forbes. Le responsable des ventes de Clearview au Pentagone et à la communauté du renseignement avait de son côté quitté l’entreprise en décembre.
Clearview aurait réalisé un chiffre d’affaires annuel récurrent de 16 millions de dollars, « dont une grande partie a été générée par des contrats avec des organismes locaux chargés de l’application de la loi ». Hal Lambert espère que Clearview, qui n’est toujours pas rentable, triplera son chiffre d’affaires cette année.
Hoan Ton-That a démissionné de son poste de PDG de Clearview AI, l’entreprise de reconnaissance faciale servant de prestataire aux forces de l’ordre. Il continuera à siéger à son conseil d’administration.
L’entreprise s’était fait connaître pour avoir téléchargé, sans leur consentement, des milliards de photos d’être humains sur le web et les réseaux sociaux, ce qui lui avait valu plusieurs poursuites des CNIL européennes notamment, et quelques condamnations.
En septembre 2024, TechCrunch avait calculé que Clearview AI avait accumulé « un total d’environ 100 millions d’euros d’amendes liées à la protection de la vie privée dans l’UE », que l’entreprise, qui n’a pas de représentant légal en Europe, refuse de payer.
Clearview AI se targue aujourd’hui de disposer d’une base de données de plus de 60 milliards d’images, dont l’usage serait réservé aux forces de police et agences gouvernementales.
D’après Forbes, il aurait quitté Clearview « après que l’entreprise ait eu du mal à décrocher d’importants contrats avec le gouvernement fédéral » états-unien. Une nouvelle direction a dès lors été mise en place « pour capitaliser sur les « opportunités émergentes » de l’administration Trump ».
L’entreprise est désormais co-dirigée par Hal Lambert, investisseur de la première heure et membre du conseil d’administration, co-PDG depuis décembre, aux côtés de Richard Schwartz, cofondateur de Clearview, qui supervise les opérations quotidiennes.
Les deux hommes « ont une longue histoire avec le parti républicain », relève TechCrunch. La société d’investissement de Lambert, Point Bridge Capital, est en effet connue pour avoir lancé en 2017 le MAGA ETF, un fonds d’investissement qui investit dans des sociétés soutenant les candidats républicains. Schwartz a pour sa part été conseiller principal de Rudy Giuliani lorsqu’il était maire de New York.
Ancien collecteur de fonds de Donald Trump, M. Lambert a déclaré qu’il était intervenu pour aider Clearview « avec la nouvelle administration », au motif qu’elle offrirait de nouvelles « opportunités », et qu’il entendait pouvoir « contribuer à cet effort ».
La première administration Trump avait déjà « fait pression » pour intensifier le recours à l’identification biométrique, notamment aux frontières du pays, afin de lutter contre l’immigration, rappelle Forbes.
Les priorités de la nouvelle administration, « Make America Safe Again », et la promesse de Trump d’entamer « la plus grande déportation de l’histoire de notre pays », font entrevoir à M. Lambert « une grande opportunité » pour Clearview :
« Sous l’administration Trump, nous espérons nous développer davantage que sous l’administration Biden… Nous discutons avec le [Pentagone], la Sécurité intérieure. Nous sommes également en dialogue actif avec nombre d’agences différentes ».
Clearview n’avait pas vraiment réussi à se développer sous l’administration Biden, qui s’inquiétait de l’impact que la reconnaissance faciale pourrait avoir sur les droits civils, les libertés et la vie privée, souligne Forbes. Le responsable des ventes de Clearview au Pentagone et à la communauté du renseignement avait de son côté quitté l’entreprise en décembre.
Clearview aurait réalisé un chiffre d’affaires annuel récurrent de 16 millions de dollars, « dont une grande partie a été générée par des contrats avec des organismes locaux chargés de l’application de la loi ». Hal Lambert espère que Clearview, qui n’est toujours pas rentable, triplera son chiffre d’affaires cette année.
Interrogé par Arrêt sur images, à qui nous avions transmis notre enquête à son sujet, le patron du groupe de presse Économie Matin reconnaîtque ses articles sont bien générés par IA, contrairement à ce que son rédacteur en chef adjoint prétendait initialement. Ce dernier, par ailleurs « prompt engineer » du groupe, attribue de son côté les dizaines de plagiats que nous avons en outre identifiés à un « bug du script » envoyé à ChatGPT qui, « étant complètement idiot, parfois, ne fait pas ce qu’on lui dit ».
Plus des 2/3 des (soi-disant) 1 500 sites d’informations générés par des IA (GenAI) que nous avons identifiés dans le cadre de notre enquête ont été créés par des professionnels du marketing numérique et du SEO (pour Search Engine Optimization).
Si quelques-uns cherchent à se présenter comme émanant de groupes de presse, seuls 10 de ces sites sont édités par une entreprise reconnue « d’intérêt politique et général » (IPG) par la Commission paritaire des publications et des agences de presse (CPPAP), ce qui ouvre droit à un taux réduit de TVA à 2,1 %, une exonération de taxe professionnelle et des tarifs postaux préférentiels : Économie Matin.
Le site, qui figurait à la 284ᵉ place du classement SimilarWeb des sites web d’information (catégorie presse et médias) les plus consultés en France, en janvier, et qui se présente comme « le leader des pureplayers économiques français », est cela dit considéré comme « n’étant pas fiable » par L’Observatoire des sources de Wikipédia, parce qu’ « épinglé pour avoir relayé des infox et publié des publicités déguisées ».
En 2022, une enquête d’Arrêt sur Images avait en effet identifié Economie Matin et son fondateur Jean-Baptiste Giraud comme faisant partie des médias et journalistes ayant contribué à diffuser des articles de désinformation en faveur de clients ou à l’encontre de concurrents de l’ « agence de communication » Avisa Partners (qui avait de son côté attaqué Next INpact en Justice suite à ces révélations, avant de les abandonner – Next a depuis fait appel). Ce pourquoi nous leur avons partagé notre enquête, n’hésitez pas à aller consultez la leur : « Chez « Economie Matin », l’IA est déjà partout ».
Codirecteur pédagogique d’une école de journalisme d’extrême-droite
Également chroniqueur à CNews, Jean-Baptiste Giraud est aussi le cofondateur et codirecteur pédagogique de l’Institut libre de journalisme (ILdJ), proche des réseaux des milliardaires d’extrême-droite Vincent Bolloré et Pierre-Edouard Stérin.
Cette école privée, qui « prépare la relève à droite » d’après Valeurs Actuelles, « pépinière pour libéraux conservateurs et catholiques identitaires » selon La Vie, est par ailleurs hébergée « par le très droitier Institut de formation politique » (IFP) relevait Arrêt sur images, et « créée par la droite identitaire pour conquérir les médias », soulignait une enquête du Monde.
« Plus de 80 % des intervenants y assument ouvertement un discours de droite, ou d’extrême-droite », relevait Le Monde. Si la majeure partie des offres d’emploi qui leur sont proposés émanent du Figaro, les médias possédés par le milliardaire conservateur Vincent Bolloré, dont CNews et le JDD, représenteraient « le premier filon de recrutement » de ses étudiants.
Sa « formation aux techniques du journalisme », initialement répartie en « 6 week-ends » seulement, ne dure accessoirement que 150 heures, désormais étalées sur 10 week-ends, « soit 10 fois moins que dans la plupart des écoles reconnues par la profession, où la formation s’étale généralement sur toute la semaine, pendant deux années », précisait Le Monde.
Ce qui en ferait une formation « low-cost » d’un point de vue pédagogique, mais fort onéreuse comparée aux autres écoles privées : la formation y coûte en effet « 1 250 € les 10 week-ends », contre 7 000 à 8 000 euros par an en moyenne pour les autres écoles privées de journalisme.
La Lettre révélait par ailleurs, en décembre dernier, que Jean-Baptiste Giraud briguait en outre une investiture comme candidat estampillé Rassemblement National (RN) dans le Perche, après y avoir adhéré suite à la dissolution du Parlement en 2024.
Des articles amputés par une énigmatique balise « « `html »
La page de présentation de Jean-Baptiste Giraud, sur le site d’Economie Matin, rappelle que le titre de presse fut initialement un hebdomadaire papier, lancé en 2004, relancé comme pure-player sur Internet en 2012. Le journaliste renvoie étrangement à son profil Google+. Un réseau social qui n’existe plus depuis avril 2019, alors qu’il est pourtant et par ailleurs actif sur X.com depuis 2010 (sous le pseudonyme @mediatrainingfr, passé en privé).
Tout aussi étrangement, Jean-Baptiste Giraud n’écrit quasiment que sur les prix du fioul domestique, du gaz, du carburant et les résultats du Loto. Et ce, tous les jours (fériés compris). Il a plus précisément pour « morning routines » de publier ses articles sur le prix du carburant en France (à 3h31 pétantes), du fioul domestique (à 5h30) et du gaz (à 10h03), ainsi que, tous les soirs, ses articles sur les résultats du loto ou d’Euromillions (à 20h10), systématiquement illustrés par les mêmes images.
Ses articles sur les prix des carburants finissent tous, là aussi étrangement, par un paragraphe intitulé « Conclusion » (ce que ne font jamais les journalistes : un article n’est pas une rédaction scolaire ou universitaire), systématiquement amputée, empêchant ses lecteurs de pouvoir la lire. Elles sont, au surplus, clôturées par une énigmatique balise « « `html ».
Il pourrait s’agir d’un simple bug technique. Mais ses articles sont aussi truffés de listes à puces et de tableaux, l’un des marqueurs caractéristiques des tactiques, techniques et procédures (TTP) des articles GenAI, tout comme le fait de les conclure par un paragraphe intitulé « Conclusion ».
« 0 joueurs ont remporté 0 euros, soit un total de 0 euros »
Un recours généralisé à l’IA que semblent confirmer ses articles sur les résultats du loto et/ou d’EuroMillions, qu’il publie souvent à 20h10 tapantes, et qui révèlent en outre que Jean-Baptiste Giraud ne relit probablement pas les articles qu’il signe pourtant de son nom.
Les 9 mars, 21 août et 23 novembre, le journaliste écrivait par exemple que « Lors du dernier tirage loto en date, 0 joueurs ont remporté 0 euros, soit un total de 0 euros. De même, 0 joueurs ont touché 0 euros ce qui représente tout de même 0 euros ». Une formulation pour le moins étonnante, qu’il a pourtant publié au moins 10 autres fois.
Il reste 74% de l'article à découvrir. Vous devez être abonné•e pour lire la suite de cet article. Déjà abonné•e ? Générez une clé RSS dans votre profil.
Plus d’une centaine (au moins) des 1 500 sites francophones d’information générés en tout ou partie par des IA que nous avons identifiés plagient des articles de véritables journalistes, sans mentionner leurs sources ni préciser qu’ils ont été générés avec des IA. Ils sont, pour la plupart, référencés sur Google Actualités, et parfois relayés par son IA Discover. Certains se contentent de traduire des articles en français quand d’autres les paraphrasent, rendant leurs plagiats plus difficiles à identifier.
Le site News.dayFR.com, qui plagie jusqu’à 6 000 articles par jour et vient de faire l’objet d’un recours en justice de la part de 40 médias français, n’est que la partie émergée de l’iceberg des prétendus sites d’information générés par des intelligences artificielles (GenAI, pour Generative AI en anglais) reposant sur du plagiat.
Comme indiqué dans le premier volet de notre enquête, notre base de données recensait une centaine de sites d’infos GenAI mi-octobre, plus de 250 fin octobre, 500 à la veille de Noël, 850 mi-janvier, plus de 1 000 en ce début février, et plus de 1 500 depuis la publication de notre enquête.
Une explosion qui ne témoigne pas tant, cela dit, d’une explosion récente de ce type de sites (certains étaient déjà référencés par Google avant même le lancement de ChatGPT, fin 2022), mais d’une amélioration de nos méthodes de détection. Il nous a fallu du temps, en effet, pour affiner notre regard, parvenir à accumuler nombre de « signaux faibles » et indicateurs des contenus GenAI, au point d’estimer qu’ils seraient probablement des (dizaines ?) de milliers, rien qu’en français.
Ce pourquoi nous avons aussi développé une extension (pour les navigateurs basés sur Chromium et Firefox) afin d’alerter les internautes lorsqu’ils consultent un site reposant, « en tout ou partie », sur des articles GenAI, mais également de permettre à ses utilisateurs de nous adresser des signalements concernant des sites que nous n’aurions pas encore identifiés (ce qui nous a d’ailleurs permis d’en rajouter plusieurs dizaines depuis son lancement).
Une véritable « pollution informationnelle », en pleine expansion
Nous avons cessé de comptabiliser les sites d’infos générés par IA (GenAI) reposant sur du plagiat au bout d’un peu plus de 100. D’une part parce que, au-delà de ce chiffre symbolique, l’identification des 1 000 sites d’infos francophones GenAI que nous avions initialement répertoriés nous a déjà pris un temps (littéralement) dément, nonobstant le fait que notre extension en dénombre donc désormais plus de 1 500.
D’autre part parce que le fait d’identifier qu’un site est GenAI est une tâche qui peut s’avérer relativement facile (cf notre mode d’emploi). A contrario, la reconnaissance des plagiats s’avère parfois bien plus ardue, et prend donc encore plus de temps.
Nous avons également cessé de répertorier les sites GenAI relevant du plagiat au bout de 100 parce qu’ils sont tellement nombreux à recourir à des générateurs d’articles par IA optimisés pour Google Actualités et son IA Discover (nous y reviendrons) que leur nombre ne change pas grand-chose : nous sommes confrontés à une véritable « pollution informationnelle », en pleine expansion, et dont la prolifération soulève de nombreuses questions économiques, sociales et politiques, comme le souligne notre édito.
Le problème n’est pas tant qu’ils soient 100, 200, 500 ou (vraisemblablement) plusieurs milliers à pomper et plagier des articles écrits par des journalistes professionnels et humains : le simple fait que plus de 100 médias GenAI reposant sur du plagiat aient réussi à être référencés par Google Actualités, pour certains depuis des années, montre que ses algorithmes ont (et posent) de très gros problèmes.
Il n’est pas rare que deux des 15 articles mis en avant sur Google Discover, son IA de recommandation d’actualités, soient des articles GenAI, même et y compris avec des titres putaclics, relayant des informations « hallucinées » par les IA (nous y reviendrons également), et illustrées par des images elles-mêmes GenAI.
C’est d’ailleurs précisément après avoir commencé à recevoir des alertes Google renvoyant vers de tels articles GenAI que cette enquête a débuté. Ces articles, générés par des IA, relaient de nombreuses fausses informations. Ils ne sauraient dès lors être considérés comme fiables, et devraient donc être blacklistés par Google Actualités et son IA Discover.
Si vous voulez un exemple de ce que peut proposer une IA générative en se basant sur des communiqués de presse, nous avons monté un site GenAI (en 2 h, pour 1,2 euro par mois).
Plusieurs de ces articles GenAI ont en outre été mentionnés comme « sources » par des journalistes professionnels en lieu et place de ceux qu’ils plagient, et de nombreux internautes ont pu les lire, commenter voire partager sur les réseaux sociaux, sans même se rendre compte qu’il s’agissait d’articles générés par IA, non fiables, voire complètement erronés (nous y reviendrons).
Or, et comme indiqué dans le premier volet de notre enquête, sur les 148 sites initialement mentionnés comme « sources » sur l’encyclopédie collaborative Wikipédia (sur les 327 sites que nous avions alors identifiés en novembre), 105 avaient recours à l’IA pour la rédaction de textes, et 65 au plagiat (avec ou sans traduction, ou reformulation par IA).
Sachant, par ailleurs, que 284 autres des sites GenAI de notre base de données (sur 750 recherchés, soit près de 38 %) ont depuis été, eux aussi, identifiés comme ayant été mentionnés sur Wikipédia (qui interdit les mentions de plagiats, et de sites GenAI, notamment).
Nous sommes conscients que ces 1 500 sites ne sont probablement que la partie émergée de l’iceberg des contenus GenAI indexés par Google et consorts. Ils sont probablement des (dizaines de) milliers d’autres à polluer le web de la sorte (a fortiori si l’on y rajoute les sites GenAI non-francophones), mais le problème ne fait que commencer, et il est donc urgent de s’y atteler.
Ce pourquoi il nous a semblé important d’expliquer comment nous avons pu identifier les sites GenAI reposant sur du plagiat, omettant sciemment de mentionner les articles dont ils s’inspirent, traduisent, voire paraphrasent, en l’illustrant par quelques exemples choisis, représentatifs de leurs modus operandi.
« Comment humaniser ChatGPT pour rendre ses textes indétectables »
Le samedi 13 janvier 2024, à 5h40 du matin, un certain Charles A., qui se présente comme un « expert en produits chinois », publiait par exemple sur le site netcost-security.fr un article intitulé « Comment humaniser ChatGPT pour rendre ses textes indétectables » (il a depuis été effacé, mais nous l’avions archivé) :
« Dans les paragraphes suivants, je vais vous donner quelques conseils pour améliorer la qualité des textes de ChatGPT, en les rendant plus humains et surtout indétectables par d’autres personnes. De cette façon, vous pourrez exploiter ses capacités pour générer du contenu sans que personne ne s’en rende compte. »
Il reste 76% de l'article à découvrir. Vous devez être abonné•e pour lire la suite de cet article. Déjà abonné•e ? Générez une clé RSS dans votre profil.
Plus de la moitié des réponses fournies par les assistants d’intelligence artificielle (IA) et reposant sur les articles de la BBC sont « factuellement incorrectes, trompeuses et potentiellement dangereuses ». Et 20 % d’entre elles ont en outre rajouté des « inexactitudes factuelles » qui ne figuraient pas dans les articles mentionnés.
Quand bien même ils iraient chercher les réponses aux questions qu’on leur pose dans les articles de la BBC, « les assistants d’IA risquent d’induire le public en erreur », relève une étude effectuée par la « BBC’s Responsible AI team » (équipe pour une IA responsable, en français).
Dans une tribune publiée en parallèle, Deborah Turness, PDG de BBC News, qualifie le phénomène de « distorsion » de l’information, à savoir le fait qu’un assistant d’IA « récupère » des informations pour répondre à une question, avant d’en générer une réponse « factuellement incorrecte, trompeuse et potentiellement dangereuse » :
« Il n’est pas difficile de voir à quelle vitesse la distorsion par l’IA pourrait saper la confiance déjà fragile des gens dans les faits et les informations vérifiées. Nous vivons une époque troublée, et combien de temps faudra-t-il avant qu’un titre déformé par l’IA ne cause un préjudice important dans le monde réel ? Les entreprises qui développent des outils d’IA générative (GenAI) jouent avec le feu. »
Ce pourquoi la BBC voudrait « ouvrir un nouveau dialogue » avec les fournisseurs de technologies d’IA et d’autres grandes marques de médias afin de travailler ensemble à la recherche de solutions.
Mais pour cela, elle devait d’abord se faire une idée de l’ampleur du problème. La BBC a donc posé « 100 questions de base » portant sur l’actualité, pendant un mois, aux quatre outils d’IA grand public leaders sur le marché : ChatGPT d’OpenAI, Copilot de Microsoft, Gemini de Google et Perplexity.
Même en se basant sur les articles de la BBC, les IA ne peuvent s’empêcher d’halluciner
Si, d’ordinaire, la BBC bloque l’accès aux robots des IA, elle les avait temporairement autorisés à venir consulter ses articles, en les incitant, « dans la mesure du possible », à utiliser les articles de BBC News comme sources. Chaque prompt était en effet précédé de la mention : « Use BBC News sources where possible [QUESTION] ».
Leurs 362 réponses ont ensuite été vérifiées par 45 journalistes de la BBC, experts dans les domaines concernés, en fonction de sept critères : l’exactitude, l’attribution des sources, l’impartialité, la distinction entre les opinions et les faits, l’éditorialisation (via l’insertion de commentaires et de descriptions non étayés par les faits présentés dans la source), le contexte et, enfin, la représentation du contenu de la BBC dans la réponse.
Les résultats de l’étude, qualifiés de « préoccupants » par la BCC, montrent que les IA relaient de nombreuses erreurs factuelles et informations « déformées » ou « distordues », en introduisant des « erreurs factuelles évidentes » dans environ un cinquième des réponses qu’ils disaient provenir d’articles de la BBC :
51 % de leurs réponses ont été jugées comme « présentant des problèmes importants » ;
19 % des réponses citant des contenus de la BBC y ont rajouté des erreurs factuelles, déclarations erronées, chiffres et dates incorrects ;
13 % des citations tirées d’articles de la BBC « ont été soit modifiées, soit n’existaient pas dans l’article en question ».
Gisèle Pelicot vue par le Copilot de Microsoft
Il reste 74% de l'article à découvrir. Vous devez être abonné•e pour lire la suite de cet article. Déjà abonné•e ? Générez une clé RSS dans votre profil.
« Voilà qui fait mauvais genre », ironise le journaliste Marc Rees sur L’Informé : le moteur de recherche Qwant, qui avait fait de la protection de la vie privée de ses utilisateurs son fer de lance, vient de faire l’objet d’un « rappel à ses obligations légales de transparence et d’information » de la part de la CNIL.
La Commission avait été saisie par Stéphane Erard, un ex-développeur de Qwant en conflit avec son ex-employeur, qu’il accusait de chercher à masquer que le moteur, soi-disant « souverain », recourait en fait aux services du moteur Bing de Microsoft, comme nous l’avions rapporté dans notre enquête-fleuve de 2019.
Des contrôles effectués en juillet et septembre 2019 « ont permis d’établir que la société Qwant transmettrait à la société Microsoft Ireland Opérations Limited des données essentiellement techniques (…) afin que cette dernière renvoie les résultats correspondant aux recherches faites par les utilisateurs ainsi que des publicités contextuelles », relève la décision de la CNIL, consultée par L’Informé.
Y figuraient des identifiants et adresses IP tronquées. Or, à l’époque des contrôles, « Qwant indiquait que les données étaient anonymes » et « par corrélation », le moteur de recherche « ne mentionnait ni la finalité publicitaire de la transmission des données à la société Microsoft Ireland Opération Limited, ni la base légale mobilisée par ce traitement ».
La CNIL requalifie pour sa part ces informations de « pseudonymes », au regard des recommandations et de la jurisprudence en vigueur. Dès lors, les informations délivrées aux utilisateurs « n’étaient pas conformes au règlement général sur la protection des données à caractère personnel (RGPD) qui s’appliquait pleinement », relève L’Informé.
La CNIL constate cela dit que Qwant a corrigé sa politique de confidentialité pour la remettre d’aplomb avec ces normes de protection en 2020, « soit un an après les premiers contrôles par ses agents », souligne notre confrère.
Contacté par l’Informé, Qwant souligne que ce simple rappel à la loi date d’avant le rachat de l’entreprise par Synfonium (composé d’Octave Klaba fondateur OVH Cloud à 75% et de la Caisse des dépôts et consignation à hauteur de 25%) en 2023, et confirme « que Qwant ne stocke aucune donnée personnelle et est en conformité totale avec les engagements que nous annonçons ».
L’Informé rappelle par ailleurs que Stéphane Érard avait pour sa part fait l’objet d’un licenciement pour faute en 2017, pour avoir insinué sur Twitter que Qwant trompait ses utilisateurs sur sa politique de confidentialité. Un licenciement confirmé par le Conseil des Prud’hommes en 2018, puis par une cour d’appel en 2022.
En cette même année 2022, Éric Leandri, alors PDG de Qwant, avait de son côté été condamné par le tribunal judiciaire de Paris pour espionnage de la boite mail d’un autre associé de Qwant, Jean-Manuel Rozan. Les faits s’étaient déroulés fin 2019, alors que Leandri dirigeait la société au slogan : « le moteur de recherche qui ne sait rien sur vous et ça change tout ! ».
« Voilà qui fait mauvais genre », ironise le journaliste Marc Rees sur L’Informé : le moteur de recherche Qwant, qui avait fait de la protection de la vie privée de ses utilisateurs son fer de lance, vient de faire l’objet d’un « rappel à ses obligations légales de transparence et d’information » de la part de la CNIL.
La Commission avait été saisie par Stéphane Erard, un ex-développeur de Qwant en conflit avec son ex-employeur, qu’il accusait de chercher à masquer que le moteur, soi-disant « souverain », recourait en fait aux services du moteur Bing de Microsoft, comme nous l’avions rapporté dans notre enquête-fleuve de 2019.
Des contrôles effectués en juillet et septembre 2019 « ont permis d’établir que la société Qwant transmettrait à la société Microsoft Ireland Opérations Limited des données essentiellement techniques (…) afin que cette dernière renvoie les résultats correspondant aux recherches faites par les utilisateurs ainsi que des publicités contextuelles », relève la décision de la CNIL, consultée par L’Informé.
Y figuraient des identifiants et adresses IP tronquées. Or, à l’époque des contrôles, « Qwant indiquait que les données étaient anonymes » et « par corrélation », le moteur de recherche « ne mentionnait ni la finalité publicitaire de la transmission des données à la société Microsoft Ireland Opération Limited, ni la base légale mobilisée par ce traitement ».
La CNIL requalifie pour sa part ces informations de « pseudonymes », au regard des recommandations et de la jurisprudence en vigueur. Dès lors, les informations délivrées aux utilisateurs « n’étaient pas conformes au règlement général sur la protection des données à caractère personnel (RGPD) qui s’appliquait pleinement », relève L’Informé.
La CNIL constate cela dit que Qwant a corrigé sa politique de confidentialité pour la remettre d’aplomb avec ces normes de protection en 2020, « soit un an après les premiers contrôles par ses agents », souligne notre confrère.
Contacté par l’Informé, Qwant souligne que ce simple rappel à la loi date d’avant le rachat de l’entreprise par Synfonium (composé d’Octave Klaba fondateur OVH Cloud à 75% et de la Caisse des dépôts et consignation à hauteur de 25%) en 2023, et confirme « que Qwant ne stocke aucune donnée personnelle et est en conformité totale avec les engagements que nous annonçons ».
L’Informé rappelle par ailleurs que Stéphane Érard avait pour sa part fait l’objet d’un licenciement pour faute en 2017, pour avoir insinué sur Twitter que Qwant trompait ses utilisateurs sur sa politique de confidentialité. Un licenciement confirmé par le Conseil des Prud’hommes en 2018, puis par une cour d’appel en 2022.
En cette même année 2022, Éric Leandri, alors PDG de Qwant, avait de son côté été condamné par le tribunal judiciaire de Paris pour espionnage de la boite mail d’un autre associé de Qwant, Jean-Manuel Rozan. Les faits s’étaient déroulés fin 2019, alors que Leandri dirigeait la société au slogan : « le moteur de recherche qui ne sait rien sur vous et ça change tout ! ».
40 médias français demandent à la Justice d’ordonner aux FAI le blocage du site news.dayfr.com. Ce dernier, le plus bourrin du millier de sites d’informations générés par IA que nous avons identifiés, plagie de 5 à 15 articles… par minute, et jusqu’à plus de 6 000 par jour.
Au printemps dernier, l’auteur de ces lignes animait une formation consacrée au fact-checking auprès de journalistes professionnels. L’un d’entre eux s’était excusé de devoir, en urgence, finaliser et mettre en ligne un article. Ce qu’il fit, tout en tentant de garder une oreille (plus ou moins) attentive pour suivre la formation, jetant un œil de temps à autre aux sites et pages web présentés.
Afin d’illustrer pourquoi et comment il convenait d’apprendre à identifier les articles et sites d’information générés par des IA (GenAI), je prenais comme exemple la page d’accueil de News.dayFR. Je l’avais déjà identifié comme le principal plagieur GenAI en français. Mais je ne m’attendais pas à ce que le journaliste découvre, stupéfait, que ce site venait de publier un copier-coller de son article, mis en ligne une demi-heure plus tôt seulement.
Le site, qui existe depuis (au moins) décembre 2021, et qui a utilisé également le nom de domaine france.dayfr.com entre 2022 et 2023, est probablement le plus productif de la centaine de sites reposant sur du plagiat et faisant partie du millier de sites d’info GenAI que nous avons identifiés. Jusqu’à mentionner, dans le corps voire le titre des articles qu’il plagie, le nom du média qu’il copie-colle, comme le montrent ces captures d’écran.
Il republie depuis, en très léger différé, des dizaines de milliers d’articles émanant tout autant de la presse quotidienne régionale (PQR) que de la presse nationale française. Il s’agit généralement de simples copier-coller d’articles qui viennent d’être indexés sur Google Actualités, parfois (très) légèrement modifiés, notamment dans le titre.
Libération a ainsi constaté que le site passait les articles plagiés dans un traducteur automatisé, au point, par exemple, de renommer le nom de son service de fact-checking « CheckNews » en « VérifierActualités ».
Ironie de l’histoire, l’article de Libération titré « Quarante médias saisissent la justice pour bloquer “News Dayfr”, un des multiples “sites parasites” générés par IA » a lui-même été copié-collé sur News.dayFR, qui va jusqu’à rajouter « – Libération » dans le titre de l’article plagié.
L’AFP, qui précise que « la procédure entamée contre News.DayFr.com est la conséquence d’une enquête journalistique réalisée par Libération et le média spécialisé Next », a en outre remarqué que le plagiat de l’article du Monde consacré à cette plainte est quant à lui émaillé d’erreurs provenant de mauvaises traductions : « le média Next y était ainsi renommé « Suivant » (la traduction française de son nom) » :
« La plainte fait suite à une enquête Libération et les médias en ligne spécialisés Suivant. […] Nom des nouvelles. Jour. EN apparaît dans une enquête en plusieurs composants publiée depuis jeudi Libération et à Suivant qui note l’existence d’au moins un millier de ces sites d’information automatisés ou dopés par l’IA générative. »
Une demande de blocage, d’ici 15 jours
D’après Libé, qui fait partie des plaignants, les groupes de presse La Dépêche du Midi, Sud Ouest, PubliHebdos, La Montagne, le Télégramme et la Nouvelle République du Centre, représentant une quarantaine de titres de presse, viennent en effet de saisir la Justice pour qu’elle oblige les FAI à bloquer l’accès à News.dayFR.
Il reste 84% de l'article à découvrir. Vous devez être abonné•e pour lire la suite de cet article. Déjà abonné•e ? Générez une clé RSS dans votre profil.
L’enquête nous ayant permis de découvrir plus de 1 000 sites d’actualité alimentés au moyen d’intelligences artificielles génératives (GenAI) montre que leurs articles n’ont vraisemblablement pas été écrits par des journalistes ou rédacteurs, ni même relus ou corrigés avant publication. Notre méthodologie a par ailleurs été challengée et vérifiée par deux contributeurs expérimentés de l’encyclopédie Wikipédia, et deux journalistes du service de fact-checking CheckNews de Libération.
Le fait d’avoir passé des mois à identifier plus de 1 000 sites d’information générés par IA nous a permis de visualiser des milliers d’images souvent, elles aussi, GenAI, mais aussi et surtout de nous familiariser avec les caractéristiques partagées par ces contenus synthétiques.
Si leurs articles ont pu tromper des « contributeurs expérimentés, voire très expérimentés » de Wikipédia, comme nous le relevions dans le premier article consacré à cette enquête au long cours, c’est qu’ils n’avaient pas été entraînés ni sensibilisés au fait de les reconnaître d’une part, d’autre part parce qu’ils ne s’attendaient pas à voir ces sites d’information, auparavant considérés comme fiables, être désormais alimentés par IA.
Ce pourquoi il nous a semblé important de consacrer un article expliquant comment nous avons procédé, et donc comment identifier les sites et articles générés par IA. À toutes fins utiles, Next a aussi développé une extension web (pour Firefox et les navigateurs basés sur Chrome) afin d’afficher un message d’alerte sur les sites que nous avons d’ores et déjà identifiés comme GenAI parce que leurs articles nous semblent avoir, en tout ou partie, été générés par IA.
Au printemps 2023, nous avions de notre part consacré deux articles aux moyens d’identifier les textes et images générés au moyen d’intelligences artificielles. Nous avions alors constaté que les outils de détection des contenus GenAI généraient eux-mêmes de nombreux « faux positifs » (contenus créés par des humains, mais identifiés à tort comme GenAI), et « faux négatifs » (contenus GenAI, mais non reconnus comme tels).
Ceux que nous avions alors testés avaient pour la plupart failli à identifier le texte généré par ChatGPT, en français, que nous leur avions soumis. Certains détecteurs affirmaient que la probabilité qu’il ait été écrit par une IA était de 1 à 25,6 %. D’autres considéraient probable à 97 % et même 100 % qu’il ait été écrit par un humain.
De plus, cette façon de présenter les résultats, avec des « X % » surlignés de vert ou de rouge, relève de « dark patterns » (ou « interfaces truquées ») cherchant à faire croire que leurs calculs de probabilité seraient (quasi-)infaillibles.
Cette forme de « solutionnisme technologique » est une façon biaisée de traiter le problème. Comme l’a résumé le psychologue Abraham Maslow, aussi connu pour sa « Pyramide des besoins » : « J’imagine qu’il est tentant, si le seul outil dont vous disposiez est un marteau, de tout considérer comme un clou » (cette proposition est quelquefois nommée loi de l’instrument, ou « marteau de Maslow »).
De plus, les professionnels du « black hat SEO » (pour « Search Engine Optimization »), connus pour développer des techniques susceptibles de « pirater » les algorithmes des moteurs de recherches, se sont eux aussi rués sur ces IA génératives pour développer des générateurs d’articles « en vrac », optimisés pour déjouer ces détecteurs de contenus GenAI (nous y reviendrons dans un prochain article).
Une méthodologie challengée et validée par des pairs
Ces différentes limites expliquent pourquoi nous n’avons pas utilisé de tels outils, reposant eux-même sur des IA, dans le cadre de notre enquête. Nous avons, a contrario, opté pour une méthodologie, basée sur l’identification et la reconnaissance (humaine, à l’œil nu) de leurs techniques, tactiques et procédures (TTP).
Il reste 85% de l'article à découvrir. Vous devez être abonné•e pour lire la suite de cet article. Déjà abonné•e ? Générez une clé RSS dans votre profil.
Next a identifié plus de 1 000 sites web d’information francophones faisant croire que leurs articles sont écrits par des journalistes ou des experts en la matière. Ils sont en fait générés et/ou traduitspar des IA, sans le mentionner. Au moins une centaine reposent sur du plagiat, et près de 150 étaient mentionnés comme sources sur Wikipédia. Vu l’ampleur du problème, nous avons proposé au service de fact-checking CheckNews de Libération de nous aider à enquêter sur ce qui s’apparente à une véritable « pollution » numérique et médiatique. Premier volet de notre enquête.
La société NewsGuard évalue « tous les sites d’information et d’actualité (plus de 7 500 sites) dont les contenus représentent 95 % de l’engagement avec l’actualité en ligne aux États-Unis, au Royaume-Uni, au Canada, en France, en Allemagne et en Italie ».
Son observatoire de suivi de la mésinformation facilitée par l’IA répertorie par ailleurs 1 150 « sites d’actualité non fiables générés par l’IA » (GenAI ou « UAINS », pour « Unreliable AI-generated News Sites » en anglais), contre seulement 49 lorsqu’elle avait commencé à les recenser, en mai 2023.
NewsGuard souligne que « ces sites portent généralement des noms génériques […] qui ressemblent pour le lecteur à des sites d’actualité classiques » :
« Dans de nombreux cas, le modèle économique de ces sites repose sur la publicité programmatique – des publicités placées de manière algorithmique par les sociétés d’ad-tech sans se soucier de la nature ou de la qualité des sites. Par conséquent, des grandes marques soutiennent ces sites involontairement. »
Or, leurs articles « contiennent parfois de fausses affirmations, telles que des infox sur la mort de célébrités, des événements fabriqués de toutes pièces et des articles présentant des événements anciens comme s’ils venaient de se produire ».
Accessible sur abonnement, sa liste de sites GenAI, établie par près de 15 fact-checkers, concerne 16 langues. Contactée par CheckNews, la société précise que sa base de données ne contiendrait qu’une vingtaine de sites en français.
Next en a de son côté identifié plus de 1 000, rien qu’en français. Et nous avons de bonnes raisons de penser qu’il en existerait plusieurs milliers, au vu du nombre de professionnels qui ont industrialisé la production de sites d’informations générés par IA. Nous avons en effet identifié une centaine de ces pros de l’info GenAI, sans pouvoir mesurer combien de dizaines (voire de centaines) d’autres se seraient lancés dans ce douteux (mais lucratif) « business ».
Signe de l’ampleur du problème et de son inflation, cette sous-estimation (tant dans les chiffres de NewsGuard que les nôtres) semble indiquer que nous serions débordés par le phénomène, qui s’apparente à une véritable « pollution » numérique et médiatique.
Une pollution quasi invisible, puisque personne ou presque ne semblait l’avoir identifiée jusque-là. En tout cas, pas à ce point.
Une « forme hybride de plagiat » facilitée, voire générée par IA
Mi-octobre, Olivier Marino, directeur adjoint des rédactions du groupe Nice Matin, déplorait sur LinkedIn une « forme hybride de plagiat » facilitée, voire générée par l’IA. Un « média d’information et d’actualité », situé lui aussi dans le Var, publie en effet des articles « sur des histoires où nous étions parfois le seul média présent ». Ce média reprend à son compte les informations recueillies par les journalistes de Nice Matin, mais « sans source, ni lien ».
L’analyse d’un échantillon de 46 articles, effectuée par une start-up spécialisée dans la détection de contenus générés par IA, « a pu déterminer que 32 d’entre eux avaient été – selon son outil – générés via de l’IA reprenant les informations de Var-matin, mais aussi d’autres médias locaux ».
En réponse, 60 millions de consommateurs, « média sans publicité commerciale et ne vivant que de ses ventes », déplorait que ses articles étaient « très rapidement plagiés et republiés depuis des années sur des sites web truffés de pub et en accès gratuit ». Surtout ses essais comparatifs, « particulièrement coûteux à réaliser, dont l’intégralité des résultats est souvent ainsi diffusée gratuitement » :
« Jusque-là, il s’agissait surtout de réécritures « manuelles » sur les sites web de « vrais » groupes de presse (notamment un dont le nom commence par « Re »). Mais on commence à voir désormais des reprises de nos articles par des sites inconnus au bataillon, vraisemblablement rédigées par de pures IA, et très très bien classés chez Google. La presse locale est donc loin d’être la seule concernée. »
Nous avons alors répondu que nous nous apprêtions à publier une enquête à ce sujet, « ayant identifié plus de 100 sites en français se faisant passer pour des sites d’informations reposant sur le travail de journalistes, mais qui sont en fait générés par des IA, dont près de 30 reposent sur du plagiat (majoritairement d’articles étrangers, traduits en français) ».
Compte tenu du nombre d’acteurs impliqués, de médias parasités voire plagiés, et des nombreuses questions (déontologiques, juridiques, légales, médiatiques, financières, notamment) que cette prolifération de sites d’info GenAI soulève, nous avons depuis proposé au service CheckNews de fact-checking de Libération d’enquêter avec nous à ce sujet (voir leur enquête).
De 100 à plus de 1 000 sites GenAI en quelques mois seulement
Le phénomène s’est, en effet, révélé d’une ampleur nettement supérieure à ce que nous anticipions. Fin octobre (soit 15 jours après notre commentaire sur LinkedIn), lorsque nous avons contacté Libé, notre recension était passée à 270 sites d’info GenAI. Le cap des 500 a été franchi à la veille de Noël, celui des 800 mi-janvier.
Entamée il y a près d’un an, notre enquête nous a depuis permis d’en identifier plus de 1 000, soit près de 750 de plus en seulement trois mois, dont une centaine au moins relevant du plagiat (nous y reviendrons dans un prochain article). Ce n’est pas tant que le phénomène serait en pleine expansion (une bonne partie de ces sites existent depuis des mois, voire des années), mais parce que nous avons affiné nos méthodes de détection.
La consultation des 28 pages de réponses, sur Google Actualités, à la requête « je suis désolé, mais je ne peux pas » (l’un des messages d’erreur bien connus liés à ChatGPT et ses avatars) était éloquente. Nous y avons découvert une quinzaine de sites d’infos GenAI qui, eux-mêmes, nous ont permis d’en identifier près de 250 autres, liés d’une manière ou d’une autre à leurs éditeurs respectifs. Ce, en moins d’une journée.
Nous revenons plus en détails sur les tactiques et procédures permettant de reconnaître les sites GenAI dans un second article dédié. Nous ne saurions par ailleurs que trop vous conseiller d’installer l’extension pour navigateur que nous avons développée afin d’alerter ses utilisateurs lorsqu’ils consultent un site dont les articles ont été, en tout ou partie, générés par IA.
S’il était prévisible que des pirates de l’info se saisissent des IA génératives pour développer de tels médias, il est par contre incompréhensible que la plupart de ces sites, référencés depuis des mois ou des années sur Google Actualités, n’en aient toujours pas été exclus, plus de deux ans après le lancement de ChatGPT puis de ses avatars.
Le SEO est-il mort ?
En janvier 2023, deux mois seulement après le lancement de ChatGPT, nous écrivions en effet que la démocratisation des intelligences artificielles génératives allait « faciliter la production d’éléments textuels assez banals, surtout destinées à booster son référencement sur Google ». Cela posait de « nouveaux risques » en matière d’accès à l’information.
Un an plus tard, le SEO est toujours là, mais l’IA a changé la donne : par son intermédiaire, des éditeurs inondent Google Actualités de prétendus sites d’information et d’articles GenAI.
Non contents de piller à bas coûts les articles de médias rémunérant leurs journalistes, ils privent leurs rédactions des revenus publicitaires qu’ils auraient pu engendrer si les internautes avaient lu les articles originaux, et non leurs plagiats générés par IA.
Une centaine de pros du SEO responsables des 3/4 de ces 1 000 sites GenAI
Une bonne partie de ces 1 000 sites sont répertoriés par Google Actualités ou cherchent à l’être (soulignant, comme s’il s’agissait d’une caution, qu’ils y ont été « approuvés »). Pourtant, leurs articles se bornent à utiliser des IA pour identifier, traduire en français, voire copier-coller de façon automatisée des articles émanant de journalistes. Ces derniers ne sont jamais mentionnés, et leurs sources quasiment jamais citées.
Non content d’induire leurs lecteurs en erreur en leur faisant croire que les informations relayées ont été vérifiées par des journalistes, ces sites GenAI vont jusqu’à relayer des informations « hallucinées » par leurs IA, donc erronées. Nous y reviendrons, dans un article à paraître sur ces « hallucinations ».
Nous avons aussi identifié environ 90 (auto-)entreprises responsables de plus des trois quarts de ces sites, dont l’écrasante majorité émanent de professionnels du SEO. Plus de 50 d’entre elles administrent au moins cinq sites GenAI, plus de 30 dix sites ou plus, 10 plus de 20, cinq plus de 30 et deux plus de 90 (au moins).
Y figurent aussi cinq entreprises se présentant comme des médias ou groupes de presse, supposées employer des journalistes (nous y reviendrons également). De nombreux sites prodiguent des conseils en matière de high-tech, de finance (notamment en termes de « cryptoactifs », d’assurance-vie, retraite ou d’ETF), de démarches administratives, de bien-être et même de santé, jusqu’à prodiguer des… « avis médicaux » (nous y reviendrons aussi).
Environ 250 sites GenAI (soit le quart de ceux que nous avons identifiés) ne fournissent, a contrario, aucune mention légale permettant d’identifier leurs responsables, en violation de la loi. Dans certains cas, ils mentionnent même des informations fictives.
S’il est impossible de savoir combien de médias sont générés par des IA, ces 1 000 et quelques sites GenAI ne sont vraisemblablement que la partie émergée de l’iceberg de ces faussaires qui polluent le web en général, et Google Actualités en particulier.
Près de 50 % des sites GenAI étaient mentionnés dans Wikipédia
Plusieurs de ces sites apparaissent régulièrement sur Discover, l’IA de Google qui met en avant des articles d’actualité sur l’application Google mobile. À tel point qu’il arrive que deux des 15 - 20 articles qui y sont mis en avant chaque jour renvoient à des sites GenAI, contribuant à alimenter le robinet à pollution (nous y reviendrons).
Plus inquiétant : sur les 327 sites que nous avions partagés en novembre avec un administrateur et une contributrice émérite de Wikipédia, tous deux habitués à y détecter les « faux nez », 14 avaient déjà été identifiés lors des enquêtes menées à l’été 2022 sur les caviardages orchestrés par la société Avisa Partners sur l’encyclopédie collaborative, et 150 étaient mentionnés dans l’encyclopédie, soit plus de la moitié.
À lui seul, ce chiffre montre que les contenus GenAI ne sont pas forcément « bas de gamme », puisqu’ils parviennent à induire en erreur des contributeurs de Wikipédia. La vérification d’un échantillon aléatoire de contributions mentionnant ces sites GenAI a d’ailleurs permis de constater que les ajouts avaient, dans la majeure partie des cas, été faits « de bonne foi ».
Plus inquiétant : les deux fact-checkers de Wikipédia ont découvert que ces mentions étaient « souvent l’œuvre de contributeurs expérimentés, voire très expérimentés, y compris lorsqu’il s’agit de sites de très mauvaise qualité (pas d’auteurs, pas de mentions légales, traduction automatique manifeste, etc.) ».
Après avoir examiné chacun des 150 sites, ils avaient pu confirmer que 105 recouraient à l’IA pour la rédaction de textes, et 65 au plagiat (avec ou sans traduction, ou reformulation par IA). Les deux fact-checkers de l’encyclopédie en fournissent le compte-rendu détaillé, avec la liste des 148 sites examinés.
81 n’avaient en outre pas de mentions légales, ou des mentions mensongères, avec des auteurs fictifs. 51 avaient été « vampirisés » après le rachat de leur nom de domaine (et alors qu’ils constituaient jusque-là des sources acceptables), 18 ayant été utilisés pour effectuer des « modifications promotionnelles » sur l’encyclopédie, et 7 pour y faire du spam.
Nous leur avons depuis transmis à la liste des 1 066 sites GenAI identifiés à ce jour : 443 sont mentionnés comme « sources » et notes de bas de page sur Wikipédia, soit plus de 40 % du total. La liste de ces noms de domaine va désormais permettre aux contributeurs de l’encyclopédie de vérifier combien peuvent légitimement continuer à y figurer, ou pas (nous y reviendrons).
Une extension web pour identifier les sites (en tout ou partie) GenAI
Nous avons aussi découvert que 29 de ces 1 000 sites GenAI figurent dans le classement SimilarWeb des 1 000 sites d’éditeurs d’actualités et médias les plus visités en France. 17 figurent même dans le Top 500 et 3 dans le Top 100. 19 d’entre eux font aussi partie de la centaine de sites reposant en tout ou partie sur du plagiat (nous y reviendrons).
« La capacité de générer en masse de tels contenus est un désastre pour notre système informationnel », déplorait Ioana Manolescu, chercheuse en informatique à Inria et professeure à l’école Polytechnique, dans une enquête du Figaro consacrée à la « pollution numérique » constituée par la déferlante de contenus visuels (images et vidéos) GenAI :
« Un terme est en train de s’imposer pour les désigner : le « AI Slop », slop étant dans la langue anglaise un terme désignant la bouillie industrielle donnée aux cochons. »
« Le slop peut disparaître si les internautes expriment un fort rejet », soulignait-elle. Elle espérait que, à l’instar de ce qui s’est passé pour le spam, les acteurs de la Tech’ allaient travailler de concert pour développer des solutions de filtrage.
Afin d’aider les internautes à éviter ces pièges, Next a développé une extension web (pour Firefox et les navigateurs basés sur Chromium) affichant un message d’alerte sur les sites dont les articles nous semblent avoir, en tout ou partie, été générés par IA.
L’extension permet également à ses utilisateurs de nous envoyer, d’un simple clic, les sites GenAI, de désinformation ou frauduleux que ses utilisateurs auraient identifiés, pour que nous puissions « crowdsourcer » la mise à jour de notre base de données.
En revanche, nous avons ne rendons pas publique l’intégralité de la liste de ces sites, pas plus que celle des entreprises, pour plusieurs raisons. Nous ne voulons pas, d’une part, que cette base de données puisse aider ceux qui voudraient améliorer leurs générateurs d’articles automatisés, et qui se targuent de ne pas être reconnus comme GenAI (nous y reviendrons).
Nous ne voulons pas non plus faire de « name and shame » et mettre sur le même plan des auto-entrepreneurs SEO ayant créé quelques sites de façon opportuniste et les entreprises (y compris individuelles) en ayant créé plusieurs dizaines.
Nous allons toutefois, au fil des nombreux articles que nous allons publier dans les jours à venir au sujet de cette enquête, mentionner quelques sites et entreprises particulièrement emblématiques des problèmes que pose cette pollution.
Des IA pour remplacer les « travailleurs du clic » sous-payés
Tout a commencé lorsque, début 2024, nous avons reçu des « Google Alerts » nous renvoyant à des articles, répertoriés sur Google Actualités, mais émanant de médias inconnus. Ces articles cumulaient plusieurs artefacts et traits caractéristiques des contenus GenAI.
Suite au lancement de ChatGPT et de plusieurs autres IA génératives, nous avions consacré deux articles aux techniques, tactiques et procédures (TTP) pour identifier les textes et images générés par des IA, en mode « deepfakes » (ou hypertrucages).
Nous avons alors commencé à les recenser, cherchant à identifier leurs points communs pour les identifier plus facilement. Nous étions loin, à l’époque, d’imaginer que nous pourrions en découvrir plus de 1 000 rien qu’en français. Pas plus que notre recension artisanale ne représenterait qu’une (toute petite ?) partie d’une véritable pollution médiatique.
La majorité de ces sites GenAI semble émaner de professionnels du SEO, qui rachètent des noms de domaine ayant expiré pour profiter de leur référencement et trafic entrant préexistants. Traditionnellement, ils s’en servent pour produire des articles à la chaîne, soit pour démultiplier le nombre de pages vues, et donc les revenus publicitaires générés par de la publicité, soit pour vendre des liens et articles sponsorisés qui ont pour principal objet d’améliorer le référencement des sites Web de leurs clients, plus que d’informer leurs lecteurs.
Nombre d’entre eux recouraient jusque-là à des « travailleurs du clic », recrutés dans des pays d’Afrique francophone ou à Madagascar, pour disposer d’une main-d’œuvre à bas coût.
Depuis le lancement de ChatGPT et de ses avatars, ils semblent de plus en plus les remplacer par des IA capables de générer, traduire ou plagier des dizaines, voire des centaines d’articles par jour, à un tarif bien moindre ou quasi-nul (nous y reviendrons).
Aucun d’entre eux ou presque ne précise qu’ils ont été générés et illustrés par des « générateurs de baratin », « perroquets stochastiques » qui se contentent d’estimer la probabilité qu’une suite de mots puisse constituer un contenu plausible en réponse à un « prompt ». Ces logiciels ne comprennent pas les écrits et dessins qu’ils « génèrent », ce qui explique qu’ils puissent « halluciner » (ou « confabuler ») des faits et informations.
Des risques de mésinformation et de contrefaçon « assistées par l’IA »
Les conclusions de la mission de l’Arcom sur l’IA, rendues publiques mi-octobre, qualifient ces « médias synthétiques » de médias « du 3ᵉ type », aux côtés des médias éditorialisés (essentiellement humains) et des médias algorithmiques (plateformes en ligne).
Or, déplorait l’Arcom, en confiant à des algorithmes la génération des contenus qu’ils diffusent, « de manière relativement désincarnée » (sans véritables auteurs ou journalistes) et « avec un contrôle humain faible voire inexistant », ces médias ne peuvent proposer qu’une « qualité diminuée par l’IA ». Ce qui soulève plusieurs questions :
« économiques : ces services peuvent venir phagocyter le marché historique des médias éditorialisés ;
qualitatives : la production de contenus à la volée, parfois sans véritable contrôle humain, augmente le risque de mésinformation ou de désinformation ;
juridiques : les médias synthétiques peuvent représenter une forme « contrefaçon assistée par l’IA », tout en profitant d’une limite du régime de responsabilité de jure. »
L’Arcom relevait à ce titre que si « la France et l’Europe ne sont pas un « far west » de l’IA », au vu des règlementations nationales ou internationales en place ou en cours d’adoption, tel n’est pas le cas de ces médias « synthétiques » :
« Les médias synthétiques s’approprient fréquemment les contenus produits par les médias traditionnels puis les reformatent ou les reformulent afin de les rediffuser auprès de leurs propres utilisateurs – à des fins lucratives voire malintentionnées. »
À compter d’août 2026, les contenus GenAI devront être identifiables
Le Règlement européen sur l’IA demande en outre que des « solutions techniques » soient mises en œuvre pour s’assurer du respect du droit d’auteur par les modèles d’IA. Il en va aussi de la traçabilité des contenus générés synthétiquement, à la fois pour permettre la rémunération des auteurs originaux, mais aussi pour assurer la vérification de l’information.
L’Arcom relevait également « un besoin d’harmonisation des différentes technologies proposées pour le suivi des contenus authentiques / synthétiques ». L’AI Act, entré en vigueur le 1ᵉʳ août 2024, mais applicable à partir du 2 août 2026, exige en effet que « les fournisseurs d’IA, y compris de systèmes d’IA à usage général, qui génèrent des contenus de synthèse de type audio, image, vidéo ou texte, veillent à ce que les sorties des systèmes d’IA soient marquées dans un format lisible par machine et identifiables comme ayant été générées ou manipulées par une IA » :
« Il convient d’exiger que les fournisseurs de ces systèmes intègrent des solutions techniques permettant le marquage dans un format lisible par machine et la détection du fait que les sorties ont été générées ou manipulées par un système d’IA, et non par un être humain. »
En outre, souligne l’AI Act, « il convient d’envisager une obligation d’information similaire en ce qui concerne le texte généré ou manipulé par l’IA dans la mesure où celui-ci est publié dans le but d’informer le public sur des questions d’intérêt public, à moins que le contenu généré par l’IA n’ait fait l’objet d’un processus d’examen humain ou de contrôle éditorial et qu’une personne physique ou morale assume la responsabilité éditoriale pour la publication du contenu ».
La mission proposait dès lors que l’Arcom entame des travaux complémentaires dans le but de :
mieux mesurer l’impact potentiel des médias synthétiques, notamment sur le plan économique et en termes de revenus publicitaires ;
étudier au travers d’une analyse pluridisciplinaire comment les textes en vigueur s’appliquent à ces nouveaux services et évaluer les éventuelles limites des régimes de responsabilités qui s’imposent à eux.
Google ne distingue pas les articles journalistiques des contenus GenAI
« Lorsque nous classons un contenu, nous nous concentrons sur sa qualité et non sur la manière dont il a été produit », avait rétorqué un porte-parole de Google à 404 Media. L’entreprise ajoutait que ses systèmes de classement Google News « visent à récompenser le contenu original qui démontre des éléments tels que l’expertise et la fiabilité ».
En février 2023, Google avait en effet annoncé vouloir « récompenser les contenus de haute qualité, quelle que soit la façon dont ils sont produits », et donc même s’ils étaient GenAI.
Le moteur de recherche y rappelait que « l’automatisation est utilisée depuis longtemps pour générer des contenus utiles comme les résultats sportifs, les prévisions météorologiques et les transcriptions ». Il estimait en outre que « l’IA peut permettre de développer de nouveaux niveaux d’expression et de créativité et d’aider les utilisateurs à créer des contenus de qualité pour le Web ».
Google y fournissait même des « conseils pour les créateurs qui envisagent d’utiliser la génération par IA ». « Quelle que soit la façon dont le contenu est créé, les personnes souhaitant réussir sur la recherche Google doivent chercher à produire des contenus originaux, de haute qualité et people-first, présentant les qualités de l’E-E-A-T », indiquait l’entreprise.
Cet acronyme désigne « l’expertise, l’expérience, la légitimité et la fiabilité ». Des valeurs cardinales mises en avant par le moteur de recherche pour y être bien référencé, et que cherchent précisément à déjouer les professionnels du « black hat SEO », notamment pour parvenir à y indexer leurs sites GenAI.
En réponse à la question « Dois-je ajouter des mentions concernant l’IA ou l’automatisation à mon contenu ? », la FAQ indique que « les mentions liées à l’IA ou à l’automatisation sont utiles pour les contenus pour lesquels quelqu’un pourrait se demander comment ce contenu a été créé ». Elle conseille d’en « ajouter là où le lecteur pourrait raisonnablement s’y attendre ». Ce que ne font quasiment aucun des 1 000 sites GenAI que nous avons identifiés.
« Le contenu généré automatiquement et produit principalement à des fins de classement est considéré comme du spam, et nous prenons les mesures qui s’imposent en vertu de nos règles », avait pourtant précisé le porte-parole de Google à 404 Media.
Les réponses de Google
Contacté mi-octobre, et relancé depuis (plusieurs fois), Google a fini par répondre à CheckNews… fin janvier. Nous rétorquant que « plusieurs sites que vous nous avez partagés n’apparaissent plus dans Google Actualités » (sans préciser lesquels), le service de presse du moteur de recherche rappelle que les éditeurs peuvent y figurer s’ils se conforment aux règles de Google Actualités. Ce qui inclut « la transparence sur la propriété du site et l’identité des auteurs ». En outre, « des mesures sont prises lorsque ces politiques sont enfreintes, pouvant aller jusqu’au retrait des sites ».
Arguant du fait que « les internautes qui consultent votre site souhaitent savoir qui écrit et publie vos contenus », ces règles exigent que les sources d’actualités sur Google comportent notamment :
« Des dates et des signatures claires.
Des informations sur les auteurs, la publication et l’éditeur.
Des informations sur l’entreprise ou le réseau à l’origine de la source.
Des coordonnées. »
Or, si les éditeurs de plus des trois quarts des sites GenAI identifiés fournissent effectivement les noms et coordonnées de leurs responsables légaux, la quasi-totalité d’entre eux mentent, en attribuant à des auteurs fictifs les articles qu’ils publient. Quitte, pour certains, à les doter de vrais-faux profils sur LinkedIn ou X.com.
Google se targue en outre de disposer de « politiques robustes en matière de spam, régulièrement mises à jour pour mieux lutter contre les nouvelles pratiques abusives qui conduisent à l’apparition de contenus non originaux et de faible qualité dans le moteur de recherche » :
« Les systèmes de Google permettent de maintenir le moteur de recherche exempte de spam à 99 %, et Google continue de les affiner et de les améliorer au fur et à mesure que le Web évolue. »
Google nous explique aussi avoir « investi de façon conséquente dans des équipes d’experts et des technologies de pointe pour prévenir les abus et appliquer nos règles » :
« Pour vous donner une idée de l’ampleur, en 2023, nous avons bloqué ou restreint la diffusion d’annonces sur plus de 2,1 milliards de pages d’éditeurs, contre 1,5 milliard de pages en 2022, et nous avons pris des mesures d’application au niveau du site sur plus de 395 000 sites d’éditeurs, contre 143 000 en 2022. »
Google nous précise enfin avoir lancé, « plus tôt cette année », une « nouvelle politique » proscrivant l’ « utilisation abusive de contenus à grande échelle », à savoir le fait de « générer de grandes quantités de contenus non originaux qui présentent peu ou pas d’intérêt pour les utilisateurs […] dans le but principal de manipuler le classement dans la recherche Google et non d’aider les utilisateurs ».
Sont notamment visés l’utilisation d’outils d’IA générative (ou outils similaires) et la création de plusieurs sites « dans le but de masquer la nature des contenus à grande échelle ». Nous avons pourtant identifié plus de 50 éditeurs administrant (au moins) cinq sites GenAI, et trois plus de 40 (au moins), plusieurs d’entre eux apparaissant régulièrement sur Discover.
La responsabilité de Google dans les dérives de la presse sur Internet
Dans un billet intitulé « Trop c’est trop ! Marre de ces sites 100% fake, 100% IA » publié sur LinkedIn, le journaliste Mathieu Cartier déplore ainsi d’avoir découvert, via Google Discover, qu’un site avait copié-collé l’une des photos publiées sur son site transitionvelo.com, sans autorisation. L’auteur de l’article plagié, « un certain Emile Faucher, « journaliste captivé par l’ingéniosité entrepreneuriale et les solutions innovantes » », s’y présente comme « diplômé d’une grande école de journalisme à Lille ».
Mathieu Cartier a d’abord cru avoir affaire à l’un de « ces sites qui n’ont pour objectif que de générer du clic et de l’affichage publicitaire avec des contenus volés à d’autres et des titres putaclics ». Il a depuis compris que le site avait probablement été généré par IA (il fait effectivement partie des 1 000 sites GenAI de notre base de données). « Quelle tristesse de voir que ce genre de sites existent et que Google, aveugle, leur donne suffisamment d’intérêt pour les mettre en avant dans sa section Discover », déplore Mathieu Cartier :
« On ne peut plus faire comme si de rien n’était et il faut pointer du doigt la responsabilité de Google dans les dérives de la presse sur Internet, poussant jusqu’à des sites réputés, que l’on aime lire, qui emploient des journalistes talentueux, tomber dans le piège du putaclic parce qu’une partie de plus en plus grande de leur audience dépend de Discover. »
Des sites qui, pour lui, « n’auraient (peut-être) jamais été aussi loin dans ces habitudes et lignes éditoriales si de faux sites sans journalistes ni contenus propres, et surtout sans aucune image à construire ou sauver, n’avaient été ainsi encouragés » :
« Le pire ? Penser que ce genre de stratégies puisse être rentables. Se dire que des sites construits sur le travail des autres (eh oui, chatGPT n’invente rien qui n’ait déjà été publié ailleurs) puisse avoir un intérêt économique, quand des gens qui investissent compétences, temps, sueur et argent pour créer des contenus pertinents, enrichis, incarnés peuvent avoir du mal à exister dans la jungle d’Internet. »
Il n’en estime pas moins qu’il faut « garder espoir », « alerter sur ces pratiques » et « expliquer aux jeunes l’importance de la presse, du journalisme, des faits, de la vérité et du débat argumenté, quand bien même ils font – eux-mêmes – faire leurs devoirs à leurs smartphones » :
« Le combat est mal engagé mais il n’est pas perdu, alors – passé le coup de colère – ne nous résignons pas. »
Nous ne saurions mieux dire, vu l’ampleur de ce que nous avons découvert lors de cette enquête au long cours. Dans les jours à venir, nous avons prévu de revenir plus particulièrement sur :
les sites GenAI reposant sur du plagiat, mais néanmoins indexés dans Google Actualités/Discover,
les sites GenAI plagiant et parasitant la presse quotidienne régionale (PQR),
les sites GenAI prodiguant des « conseils » et « recommandations » de santé,
les « hallucinations » et « infox » relayées par ces articles GenAI,
les dizaines de générateurs d’articles GenAI, optimisés pour Google Actualités/Discover, développés et commercialisés par des professionnels du SEO, qui se vantent de ne pas être identifiables par les détecteurs de contenus GenAI,
le fait que Google (en anglais) a de son côté été capable de désindexer 1 500 sites GenAI.
Next a identifié plus de 1 000 sites web d’information francophones faisant croire que leurs articles sont écrits par des journalistes ou des experts en la matière. Ils sont en fait générés et/ou traduitspar des IA, sans le mentionner. Au moins une centaine reposent sur du plagiat, et près de 150 étaient mentionnés comme sources sur Wikipédia. Vu l’ampleur du problème, nous avons proposé au service de fact-checking CheckNews de Libération de nous aider à enquêter sur ce qui s’apparente à une véritable « pollution » numérique et médiatique. Premier volet de notre enquête.
La société NewsGuard évalue « tous les sites d’information et d’actualité (plus de 7 500 sites) dont les contenus représentent 95 % de l’engagement avec l’actualité en ligne aux États-Unis, au Royaume-Uni, au Canada, en France, en Allemagne et en Italie ».
Son observatoire de suivi de la mésinformation facilitée par l’IA répertorie par ailleurs 1 150 « sites d’actualité non fiables générés par l’IA » (GenAI ou « UAINS », pour « Unreliable AI-generated News Sites » en anglais), contre seulement 49 lorsqu’elle avait commencé à les recenser, en mai 2023.
NewsGuard souligne que « ces sites portent généralement des noms génériques […] qui ressemblent pour le lecteur à des sites d’actualité classiques » :
« Dans de nombreux cas, le modèle économique de ces sites repose sur la publicité programmatique – des publicités placées de manière algorithmique par les sociétés d’ad-tech sans se soucier de la nature ou de la qualité des sites. Par conséquent, des grandes marques soutiennent ces sites involontairement. »
Or, leurs articles « contiennent parfois de fausses affirmations, telles que des infox sur la mort de célébrités, des événements fabriqués de toutes pièces et des articles présentant des événements anciens comme s’ils venaient de se produire ».
Accessible sur abonnement, sa liste de sites GenAI, établie par près de 15 fact-checkers, concerne 16 langues. Contactée par CheckNews, la société précise que sa base de données ne contiendrait qu’une vingtaine de sites en français.
Next en a de son côté identifié plus de 1 000, rien qu’en français. Et nous avons de bonnes raisons de penser qu’il en existerait plusieurs milliers, au vu du nombre de professionnels qui ont industrialisé la production de sites d’informations générés par IA. Nous avons en effet identifié une centaine de ces pros de l’info GenAI, sans pouvoir mesurer combien de dizaines (voire de centaines) d’autres se seraient lancés dans ce douteux (mais lucratif) « business ».
Signe de l’ampleur du problème et de son inflation, cette sous-estimation (tant dans les chiffres de NewsGuard que les nôtres) semble indiquer que nous serions débordés par le phénomène, qui s’apparente à une véritable « pollution » numérique et médiatique.
Une pollution quasi invisible, puisque personne ou presque ne semblait l’avoir identifiée jusque-là. En tout cas, pas à ce point.
Une « forme hybride de plagiat » facilitée, voire générée par IA
Mi-octobre, Olivier Marino, directeur adjoint des rédactions du groupe Nice Matin, déplorait sur LinkedIn une « forme hybride de plagiat » facilitée, voire générée par l’IA. Un « média d’information et d’actualité », situé lui aussi dans le Var, publie en effet des articles « sur des histoires où nous étions parfois le seul média présent ». Ce média reprend à son compte les informations recueillies par les journalistes de Nice Matin, mais « sans source, ni lien ».
L’analyse d’un échantillon de 46 articles, effectuée par une start-up spécialisée dans la détection de contenus générés par IA, « a pu déterminer que 32 d’entre eux avaient été – selon son outil – générés via de l’IA reprenant les informations de Var-matin, mais aussi d’autres médias locaux ».
En réponse, 60 millions de consommateurs, « média sans publicité commerciale et ne vivant que de ses ventes », déplorait que ses articles étaient « très rapidement plagiés et republiés depuis des années sur des sites web truffés de pub et en accès gratuit ». Surtout ses essais comparatifs, « particulièrement coûteux à réaliser, dont l’intégralité des résultats est souvent ainsi diffusée gratuitement » :
« Jusque-là, il s’agissait surtout de réécritures « manuelles » sur les sites web de « vrais » groupes de presse (notamment un dont le nom commence par « Re »). Mais on commence à voir désormais des reprises de nos articles par des sites inconnus au bataillon, vraisemblablement rédigées par de pures IA, et très très bien classés chez Google. La presse locale est donc loin d’être la seule concernée. »
Nous avons alors répondu que nous nous apprêtions à publier une enquête à ce sujet, « ayant identifié plus de 100 sites en français se faisant passer pour des sites d’informations reposant sur le travail de journalistes, mais qui sont en fait générés par des IA, dont près de 30 reposent sur du plagiat (majoritairement d’articles étrangers, traduits en français) ».
Compte tenu du nombre d’acteurs impliqués, de médias parasités voire plagiés, et des nombreuses questions (déontologiques, juridiques, légales, médiatiques, financières, notamment) que cette prolifération de sites d’info GenAI soulève, nous avons depuis proposé au service CheckNews de fact-checking de Libération d’enquêter avec nous à ce sujet (voir leur enquête).
De 100 à plus de 1 000 sites GenAI en quelques mois seulement
Le phénomène s’est, en effet, révélé d’une ampleur nettement supérieure à ce que nous anticipions. Fin octobre (soit 15 jours après notre commentaire sur LinkedIn), lorsque nous avons contacté Libé, notre base de données était passée à 270 sites d’info GenAI. Le cap des 500 a été franchi à la veille de Noël, celui des 800 mi-janvier.
Entamée il y a près d’un an, notre enquête nous a depuis permis d’en identifier plus de 1 000, soit près de 750 de plus en seulement trois mois, dont une centaine au moins relevant du plagiat (nous y reviendrons dans un prochain article). Ce n’est pas tant que le phénomène serait en pleine expansion (une bonne partie de ces sites existent depuis des mois, voire des années), mais parce que nous avons affiné nos méthodes de détection.
La consultation des 28 pages de réponses, sur Google Actualités, à la requête « je suis désolé, mais je ne peux pas » (l’un des messages d’erreur bien connus liés à ChatGPT et ses avatars) était éloquente. Nous y avons découvert une quinzaine de sites d’infos GenAI qui, eux-mêmes, nous ont permis d’en identifier près de 250 autres, liés d’une manière ou d’une autre à leurs éditeurs respectifs. Ce, en moins d’une journée.
Nous revenons plus en détails sur les tactiques et procédures permettant de reconnaître les sites GenAI dans un second article dédié. Nous ne saurions par ailleurs que trop vous conseiller d’installer l’extension pour navigateur que nous avons développée afin d’alerter ses utilisateurs lorsqu’ils consultent un site dont les articles ont été, en tout ou partie, générés par IA.
S’il était prévisible que des pirates de l’info se saisissent des IA génératives pour développer de tels médias, il est par contre incompréhensible que la plupart de ces sites, référencés depuis des mois ou des années sur Google Actualités, n’en aient toujours pas été exclus, plus de deux ans après le lancement de ChatGPT puis de ses avatars.
Le SEO est-il mort ?
En janvier 2023, deux mois seulement après le lancement de ChatGPT, nous écrivions en effet que la démocratisation des intelligences artificielles génératives allait « faciliter la production d’éléments textuels assez banals, surtout destinées à booster son référencement sur Google ». Cela posait de « nouveaux risques » en matière d’accès à l’information.
Un mois plus tard, dans un article intitulé « IA : les robots conversationnels vont-ils cannibaliser les moteurs de recherche ? », nous relevions que des professionnels du référencement (ou SEO, pour « Search Engine Optimization ») s’inquiétaient de l’arrivée annoncée de ChatGPT dans Bing, et de son concurrent Bard dans Google. La question était posée : « Le SEO est-il mort ? ».
Un an plus tard, le SEO est toujours là, mais l’IA a changé la donne : par son intermédiaire, des éditeurs inondent Google Actualités de prétendus sites d’information et d’articles GenAI.
Non contents de piller à bas coûts les articles de médias rémunérant leurs journalistes, ils privent leurs rédactions des revenus publicitaires qu’ils auraient pu engendrer si les internautes avaient lu les articles originaux, et non leurs plagiats générés par IA.
Une centaine de pros du SEO responsables des 3/4 de ces 1 000 sites GenAI
Il reste 75% de l'article à découvrir. Vous devez être abonné•e pour lire la suite de cet article. Déjà abonné•e ? Générez une clé RSS dans votre profil.
Reality Labs a connu au quatrième trimestre 2024 les meilleurs revenus jamais enregistrés depuis son lancement en 2020, mais également ses pertes les plus élevées, souligne Road to VR.
L’unité de Meta en charge des casques de réalité virtuelle Quest et des lunettes intelligentes Ray-Ban a, en effet, connu une perte d’exploitation de 4,97 milliards de dollars pour un chiffre d’affaires de 1,1 milliard de dollars, relève CNBC.
Au total, l’unité dédiée au métavers a enregistré une perte d’exploitation de près de 18 milliards l’an passé note Game Developper, mais également de plus de 60 milliards de dollars depuis 2020, a calculé CNBC. Reality Labs avait déjà totalisé 50 milliards de dollars de perte au second trimestre 2024.
Les 69 milliards de dollars dépensés par Meta depuis 2020 n’ont rapporté à l’entreprise que 9,19 milliards de dollars, rapporte Road to VR, qui souligne dans un graphique des pertes allant croissant, pour des revenus relativement stables.
« Nous prévoyons que les pertes d’exploitation de Reality Labs augmenteront en 2025 comme elles l’ont fait en 2024 », a déclaré Susan Li, Chief Finance Officer de Meta, lors d’un appel aux investisseurs, relève UploadVR :
« Nous prévoyons que nos appareils Wearables seront le principal moteur de l’augmentation des pertes d’exploitation de Reality Labs en 2025, à la fois en termes de revenus de coûts et de dépenses d’exploitation. »
La semaine passée, Meta avait par ailleurs annoncé qu’elle investirait entre 60 et 65 milliards de dollars en 2025 pour développer son infrastructure informatique liée à l’intelligence artificielle.
Mark Zuckerberg, qui croit toujours que Reality Labs constitue un investissement à long terme, a en effet déclaré que l’IA était au cœur des efforts de l’entreprise en matière de métavers, y compris ses lunettes intelligentes Ray-Ban Meta développées avec le français EssilorLuxottica.
Meta prévoit par ailleurs de supprimer 5 % de ses effectifs pour se débarrasser des personnes que la société considère comme « peu performantes ».
Reality Labs a connu au quatrième trimestre 2024 les meilleurs revenus jamais enregistrés depuis son lancement en 2020, mais également ses pertes les plus élevées, souligne Road to VR.
L’unité de Meta en charge des casques de réalité virtuelle Quest et des lunettes intelligentes Ray-Ban a, en effet, connu une perte d’exploitation de 4,97 milliards de dollars pour un chiffre d’affaires de 1,1 milliard de dollars, relève CNBC.
Au total, l’unité dédiée au métavers a enregistré une perte d’exploitation de près de 18 milliards l’an passé note Game Developper, mais également de plus de 60 milliards de dollars depuis 2020, a calculé CNBC. Reality Labs avait déjà totalisé 50 milliards de dollars de perte au second trimestre 2024.
Les 69 milliards de dollars dépensés par Meta depuis 2020 n’ont rapporté à l’entreprise que 9,19 milliards de dollars, rapporte Road to VR, qui souligne dans un graphique des pertes allant croissant, pour des revenus relativement stables.
« Nous prévoyons que les pertes d’exploitation de Reality Labs augmenteront en 2025 comme elles l’ont fait en 2024 », a déclaré Susan Li, Chief Finance Officer de Meta, lors d’un appel aux investisseurs, relève UploadVR :
« Nous prévoyons que nos appareils Wearables seront le principal moteur de l’augmentation des pertes d’exploitation de Reality Labs en 2025, à la fois en termes de revenus de coûts et de dépenses d’exploitation. »
La semaine passée, Meta avait par ailleurs annoncé qu’elle investirait entre 60 et 65 milliards de dollars en 2025 pour développer son infrastructure informatique liée à l’intelligence artificielle.
Mark Zuckerberg, qui croit toujours que Reality Labs constitue un investissement à long terme, a en effet déclaré que l’IA était au cœur des efforts de l’entreprise en matière de métavers, y compris ses lunettes intelligentes Ray-Ban Meta développées avec le français EssilorLuxottica.
Meta prévoit par ailleurs de supprimer 5 % de ses effectifs pour se débarrasser des personnes que la société considère comme « peu performantes ».
« Depuis 2023, près de 70 % des individus impliqués dans des projets d’attentats ont moins de 21 ans », explique au Point Céline Berthon, patronne de la DGSI. Pour sa première interview depuis son entrée en fonction, en janvier 2024, elle déplore un « phénomène » d’ « autoradicalisation » lié « à la consommation en masse de la propagande djihadiste sur les réseaux sociaux ».
Si le fait de « regarder cette propagande n’est pas aujourd’hui un acte répréhensible judiciairement », rappelle celle qui était auparavant directrice générale de la Police nationale, « en publier l’est en revanche et donne lieu à des signalements de notre part au ministère public » :
« L’enjeu, c’est d’évaluer la dangerosité de ces jeunes, le degré de maturité de leur projet et la nécessité, ou non, d’engager une procédure judiciaire en soumettant l’ouverture d’une enquête auprès du parquet national antiterroriste. »
Si la DGSI observe du recyclage de productions terroristes datant pour certaines de l’État islamique ou de l’attentat de Charlie Hebdo, elle constate aussi qu’ « avec tous les moyens liés à l’intelligence artificielle, produire du contenu est beaucoup moins complexe qu’auparavant » :
« La modernité des outils rend possible la conception de supports courts qui correspondent à ce que recherche ce jeune public et favorise une consommation addictive. Les algorithmes alimentent ces recherches et participent à l’effet de fulgurance de la radicalisation de jeunes, majoritairement des garçons, qui ont en commun d’être plutôt isolés socialement et très connectés. »
Elle relève en effet que « la radicalisation autorise une forme de quête de sens pour des jeunes en recherche d’appartenance à un groupe ». Signe que, même s’ils s’autoradicalisent en ligne, il ne s’agit pas de « loups solitaires », mais d’individus instrumentalisés par d’autres ou participant à des phénomènes de meutes.
« Depuis 2023, près de 70 % des individus impliqués dans des projets d’attentats ont moins de 21 ans », explique au Point Céline Berthon, patronne de la DGSI. Pour sa première interview depuis son entrée en fonction, en janvier 2024, elle déplore un « phénomène » d’ « autoradicalisation » lié « à la consommation en masse de la propagande djihadiste sur les réseaux sociaux ».
Si le fait de « regarder cette propagande n’est pas aujourd’hui un acte répréhensible judiciairement », rappelle celle qui était auparavant directrice générale de la Police nationale, « en publier l’est en revanche et donne lieu à des signalements de notre part au ministère public » :
« L’enjeu, c’est d’évaluer la dangerosité de ces jeunes, le degré de maturité de leur projet et la nécessité, ou non, d’engager une procédure judiciaire en soumettant l’ouverture d’une enquête auprès du parquet national antiterroriste. »
Si la DGSI observe du recyclage de productions terroristes datant pour certaines de l’État islamique ou de l’attentat de Charlie Hebdo, elle constate aussi qu’ « avec tous les moyens liés à l’intelligence artificielle, produire du contenu est beaucoup moins complexe qu’auparavant » :
« La modernité des outils rend possible la conception de supports courts qui correspondent à ce que recherche ce jeune public et favorise une consommation addictive. Les algorithmes alimentent ces recherches et participent à l’effet de fulgurance de la radicalisation de jeunes, majoritairement des garçons, qui ont en commun d’être plutôt isolés socialement et très connectés. »
Elle relève en effet que « la radicalisation autorise une forme de quête de sens pour des jeunes en recherche d’appartenance à un groupe ». Signe que, même s’ils s’autoradicalisent en ligne, il ne s’agit pas de « loups solitaires », mais d’individus instrumentalisés par d’autres ou participant à des phénomènes de meutes.