Vue lecture

Le contenu d’un tiers des nouveaux sites est généré totalement ou partiellement par IA

Plus de sites genAI, mais pas plus de conneries proportionnellement
Le contenu d’un tiers des nouveaux sites est généré totalement ou partiellement par IA

Selon un rapport d’Internet Archive, le contenu de 35 % des sites internet nouvellement créés en mai 2025 était soit complètement généré par intelligence artificielle, soit son édition était grandement assistée par une IA. Cela contribuerait à une baisse de la diversité sémantique et à une augmentation de sentiments très positifs, mais pas forcément à une augmentation de fausses informations.

Le web serait-il devenu un lieu où des machines parlent à des machines ? C’est l’idée qu’ont défendue certains chercheurs dès le début de l’année dernière en relançant la « théorie de l’Internet mort », formulée en 2021.

Le responsable de la Wayback Machine chez Internet Archive, Mark Graham, signe avec un chercheur maison et deux doctorants un rapport (.pdf) qui essaye de quantifier le flux de contenus générés par IA et ses conséquences avec les données récoltées par son outil. « Nous constatons qu’à la mi-2025, environ 35 % des sites web nouvellement publiés étaient classés comme générés par IA ou créés avec l’aide de l’IA, contre zéro avant le lancement de ChatGPT fin 2022 », expliquent-ils.

Pour arriver à cette estimation, l’équipe a extrait le texte des sites nouvellement créés détectés et archivés au sein de la Wayback Machine. Puis, après avoir testé différents outils de détection (Binoculars, Desklib, DivEye et l’API commerciale de Pangram v3), ils ont choisi de s’appuyer sur cette dernière, expliquant que c’était la meilleure solution, notamment pour son taux de détection des textes anglophones comme ceux dans d’autres langues et sa capacité à traiter du HTML.

35 % des nouveaux sites sont remplis de contenus générés par IA

Leurs résultats restent donc très fortement liés à cet outil de détection qui annonce sur son site web une précision de détection de 99,98 % et a mis en ligne un rapport technique sur sa méthode sans que celle-ci ne soit évaluée par des chercheurs indépendants.

Mais selon ces tests sur les archives du web récoltées par Internet Archive, le contenu des nouveaux sites internet est de plus en plus généré par IA ou son édition est grandement assistée par une IA : 35 % l’étaient en mai 2025 :

Ils ont aussi voulu vérifier plusieurs hypothèses craintes suite à la prolifération de ce genre de contenus sur internet qui pourrait « contribuer à une dégradation de la diversité sémantique et stylistique, de l’exactitude des faits, ainsi qu’à d’autres évolutions négatives ».

En faisant un petit sondage, ils se sont aperçus que 75 % des gens avaient peur, par exemple, d’être « de plus en plus souvent confrontés à des informations factuellement erronées et à des hallucinations », et que 83 % d’entre eux pensaient que le style des textes allait s’homogénéiser.

Ils ont ensuite vérifié ces hypothèses sur les données d’Internet Archive. Ils ont, par exemple, payé des fact-checkers pour voir si les informations incorrectes dans les données d’Internet Archive augmentaient. Mais ils n’ont pas trouvé de corrélation statistiquement significative. Pour le dire autrement, cette augmentation du nombre de nouveaux sites avec des contenus genAI ne fait pas augmenter le nombre de fausses informations.

Une similarité sémantique et une augmentation de contenus positifs détectées

En faisant d’autres tests, ils se sont aussi aperçus que l’augmentation des contenus générés par IA dans les données d’Internet Archive n’augmentait pas non plus mécaniquement l’homogénéité stylistique.

« Plutôt qu’une explosion de fausses informations, l’empreinte de la prolifération de l’IA sur Internet se manifeste principalement par une contraction sémantique et un glissement artificiel vers la positivité  », expliquent-ils.

En effet, la similarité sémantique qu’ils ont mesurée avec Pangram v3 augmente de façon corrélée à la prolifération de contenus générés par IA :

Et on retrouve la même corrélation avec le style plus positif des contenus mesuré ici aussi avec Pangram v3 :

« Le résultat le plus surprenant a été que notre hypothèse de la « dégradation de la vérité » n’a pas été confirmée », estime Jonas Doležal, l’un des doctorants de l’Imperial College London qui a participé à l’étude, interrogé par nos confrères de 404 Media.

« Il convient de noter que nous recherchions spécifiquement une augmentation des déclarations vérifiables comme étant fausses, ce que nous n’avons pas trouvé. Mais il se pourrait tout de même que l’IA augmente discrètement le volume des affirmations invérifiables, celles qui ne peuvent être vérifiées à l’aide des outils et des infrastructures de vérification des faits existants. Ou peut-être simplement qu’Internet n’était pas, dès le départ, un espace particulièrement attaché à la vérité », ajoute-t-il quand même.

  •  

☕️ Suivant OpenAI, Google négocie pour faire une place à Gemini au Pentagone



Après avoir mis la pression sur Anthropic pour pouvoir utiliser comme il veut ses modèles jusqu’à l’avoir désignée « fournisseur à risque pour la sécurité nationale », le Pentagone s’est tourné vers les concurrents de la startup. D’abord OpenAI en mars, le Pentagone est maintenant en discussion avec Google.

Cameron Stanley, le responsable numérique du Pentagone a confirmé être en discussion avec l’entreprise pour l’utilisation de Gemini au sein du département de la Défense états-unien. « Il n’est jamais bon de trop dépendre d’un seul fournisseur », a-t-il expliqué à CNBC, « on le constate particulièrement dans le domaine des logiciels ».

La justice a récemment refusé l’appel effectué par Anthropic concernant cette qualification qui l’empêche de travailler avec le département de la défense.

Deux requins étiquetés par portions avec les marques des entreprises d'IA génératives nagent dans l'océan
Illustration : Flock

Cameron Stanley a affirmé à CNBC qu’utiliser Gemini permettait au Pentagone d’économiser « littéralement des milliers d’heures de travail chaque semaine ». Selon Google, l’entreprise fait partie d’un « vaste consortium » fournissant des services et des infrastructures « au service de la sécurité nationale ».

Chez OpenAI, l’accord avait provoqué des remous en interne jusqu’à la démission de la responsable de la branche robotique d’OpenAI, Caitlin Kalinowski. Selon le Washington Post, l’accord avec le Pentagone fait aussi réagir au sein de Google. Plus de 600 employés, dont une bonne partie sont au DeepMind AI lab qui développe Gemini, ont signé une lettre adressée à Sundar Pichai, le CEO de l’entreprise.

« Nous voulons que l’IA profite à l’humanité ; nous ne voulons pas qu’elle soit utilisée à des fins inhumaines ou extrêmement néfastes. Cela inclut les armes autonomes létales et la surveillance de masse, mais va bien au-delà », écrivent-ils. « La seule façon de garantir que Google ne soit pas associé à de tels préjudices est de refuser tout contrat classifié. Sinon, de telles utilisations pourraient avoir lieu à notre insu et sans que nous ayons les moyens de les empêcher ».

« Des vies humaines sont déjà perdues et les libertés civiles sont menacées, tant dans notre pays qu’à l’étranger, en raison d’une utilisation abusive de la technologie que nous contribuons pour l’essentiel à mettre au point », ajoutent-ils.

  •  

☕️ Pour Bruxelles, Meta a enfreint le DSA sur l’accès à ses réseaux au moins de 13 ans



L’année dernière, la Commission européenne avait ouvert deux enquêtes sur la protection des mineurs sur Facebook et Instagram. Concernant l’accès à ses réseaux par les moins de 13 ans, elle vient de conclure « à titre préliminaire » que ces plateformes « enfreignaient la législation sur les services numériques (DSA) pour ne pas avoir identifié, évalué et atténué avec diligence les risques liés à l’accès des mineurs de moins de 13 ans à leurs services ».

Illustration : Flock

La Commission européenne considère notamment que les mesures mises en place par Meta pour faire respecter ses propres conditions générales fixant l’âge minimum à 13 ans ne sont pas efficaces. « Par exemple, lors de la création d’un compte, les mineurs de moins de 13 ans peuvent saisir une fausse date de naissance qui leur permet de faire plus que leur âge, sans aucun contrôle efficace en place pour vérifier l’exactitude de la date de naissance autodéclarée », explique la Commission.

Elle explique aussi que l’outil fourni par Meta pour signaler les mineurs de moins de 13 ans sur la plate-forme est « difficile à utiliser et peu efficace, nécessitant jusqu’à sept clics pour accéder au formulaire de signalement, qui n’est pas automatiquement prérempli avec les informations de l’utilisateur ». Elle ajoute que même lorsqu’il y a un signalement, Meta ne met pas en place de suivi approprié « et le mineur signalé peut simplement continuer à utiliser le service sans aucun type de contrôle ».

Elle estime que l’évaluation effectuée par Meta des risques que des mineurs de moins de 13 ans accèdent à ses plateformes est « incomplète et arbitraire ». Selon la Commission, cette évaluation contredit « de nombreux éléments de preuve provenant de toute l’Union européenne indiquant qu’environ 10 à 12 % des enfants de moins de 13 ans accèdent à Instagram et/ou Facebook » et ignore les preuves scientifiques « facilement disponibles » qui montrent que les jeunes enfants sont plus vulnérables aux problèmes que causent des plateformes comme Instagram et Facebook.

« À ce stade », l’institution européenne considère que les deux plateformes de Meta doivent modifier cette méthode d’évaluation des risques et les évaluer concrètement, mais aussi renforcer les mesures de prévention, de détection et de retrait des mineurs de moins de 13 ans de leur service.

La Commission attend maintenant les réponses de Meta à ces conclusions pour clore définitivement son enquête. Elle ajoute que si ces conclusions sont confirmées, elle pourra infliger une amende de 6 % du chiffre d’affaires annuel mondial de Meta.

À Reuters, Meta a affirmé avoir mis en place des mesures pour détecter et supprimer les comptes d’enfants de moins de 13 ans et qu’elle en dévoilera d’autres la semaine prochaine. « La vérification de l’âge est un défi à l’échelle du secteur, qui nécessite une solution à l’échelle du secteur, et nous continuerons à collaborer de manière constructive avec la Commission européenne sur cette question importante », précise un porte-parole de l’entreprise à l’agence de presse.

  •  

Plus de 1 800 faux détectés : des chercheurs achètent des signatures pour gonfler leurs stats

Acheter sa conférence scientifique sur Telegram, c'est possible
Plus de 1 800 faux détectés : des chercheurs achètent des signatures pour gonfler leurs stats

Une étude montre que les actes des conférences scientifiques peuvent accueillir massivement des articles rédigés (ou générés par IA) dans le but de vendre aux chercheurs une place bien au chaud pour leur signature moyennant 11 à 400 dollars. Next est allé à la rencontre d’un des chercheurs de cette étude.

Des chercheurs de tous les coins du monde passent par des tiers peu scrupuleux pour publier en masse des actes de conférences qui n’ont aucun sens, juste pour gonfler leur nombre de publications et leur dossier de carrière.

Dans leur article mis en ligne sur la plateforme arXiv (avant relecture par les pairs donc), Anna Abalkina, Yagmur Ozturk et leurs collègues rappellent que « les usines à articles constituent une menace croissante pour l’intégrité de la science ». Jusque-là, certains de leurs collègues avaient déjà travaillé sur leur impact sur les revues scientifiques.

Mais leur travail montre que les conférences sont aussi touchées. Ici, ces chercheuses et chercheurs ont identifié plus de 1 800 articles issus d’actes de colloques créés par ces « Paper mills », des usines à articles qui proposent d’apposer une signature pour un prix allant de 11 à 400 dollars selon la position de l’auteur (premier ou dernier signataire, ça a de l’importance dans certaines disciplines) et le pays du vendeur.

On pourrait imaginer que les actes de conférences soient protégés de ce genre d’attaque car, en principe, les recherches y sont présentées de vive voix. Mais ça ne semble pourtant pas bloquer l’existence de présentations de fausses recherches. Jusque-là, personne n’avait cherché à analyser le phénomène sur les actes de conférences. « Cette lacune est importante car, dans certains domaines, notamment en informatique, les actes de conférences constituent le principal vecteur de diffusion des résultats de recherche originaux », expliquent les autrices et auteurs dans leur article.

Des pubs sur Facebook, LinkedIn ou Telegram


Il reste 84% de l'article à découvrir.
Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

  •  
❌