Le contenu d’un tiers des nouveaux sites est généré totalement ou partiellement par IA
Plus de sites genAI, mais pas plus de conneries proportionnellement
Selon un rapport d’Internet Archive, le contenu de 35 % des sites internet nouvellement créés en mai 2025 était soit complètement généré par intelligence artificielle, soit son édition était grandement assistée par une IA. Cela contribuerait à une baisse de la diversité sémantique et à une augmentation de sentiments très positifs, mais pas forcément à une augmentation de fausses informations.
Le web serait-il devenu un lieu où des machines parlent à des machines ? C’est l’idée qu’ont défendue certains chercheurs dès le début de l’année dernière en relançant la « théorie de l’Internet mort », formulée en 2021.
Le responsable de la Wayback Machine chez Internet Archive, Mark Graham, signe avec un chercheur maison et deux doctorants un rapport (.pdf) qui essaye de quantifier le flux de contenus générés par IA et ses conséquences avec les données récoltées par son outil. « Nous constatons qu’à la mi-2025, environ 35 % des sites web nouvellement publiés étaient classés comme générés par IA ou créés avec l’aide de l’IA, contre zéro avant le lancement de ChatGPT fin 2022 », expliquent-ils.
Pour arriver à cette estimation, l’équipe a extrait le texte des sites nouvellement créés détectés et archivés au sein de la Wayback Machine. Puis, après avoir testé différents outils de détection (Binoculars, Desklib, DivEye et l’API commerciale de Pangram v3), ils ont choisi de s’appuyer sur cette dernière, expliquant que c’était la meilleure solution, notamment pour son taux de détection des textes anglophones comme ceux dans d’autres langues et sa capacité à traiter du HTML.
35 % des nouveaux sites sont remplis de contenus générés par IA
Leurs résultats restent donc très fortement liés à cet outil de détection qui annonce sur son site web une précision de détection de 99,98 % et a mis en ligne un rapport technique sur sa méthode sans que celle-ci ne soit évaluée par des chercheurs indépendants.
Mais selon ces tests sur les archives du web récoltées par Internet Archive, le contenu des nouveaux sites internet est de plus en plus généré par IA ou son édition est grandement assistée par une IA : 35 % l’étaient en mai 2025 :

Ils ont aussi voulu vérifier plusieurs hypothèses craintes suite à la prolifération de ce genre de contenus sur internet qui pourrait « contribuer à une dégradation de la diversité sémantique et stylistique, de l’exactitude des faits, ainsi qu’à d’autres évolutions négatives ».
En faisant un petit sondage, ils se sont aperçus que 75 % des gens avaient peur, par exemple, d’être « de plus en plus souvent confrontés à des informations factuellement erronées et à des hallucinations », et que 83 % d’entre eux pensaient que le style des textes allait s’homogénéiser.
Ils ont ensuite vérifié ces hypothèses sur les données d’Internet Archive. Ils ont, par exemple, payé des fact-checkers pour voir si les informations incorrectes dans les données d’Internet Archive augmentaient. Mais ils n’ont pas trouvé de corrélation statistiquement significative. Pour le dire autrement, cette augmentation du nombre de nouveaux sites avec des contenus genAI ne fait pas augmenter le nombre de fausses informations.
Une similarité sémantique et une augmentation de contenus positifs détectées
En faisant d’autres tests, ils se sont aussi aperçus que l’augmentation des contenus générés par IA dans les données d’Internet Archive n’augmentait pas non plus mécaniquement l’homogénéité stylistique.
« Plutôt qu’une explosion de fausses informations, l’empreinte de la prolifération de l’IA sur Internet se manifeste principalement par une contraction sémantique et un glissement artificiel vers la positivité », expliquent-ils.
En effet, la similarité sémantique qu’ils ont mesurée avec Pangram v3 augmente de façon corrélée à la prolifération de contenus générés par IA :

Et on retrouve la même corrélation avec le style plus positif des contenus mesuré ici aussi avec Pangram v3 :

« Le résultat le plus surprenant a été que notre hypothèse de la « dégradation de la vérité » n’a pas été confirmée », estime Jonas Doležal, l’un des doctorants de l’Imperial College London qui a participé à l’étude, interrogé par nos confrères de 404 Media.
« Il convient de noter que nous recherchions spécifiquement une augmentation des déclarations vérifiables comme étant fausses, ce que nous n’avons pas trouvé. Mais il se pourrait tout de même que l’IA augmente discrètement le volume des affirmations invérifiables, celles qui ne peuvent être vérifiées à l’aide des outils et des infrastructures de vérification des faits existants. Ou peut-être simplement qu’Internet n’était pas, dès le départ, un espace particulièrement attaché à la vérité », ajoute-t-il quand même.






























