[MàJ] AI Overviews : Google conteste le taux de 10% d’erreurs

15 avril 2026 à 07:53

OK Goomer

[MàJ] AI Overviews : Google conteste le taux de 10% d’erreurs

Le New York Times avance que le taux d’erreurs des AI Overviews de Google, qui résument la meilleure réponse du moteur de recherche, serait d’environ 10 %. Google conteste ce chiffre, au motif qu’il serait basé sur un benchmark biaisé d’OpenAI.

L’article a été modifié ce 16 avril pour préciser qu’on ne peut pas comparer les taux d’erreurs des AI Overwiews, qui utilise Google Search pour recouper et vérifier l’exactitude des informations présentées, avec ceux de son modèle de base Gemini.

D’après le New York Times, les AI Overviews (Aperçus IA) de Google, qui proposent des réponses générées par IA en tête des résultats du moteur de recherche, se tromperaient environ une fois sur 10. Le journal relève en outre que plus de la moitié des réponses correctes sont « non étayées », car renvoyant vers des sites web qui ne confirment pas entièrement les informations fournies.

Une mention en petits caractères figurant sous chaque résumé rappelle que « L’IA peut se tromper, veuillez donc vérifier les réponses ». Mais, souligne le NYT, « comme Google traite plus de cinq mille milliards de recherches par an, cela signifie qu’il fournit des dizaines de millions de réponses erronées chaque heure (soit des centaines de milliers d’inexactitudes chaque minute) ».

Le nombre de réponses correctes « non étayées » a explosé de + 50 %

Pour parvenir à cette estimation, le New York Times a demandé à la start-up Oumi d’analyser les résumés générés par IA à l’aide d’un test de référence appelé SimpleQA. Publié par OpenAI en 2024, rappelle Ars Technica, ce benchmark de vérification des faits comporte une liste de plus de 4 000 questions avec des réponses vérifiables. Il sert donc à évaluer la capacité des modèles de langage à répondre à des questions courtes visant à vérifier des faits.

Une première série de tests a été effectuée en octobre, alors que les questions les plus complexes étaient traitées à l’aide du modèle Gemini 2, une seconde en février, après sa mise à niveau vers Gemini 3, réputé plus puissant.

Dans les deux cas, l’analyse d’Oumi s’est concentrée sur 4 326 recherches Google. L’entreprise a constaté que les résultats étaient exacts dans 85 % des cas avec Gemini 2 et dans 91 % des cas avec Gemini 3.

En octobre, les réponses correctes étaient « non étayées » dans 37 % des cas. En février, avec Gemini 3, ce chiffre est passé à 56 %, relève le NYT, se basant sur l’analyse d’Oumi. Dit autrement, Gemini 3 se trompe un peu moins souvent, mais le nombre de réponses correctes « non étayées » a explosé de + 50 %.

92 % des gens ne vérifient pas les réponses fournies par les IA

« En d’autres termes, Google a provoqué une crise de désinformation », décrypte Futurism dans un article intitulé « Une analyse révèle que les résumés générés par l’IA de Google diffusent des informations erronées à une échelle sans doute sans précédent dans l’histoire de la civilisation humaine ».

Il reste 78% de l'article à découvrir.
Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

Vue normale

OK Goomer

Le nombre de réponses correctes « non étayées » a explosé de + 50 %

92 % des gens ne vérifient pas les réponses fournies par les IA

Il reste 78% de l'article à découvrir.Vous devez être abonné•e pour lire la suite de cet article.Déjà abonné•e ? Générez une clé RSS dans votre profil.

Il reste 78% de l'article à découvrir.
Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.