[MàJ] AI Overviews : Google conteste le taux de 10% d’erreurs
OK Goomer
Le New York Times avance que le taux d’erreurs des AI Overviews de Google, qui résument la meilleure réponse du moteur de recherche, serait d’environ 10 %. Google conteste ce chiffre, au motif qu’il serait basé sur un benchmark biaisé d’OpenAI.
L’article a été modifié ce 16 avril pour préciser qu’on ne peut pas comparer les taux d’erreurs des AI Overwiews, qui utilise Google Search pour recouper et vérifier l’exactitude des informations présentées, avec ceux de son modèle de base Gemini.
D’après le New York Times, les AI Overviews (Aperçus IA) de Google, qui proposent des réponses générées par IA en tête des résultats du moteur de recherche, se tromperaient environ une fois sur 10. Le journal relève en outre que plus de la moitié des réponses correctes sont « non étayées », car renvoyant vers des sites web qui ne confirment pas entièrement les informations fournies.
Une mention en petits caractères figurant sous chaque résumé rappelle que « L’IA peut se tromper, veuillez donc vérifier les réponses ». Mais, souligne le NYT, « comme Google traite plus de cinq mille milliards de recherches par an, cela signifie qu’il fournit des dizaines de millions de réponses erronées chaque heure (soit des centaines de milliers d’inexactitudes chaque minute) ».
- Selon AI Overviews de Google, le DOGE n’a jamais existé
- Les AI Overviews de Google fournissent aussi des conseils de santé erronés
Le nombre de réponses correctes « non étayées » a explosé de + 50 %
Pour parvenir à cette estimation, le New York Times a demandé à la start-up Oumi d’analyser les résumés générés par IA à l’aide d’un test de référence appelé SimpleQA. Publié par OpenAI en 2024, rappelle Ars Technica, ce benchmark de vérification des faits comporte une liste de plus de 4 000 questions avec des réponses vérifiables. Il sert donc à évaluer la capacité des modèles de langage à répondre à des questions courtes visant à vérifier des faits.
Une première série de tests a été effectuée en octobre, alors que les questions les plus complexes étaient traitées à l’aide du modèle Gemini 2, une seconde en février, après sa mise à niveau vers Gemini 3, réputé plus puissant.
Dans les deux cas, l’analyse d’Oumi s’est concentrée sur 4 326 recherches Google. L’entreprise a constaté que les résultats étaient exacts dans 85 % des cas avec Gemini 2 et dans 91 % des cas avec Gemini 3.
En octobre, les réponses correctes étaient « non étayées » dans 37 % des cas. En février, avec Gemini 3, ce chiffre est passé à 56 %, relève le NYT, se basant sur l’analyse d’Oumi. Dit autrement, Gemini 3 se trompe un peu moins souvent, mais le nombre de réponses correctes « non étayées » a explosé de + 50 %.
92 % des gens ne vérifient pas les réponses fournies par les IA
« En d’autres termes, Google a provoqué une crise de désinformation », décrypte Futurism dans un article intitulé « Une analyse révèle que les résumés générés par l’IA de Google diffusent des informations erronées à une échelle sans doute sans précédent dans l’histoire de la civilisation humaine ».