La plupart des benchmarks de LLM ne s’appuient pas sur une méthode fiable
Pseudoscience de la comparaison
Les benchmarks de LLM pullulent mais aucun, ou presque, ne semble s’appuyer sur un travail réellement scientifique, analysent des chercheurs. Ils appellent à une plus grande rigueur.
À chaque publication d’un nouveau modèle pour l’IA générative, l’entreprise qui l’a conçu nous montre par des graphiques qu’il égale ou surpasse ses congénères, en s’appuyant sur des « benchmarks » qu’elle a soigneusement choisis.
Plusieurs études montraient déjà qu’en pratique, ces « bancs de comparaison » n’étaient pas très efficaces pour mesurer les différences entre les modèles, ce qui est pourtant leur raison d’être.
Un nouveau travail scientifique, mené par 23 experts, a évalué 445 benchmarks de LLM. Il a été mis en ligne sur la plateforme de preprints arXiv et sera présenté à la conférence scientifique NeurIPS 2025 début décembre.
Une faible majorité s’appuie sur une méthode théorique robuste
Déjà, une faible majorité (53,4 %) des articles présentant ces 445 benchmarks proposent des preuves de leur validité conceptuelle, expliquent les chercheurs. 35 % comparent le benchmark proposé à d’autres déjà existants, 32 % à une référence humaine et 31 % à un cadre plus réaliste, permettant de comprendre les similitudes et les différences.
Avant de mesurer un phénomène avec un benchmark, il faut le définir. Selon cette étude, 41 % des phénomènes étudiés par ces benchmarks sont bien définis, mais 37 % d’entre eux le sont de manière vague. Ainsi, quand un benchmark affirme mesurer l’ « innocuité » d’un modèle, il est difficile de savoir de quoi on parle exactement. Et même 22 % des phénomènes étudiés par ces benchmarks ne sont pas définis du tout.
16 % seulement utilisent des tests statistiques pour comparer les résultats
De plus, les chercheurs montrent que la plupart de ces benchmarks ne produisent pas des mesures valides statistiquement. Ainsi, 41 % testent exclusivement en vérifiant que les réponses d’un LLM correspondent exactement à ce qui est attendu sans regarder si elles s’en approchent plus ou moins. 81 % d’entre eux utilisent au moins partiellement ce genre de correspondance exacte de réponses. Mais surtout, seulement 16 % des benchmarks étudiés utilisent des estimations d’incertitude ou des tests statistiques pour comparer les résultats. « Cela signifie que les différences signalées entre les systèmes ou les affirmations de supériorité pourraient être dues au hasard plutôt qu’à une réelle amélioration », explique le communiqué d’Oxford présentant l’étude.
Enfin, les chercheurs expliquent qu’une bonne partie des benchmarks ne séparent pas bien les tâches qu’ils analysent. Ainsi, comme ils le spécifient dans le même communiqué, « un test peut demander à un modèle de résoudre un casse-tête logique simple, mais aussi lui demander de présenter la réponse dans un format très spécifique et compliqué. Si le modèle résout correctement le casse-tête, mais échoue au niveau du formatage, il semble moins performant qu’il ne l’est en réalité ».
« « Mesurer ce qui a de l’importance » exige un effort conscient et soutenu »
Dans leur étude, les chercheurs ne font pas seulement des constats. Ils ajoutent des recommandations. Ils demandent notamment à ceux qui établissent des benchmarks de définir clairement les phénomènes qu’ils étudient et de justifier la validité conceptuelle de leur travail.
Pour eux, les créateurs de benchmarks doivent s’assurer de « mesurer le phénomène et uniquement le phénomène » qu’ils étudient, de construire un jeu de données représentatif de la tâche testée et d’utiliser des méthodes statistiques pour comparer les modèles entre eux. Enfin, ils leur conseillent de mener, après avoir conçu leur benchmark, une analyse des erreurs « qui permet de révéler les types d’erreurs commises par les modèles », ce qui permet de comprendre en quoi le benchmark en question est réellement utile.
« En fin de compte, « mesurer ce qui a de l’importance » exige un effort conscient et soutenu de la part de la communauté scientifique pour donner la priorité à la validité conceptuelle, en favorisant un changement culturel vers une validation plus explicite et plus rigoureuse des méthodologies d’évaluation », concluent-ils.
« Les benchmarks sous-tendent presque toutes des affirmations concernant les progrès de l’IA », explique Andrew Bean, dans le communiqué, « mais sans définitions communes et sans mesures fiables, il devient difficile de savoir si les modèles s’améliorent réellement ou s’ils en donnent simplement l’impression ».
