Vue normale

Reçu aujourd’hui — 13 novembre 2025

La plupart des benchmarks de LLM ne s’appuient pas sur une méthode fiable

13 novembre 2025 à 11:41
Pseudoscience de la comparaison
La plupart des benchmarks de LLM ne s’appuient pas sur une méthode fiable

Les benchmarks de LLM pullulent mais aucun, ou presque, ne semble s’appuyer sur un travail réellement scientifique, analysent des chercheurs. Ils appellent à une plus grande rigueur.

À chaque publication d’un nouveau modèle pour l’IA générative, l’entreprise qui l’a conçu nous montre par des graphiques qu’il égale ou surpasse ses congénères, en s’appuyant sur des « benchmarks » qu’elle a soigneusement choisis.

Plusieurs études montraient déjà qu’en pratique, ces « bancs de comparaison » n’étaient pas très efficaces pour mesurer les différences entre les modèles, ce qui est pourtant leur raison d’être.

Un nouveau travail scientifique, mené par 23 experts, a évalué 445 benchmarks de LLM. Il a été mis en ligne sur la plateforme de preprints arXiv et sera présenté à la conférence scientifique NeurIPS 2025 début décembre.

Une faible majorité s’appuie sur une méthode théorique robuste

Déjà, une faible majorité (53,4 %) des articles présentant ces 445 benchmarks proposent des preuves de leur validité conceptuelle, expliquent les chercheurs. 35 % comparent le benchmark proposé à d’autres déjà existants, 32 % à une référence humaine et 31 % à un cadre plus réaliste, permettant de comprendre les similitudes et les différences.

Avant de mesurer un phénomène avec un benchmark, il faut le définir. Selon cette étude, 41 % des phénomènes étudiés par ces benchmarks sont bien définis, mais 37 % d’entre eux le sont de manière vague. Ainsi, quand un benchmark affirme mesurer l’ « innocuité » d’un modèle, il est difficile de savoir de quoi on parle exactement. Et même 22 % des phénomènes étudiés par ces benchmarks ne sont pas définis du tout.

16 % seulement utilisent des tests statistiques pour comparer les résultats

De plus, les chercheurs montrent que la plupart de ces benchmarks ne produisent pas des mesures valides statistiquement. Ainsi, 41 % testent exclusivement en vérifiant que les réponses d’un LLM correspondent exactement à ce qui est attendu sans regarder si elles s’en approchent plus ou moins. 81 % d’entre eux utilisent au moins partiellement ce genre de correspondance exacte de réponses. Mais surtout, seulement 16 % des benchmarks étudiés utilisent des estimations d’incertitude ou des tests statistiques pour comparer les résultats. « Cela signifie que les différences signalées entre les systèmes ou les affirmations de supériorité pourraient être dues au hasard plutôt qu’à une réelle amélioration », explique le communiqué d’Oxford présentant l’étude.

Enfin, les chercheurs expliquent qu’une bonne partie des benchmarks ne séparent pas bien les tâches qu’ils analysent. Ainsi, comme ils le spécifient dans le même communiqué, « un test peut demander à un modèle de résoudre un casse-tête logique simple, mais aussi lui demander de présenter la réponse dans un format très spécifique et compliqué. Si le modèle résout correctement le casse-tête, mais échoue au niveau du formatage, il semble moins performant qu’il ne l’est en réalité ».

« « Mesurer ce qui a de l’importance » exige un effort conscient et soutenu »

Dans leur étude, les chercheurs ne font pas seulement des constats. Ils ajoutent des recommandations. Ils demandent notamment à ceux qui établissent des benchmarks de définir clairement les phénomènes qu’ils étudient et de justifier la validité conceptuelle de leur travail.

Pour eux, les créateurs de benchmarks doivent s’assurer de « mesurer le phénomène et uniquement le phénomène » qu’ils étudient, de construire un jeu de données représentatif de la tâche testée et d’utiliser des méthodes statistiques pour comparer les modèles entre eux. Enfin, ils leur conseillent de mener, après avoir conçu leur benchmark, une analyse des erreurs « qui permet de révéler les types d’erreurs commises par les modèles », ce qui permet de comprendre en quoi le benchmark en question est réellement utile.

« En fin de compte, « mesurer ce qui a de l’importance » exige un effort conscient et soutenu de la part de la communauté scientifique pour donner la priorité à la validité conceptuelle, en favorisant un changement culturel vers une validation plus explicite et plus rigoureuse des méthodologies d’évaluation », concluent-ils.

« Les benchmarks sous-tendent presque toutes des affirmations concernant les progrès de l’IA », explique Andrew Bean, dans le communiqué, « mais sans définitions communes et sans mesures fiables, il devient difficile de savoir si les modèles s’améliorent réellement ou s’ils en donnent simplement l’impression ».

La plupart des benchmarks de LLM ne s’appuient pas sur une méthode fiable

13 novembre 2025 à 11:41
Pseudoscience de la comparaison
La plupart des benchmarks de LLM ne s’appuient pas sur une méthode fiable

Les benchmarks de LLM pullulent mais aucun, ou presque, ne semble s’appuyer sur un travail réellement scientifique, analysent des chercheurs. Ils appellent à une plus grande rigueur.

À chaque publication d’un nouveau modèle pour l’IA générative, l’entreprise qui l’a conçu nous montre par des graphiques qu’il égale ou surpasse ses congénères, en s’appuyant sur des « benchmarks » qu’elle a soigneusement choisis.

Plusieurs études montraient déjà qu’en pratique, ces « bancs de comparaison » n’étaient pas très efficaces pour mesurer les différences entre les modèles, ce qui est pourtant leur raison d’être.

Un nouveau travail scientifique, mené par 23 experts, a évalué 445 benchmarks de LLM. Il a été mis en ligne sur la plateforme de preprints arXiv et sera présenté à la conférence scientifique NeurIPS 2025 début décembre.

Une faible majorité s’appuie sur une méthode théorique robuste

Déjà, une faible majorité (53,4 %) des articles présentant ces 445 benchmarks proposent des preuves de leur validité conceptuelle, expliquent les chercheurs. 35 % comparent le benchmark proposé à d’autres déjà existants, 32 % à une référence humaine et 31 % à un cadre plus réaliste, permettant de comprendre les similitudes et les différences.

Avant de mesurer un phénomène avec un benchmark, il faut le définir. Selon cette étude, 41 % des phénomènes étudiés par ces benchmarks sont bien définis, mais 37 % d’entre eux le sont de manière vague. Ainsi, quand un benchmark affirme mesurer l’ « innocuité » d’un modèle, il est difficile de savoir de quoi on parle exactement. Et même 22 % des phénomènes étudiés par ces benchmarks ne sont pas définis du tout.

16 % seulement utilisent des tests statistiques pour comparer les résultats

De plus, les chercheurs montrent que la plupart de ces benchmarks ne produisent pas des mesures valides statistiquement. Ainsi, 41 % testent exclusivement en vérifiant que les réponses d’un LLM correspondent exactement à ce qui est attendu sans regarder si elles s’en approchent plus ou moins. 81 % d’entre eux utilisent au moins partiellement ce genre de correspondance exacte de réponses. Mais surtout, seulement 16 % des benchmarks étudiés utilisent des estimations d’incertitude ou des tests statistiques pour comparer les résultats. « Cela signifie que les différences signalées entre les systèmes ou les affirmations de supériorité pourraient être dues au hasard plutôt qu’à une réelle amélioration », explique le communiqué d’Oxford présentant l’étude.

Enfin, les chercheurs expliquent qu’une bonne partie des benchmarks ne séparent pas bien les tâches qu’ils analysent. Ainsi, comme ils le spécifient dans le même communiqué, « un test peut demander à un modèle de résoudre un casse-tête logique simple, mais aussi lui demander de présenter la réponse dans un format très spécifique et compliqué. Si le modèle résout correctement le casse-tête, mais échoue au niveau du formatage, il semble moins performant qu’il ne l’est en réalité ».

« « Mesurer ce qui a de l’importance » exige un effort conscient et soutenu »

Dans leur étude, les chercheurs ne font pas seulement des constats. Ils ajoutent des recommandations. Ils demandent notamment à ceux qui établissent des benchmarks de définir clairement les phénomènes qu’ils étudient et de justifier la validité conceptuelle de leur travail.

Pour eux, les créateurs de benchmarks doivent s’assurer de « mesurer le phénomène et uniquement le phénomène » qu’ils étudient, de construire un jeu de données représentatif de la tâche testée et d’utiliser des méthodes statistiques pour comparer les modèles entre eux. Enfin, ils leur conseillent de mener, après avoir conçu leur benchmark, une analyse des erreurs « qui permet de révéler les types d’erreurs commises par les modèles », ce qui permet de comprendre en quoi le benchmark en question est réellement utile.

« En fin de compte, « mesurer ce qui a de l’importance » exige un effort conscient et soutenu de la part de la communauté scientifique pour donner la priorité à la validité conceptuelle, en favorisant un changement culturel vers une validation plus explicite et plus rigoureuse des méthodologies d’évaluation », concluent-ils.

« Les benchmarks sous-tendent presque toutes des affirmations concernant les progrès de l’IA », explique Andrew Bean, dans le communiqué, « mais sans définitions communes et sans mesures fiables, il devient difficile de savoir si les modèles s’améliorent réellement ou s’ils en donnent simplement l’impression ».

Blackout du 28 avril : l’Espagne va investir presque 1 milliard d’euros dans le stockage d’électricité

13 novembre 2025 à 12:05

Après le blackout du 28 avril 2025 sur la péninsule ibérique, le gouvernement espagnol débloque 840 millions d’euros dédiés à des projets de stockage et adopte un « décret de résilience » pour le réseau.

Le lundi 28 avril 2025 à 12 h 33, les réseaux électriques de l’Espagne et du Portugal se sont effondrés : la péninsule ibérique s’est retrouvée totalement coupée du réseau européen. L’Europe a connu son pire blackout depuis plus de vingt ans. En l’espace de quelques secondes, une perte d’environ 2 000 à 15 000 mégawatts (MW) de production a déclenché une montée en tension et une cascade de déconnexions automatiques qui ont conduit à la désynchronisation du réseau espagnol et européen.

En réponse, le ministère de la Transition écologique espagnol annonce un soutien ciblé de 840 millions d’euros issu du fond européen FEDER alloué au capex de 143 projets de stockage pour 2,4 GW et 8,9 GWh. Plus de la moitié des projets (81 sur 143) seront hybridés (stockage + énergies renouvelables), 42 seront des systèmes de batteries autonomes (BESS), 17 des stocks thermiques et 3 des installations de pompage-turbinage.

À lire aussi Pourquoi le spectre d’un nouveau blackout plane sur le réseau électrique espagnol ?

Faciliter le stockage et le financer, la stratégie espagnole

Si le soutien est passé de 700 millions à 840 millions, c’est parce qu’il y a eu énormément de dossiers déposés. Les régions les plus attractives sont l’Andalousie (39 projets), la Catalogne (17) et Valence (14). Les projets devront sortir de terre sous 36 mois maximum ou avant fin 2029.

Avec ce soutien ciblé au stockage, Madrid a parallèlement approuvé un décret royal consacré à la résilience du réseau. Il contient des mesures pour faciliter l’association du stockage au réseau, donne la priorité aux systèmes hybrides et confie à l’opérateur du réseau de transport d’électricité (Red Eléctrica de España) la tâche de proposer des modifications réglementaires relatives aux oscillations de puissance, aux vitesses de variation de tension et aux limitations techniques ne favorisant pas le stockage.

L’origine de ce plan et de ce soutien vient directement des conclusions de l’étude publiée par ENTSO‑E : le black-out n’a pas été provoqué par une surproduction d’énergies renouvelables, contrairement à ce que disent leurs détracteurs, mais à une instabilité en tension.

L’article Blackout du 28 avril : l’Espagne va investir presque 1 milliard d’euros dans le stockage d’électricité est apparu en premier sur Révolution Énergétique.

EN DIRECT, commémorations du 13-Novembre : « Notre ville n’oubliera jamais », déclare le maire de Saint-Denis ; suivez les cérémonies d’hommage aux victimes

Les commémorations des attentats du 13-Novembre ont commencé à Saint-Denis, où se trouve le Stade de France. C’est aux abords de l’enceinte sportive que la première victime, Manuel Dias, est morte. Plusieurs cérémonies sont prévues tout au long de la journée en hommage aux victimes.

© CAMILLE GHARBI POUR « LE MONDE »

François Hollande sur le 13-Novembre : « Le terrorisme est un poison lent, il produit ses effets bien après les actes d’horreur qu’il génère »

Président de la République lors des attentats, François Hollande a répondu aux questions des internautes du Monde.fr, dix ans après les attaques terroristes à Paris et à Saint-Denis, qui ont fait 132 morts et plus de 350 blessés, le 13 novembre 2015.

© EDOUARD CAUPEIL POUR « LE MONDE »

François Hollande répond aux questions des lecteurs sur les attentats du 13-Novembre dans les locaux du journal « Le Monde », à Paris, le 13 novembre 2025.
❌