En 2024, 13,5 % des résumés d’articles de recherche biomédicale étaient co-rédigés par IA
« crucial », « potential », « significant »

Une analyse des publications scientifiques dans le milieu de la recherche biomédicale montre que les modèles de langage sont massivement utilisés pour rédiger au moins leurs résumés.
De plus en plus de chercheurs utilisent des modèles de langage (LLM) pour rédiger leurs articles. En analysant le vocabulaire utilisé dans les résumés des articles scientifiques, des chercheurs montrent que leurs collègues en recherche biomédicale utilisent abondamment l’IA pour résumer leurs articles. Ils ont publié leurs résultats dans la revue Science Advances.
Cette analyse constate aussi une évolution du vocabulaire dans les résumés des 15 millions d’articles du milieu biomédical (en anglais) indexés sur la plateforme PubMed, principal moteur de recherche d’articles médicaux et de biologie.
Détection par l’augmentation anormale de la fréquence de certains mots
Ils ont de fait « simplement » calculé la fréquence, pour chaque année, des 273 112 mots qui apparaissent dans ces résumés. Pour chaque année, ils ont identifié les 900 mots « excédentaires ».
Ainsi, on peut observer l’évolution soudaine de l’utilisation ou de l’abandon de certains termes.

Le verbe « delve » (approfondir) avait déjà été repéré car c’est un terme peu employé dans l’anglais étasunien ou britannique, mais très utilisé par les nigérians, nationalité de beaucoup de travailleurs de la donnée dont le travail est utilisé pour entrainer les IA.
Le titre de l’article scientifique, « Delving into LLM-assisted writing in biomedical publications through excess vocabulary », est d’ailleurs un clin d’œil en référence à la fréquence élevée de ce terme. Mais des termes comme « crucial », « potential » ou « significant » ont fait des bons qui coïncident avec l’arrivée des IA génératives. Au contraire, « important » a chuté ces dernières années.
Ces pics de fréquences d’utilisation de termes ne sont pas tous dus qu’à l’utilisation de l’IA. On peut, par exemple, facilement comprendre qu’entre 2020 et 2024, le terme « pandemic » a connu un certain succès dans le milieu biomédical. De même, l’épidémie de maladie à virus Ebola en Afrique de l’Ouest entre 2013 et 2016 a, mécaniquement, poussé les chercheurs à utiliser le nom du virus dans leurs résumés.
Concentration sur les différences entre 2022 et 2024
Ils se sont donc concentrés sur les termes dont la fréquence a augmenté de façon particulièrement excessive en 2024, en comparant avec l’année 2022.

Ainsi, on peut voir que « delved » ou « delves », mais aussi « undescore », « notably », « showcasing » ou « additionnaly » sont particulièrement utilisés dans les articles biomédicaux de 2024 par rapport à ceux publiés en 2022.
Mais on peut se demander si ce phénomène peut être observé lors d’autres années. Ils ont vérifié pour toutes les années entre 2013 et 2023 et n’ont pas observé d’augmentations aussi importantes sauf pour le terme « ebola » en 2015, le terme « zika » en 2017 et les termes « coronavirus », « covid », « lockdown » et « pandemic » entre 2020 et 2022. Il faut donc, d’habitude, qu’il y ait un événement majeur lié à un terme biomédical pour qu’une telle augmentation de fréquence soit observée.
L’IA insert un style d’écriture différent
Les chercheurs ont aussi analysé quels types de mots étaient sur-utilisés. Comme on peut le voir dans les graphiques ci-dessous, la plupart des mots dont la fréquence est excessive à l’ère de l’IA générative sont plus là pour agrémenter le style. Ce sont aussi, la plupart du temps, des verbes ou, dans une moindre mesure, des adjectifs.

Le regroupement de ces termes de style dont la fréquence est excessive pour 2024 leur a servi de marqueur de l’usage de modèles de langage pour la rédaction des résumés des articles. En gros, ils considèrent qu’à partir d’un certain seuil de mots venant de ce groupe de mots, les chercheurs ont utilisé ChatGPT ou tout autre outil d’IA générative pour rédiger leur résumé.
13,5 % est une estimation basse
C’est en réanalysant tous les résumés des articles indexés par PubMed par ce prisme qu’ils estiment qu’au moins 13,5 % d’entre eux ont été rédigés à l’aide de l’IA générative. « Avec environ 1,5 million d’articles indexés dans PubMed par an, cela signifie que les LLM participent à la rédaction d’au moins 200 000 articles par an », expliquent-ils.
Ils insistent sur le fait que c’est une borne inférieure, puisque des résumés rédigés avec l’IA générative peuvent ne comporter aucun des termes qu’ils ont repérés. Ils soulignent aussi que, dans le lot, il peut y avoir des faux-positifs : notamment, l’utilisation des modèles de langage peut aussi influencer le style des humains. Mais ils pensent que ce dernier effet est beaucoup plus petit et plus lent.
Si l’IA générative peut aider dans la forme, elle peut ajouter des problèmes de fond
Ils font remarquer que l’IA générative est souvent utilisée pour améliorer la grammaire, la rhétorique, la lisibilité générale des textes ou aide à la traduction. Mais ils rappellent que les modèles de langage sont connus pour halluciner des références, fournir des résumés inexacts et générer de fausses informations qui semblent faire autorité et être convaincantes.
« Si les chercheurs peuvent remarquer et corriger les erreurs factuelles dans les résumés générés par IA de leurs propres travaux, il peut être plus difficile de trouver les erreurs de bibliographies ou de sections de discussions d’articles scientifiques générés par des LLM », soulignent-ils.
Ils ajoutent que les LLM peuvent répliquer les bais et autres carences qui se trouvent dans leurs données d’entrainement « ou même carrément plagier ».
Le code utilisé pour l’analyse des articles scientifiques est disponible sur GitHub et archivé sur Zenodo. On peut aussi y trouver toutes les données qu’ils ont générées.