En chimie, l’IA permet d’« optimiser la manière de faire de la recherche »
C'est du chimique !
Les méthodes d’IA ont passé les portes des laboratoires depuis quelques années. Mais, concrètement, à quoi sert-elle quand les chimistes l’utilisent ? Next a voulu en savoir plus et a interrogé le chimiste théorique François-Xavier Coudert.
Le machine learning ou le deep learning pour analyser des images, des vidéos, des textes ou des sons, on commence à connaître. Mais à quoi peuvent bien servir les techniques d’IA dans un laboratoire de chimie ? Qu’est-ce qu’un chimiste théorique peut bien faire d’un réseau de neurones ?
- IA : c’est quoi exactement un neurone (informatique), comment ça marche
- On développe et entraine une IA, avec seulement 10 lignes de code !
Next a discuté avec François-Xavier Coudert, chercheur au CNRS qui a travaillé, par exemple, sur l’utilisation de l’IA pour trouver de nouveaux réseaux métallo-organiques, ces matériaux poreux dont la découverte a valu aux chimistes Susumu Kitagawa, Richard Robson et Omar M. Yaghi le prix Nobel en 2025.
>> Quelle est le but de s’appuyer sur l’IA quand on fait des recherches en chimie ?
Une des idées est de trouver de meilleures molécules ou de meilleurs matériaux pour des applications choisies. Typiquement, on peut vouloir séparer le CO₂ des autres gaz en sortie de cheminée d’usines. On va aller creuser dans les matériaux connus qui n’ont jamais été testés pour cette application-là. ? C’est là où on va aller creuser dans les matériaux connus, ceux qui n’ont jamais été testés pour cette application-là.
Jusqu’ici, les gens qui développaient des matériaux avaient une application en tête. Si ça marche, ils le publient et expliquent que ce matériau fait ce qu’ils veulent super bien, sinon, ils le mettent dans un tiroir et font un autre essai. L’idée, c’est que, dans les matériaux qui ont telle propriété pour laquelle ils sont connus, il y en a peut-être qui pourraient être très bien pour d’autres applications. Et ainsi d’aller chercher des matériaux connus mais qui n’auraient pas été complètement exploités. Mais comment le savoir ? On est face à des milliers de matériaux et de molécules. C’est aussi un peu l’idée du « repurposing » (réutilisation) des médicaments : si je trouve une molécule connue mais qu’elle a un autre effet, c’est toujours plus facile à déployer que de réinventer depuis rien une nouvelle molécule.
Aller au-delà de l’« intuition chimique »
>> Les techniques d’IA permettent de modéliser, sélectionner, générer plein de choses, dans quels buts les chimistes utilisent l’IA actuellement ?
Il y a beaucoup de champs scientifiques qui utilisent l’IA parce qu’ils ont de larges volumes de données qui étaient jusque-là inexploitées, c’est le paradigme du big data. En chimie, il y a la même motivation : à force, les laboratoires académiques comme ceux de R&D ont accumulé des données et ils veulent les valoriser.
La différence, c’est que nous sommes très loin du régime du big data parce qu’on n’est pas Facebook ou Microsoft et que nous n’avons pas des millions d’expériences et que les données coûtent très cher à produire : faire une nouvelle manip’, tester un nouveau matériau ou une nouvelle molécule, c’est compliqué. Quand on va dans un laboratoire et qu’on leur demande combien de manip’ ont été faites sur les matériaux sur lesquels ils travaillent, en général, on est plutôt sur quelques centaines. Et le millier, c’est déjà énorme.
L’idée est de pouvoir optimiser la manière de faire de la recherche en s’appuyant sur les expériences, au-delà de l’« intuition chimique » : quand l’humain analyse ses résultats et se dit « ça, ça va bien marcher, ça non ». Sûrement qu’il y a des tendances qu’on rate, des facteurs qu’on ne voit pas et on a envie de les exploiter.
Le problème aussi est que ces données sont souvent très hétérogènes parce que les manip’ ne sont pas toujours faites de la même façon, pas décrites pareil : parfois, ça reste dans un cahier de labo, d’autres fois, c’est publié mais ça peut être dans des PDF pour les vieilles manipulations.
Il y a quelques exemples très précis où les chimistes se sont motivés en tant que communauté depuis les années 60 pour standardiser leurs données, et ces domaines sont ceux où l’IA est plus facile à appliquer, mais c’est très limité. En biochimie, ce sont les protéines avec la base de données PDB et on a la même chose avec les structures cristallines. Les quantités de données sur ces sujets sont importantes mais très ciblées. Ces communautés se sont organisées pour appliquer leurs standards en imposant que, pour publier une nouvelle protéine, il faille que sa structure soit déposée [dans le sens publiée, ndlr], de même pour les cristaux.
Pour le reste, on voit de plus en plus de monde faire des analyses statistiques relativement simples et présenter ça comme de la data science ou de l’IA. Effectivement, même avec peu de données, il y a des analyses à faire.
Mais on met aussi en place des stratégies pour acquérir plus de données. Par exemple, de la synthèse robotisée pour avoir accès à de plus grands volumes de données parce qu’un robot peut nous faire 64 manips d’un coup avec des conditions différentes, mais toutes en parallèle, et les caractériser. On peut récupérer toutes les données brutes au cours de la synthèse alors que ce n’est pas le cas si on prend les données des expériences déjà publiées qui ne sont jamais exhaustives.
Depuis quelques années, nous voulons aussi nous attaquer à un autre problème : il y a un biais dans nos données. Nous n’avons dans la littérature scientifique que des publications positives. On manque de données négatives : les chercheurs n’ont publié que des informations sur des matériaux qui étaient intéressants pour eux et qui fonctionnaient bien. Mais que tel matériau est nul pour telle application ou que telle structure, quand on essaye de la synthétiser, ça ne donne pas de beaux cristaux ; cette information-là, on ne la trouve jamais dans les publications ou les bases de données qui leur sont liées. Quelqu’un a peut-être écrit dans un cahier de laboratoire « c’est marron et c’est tout moche » et s’est arrêté sans partager l’information. Et, on n’apprend pas sans erreur, comme on dit aux enfants. Ce manque de données négatives est une vraie limitation pour ce qu’on veut faire. La synthèse robotisée permet aussi d’enregistrer ce qui ne marche pas.
« l’IA améliore nos outils de chimistes sans changer la chimie que nous faisons »
>> Concernant les méthodes d’IA utilisées, quelles sont celles vers lesquelles se dirigent les chimistes ?
L’IA générative n’est pas une des grosses directions, même s’il y a des chercheurs qui essayent de créer de nouveaux matériaux, de nouvelles molécules, mais ce n’est pas la direction majeure. C’est souvent celle qui capture le plus les esprits parce que les gens disent « on a créé un nouveau matériau ».
Une autre direction qui est peu visible, c’est que l’IA améliore nos outils de chimistes sans changer la chimie que nous faisons. On a plus de facilités à mettre des modèles complexes dans nos outils pour faire de la reconnaissance de spectre, de l’analyse d’espèces, mais aussi, en chimie théorique sur laquelle je travaille, pour des méthodes de calcul. Avant, on calculait les propriétés des matériaux et des molécules avec des méthodes basées sur la physique comme les équations de Schrödinger, de Newton. On simulait le comportement des atomes dans les molécules, des molécules dans les matériaux, etc.
Aujourd’hui, les méthodes d’IA accélèrent ce travail en nous donnant des modèles plus précis. Pour certains systèmes, une fois qu’on a résolu 10 000 fois l’équation de Schrödinger pour telle classe de matériaux, on entraîne un réseau neuronal et il n’y a plus besoin de résoudre l’équation de Schrödinger car on a vu suffisamment de configurations possibles de ces matériaux pour savoir prédire ce qu’ils vont donner.
Cette amélioration de nos outils est très technique mais elle a vraiment un impact très fort dans la communauté de la chimie. C’est un nouvel outil de chimie théorique pour prédire les comportements des molécules et des matériaux. Aujourd’hui, la majorité des personnes utilisent ces outils-là.
>> Concrètement, ça se présente comment ?
En chimie théorique, on avait déjà des logiciels qui permettaient, par exemple, de regarder une molécule et de calculer son spectre UV visible. Mais, aujourd’hui, on a des plugins intégrés qui y intègrent des outils d’IA qui peuvent permettre de gagner du temps : pour certains types de calculs, on gagne un facteur 10, un facteur 50 ou même un facteur 100. On est donc capables de faire des calculs sur des systèmes plus grands, plus complexes et plus longs que ce qu’on faisait il y a cinq à dix ans.
L’idée, c’est donc de mettre des réseaux neuronaux à l’intérieur de nos logiciels pour accélérer la résolution de nos équations physiques. Ça existait déjà à l’époque mais la précision n’était pas de très haute et c’était un outil de niche avec quelques personnes qui travaillaient avec. Le fait d’avoir accès facilement à toute l’infrastructure, les GPU, les bibliothèques logicielles, avec le petit bout de code pour que le réseau neuronal fasse pile ce qu’on a envie, c’est devenu incroyablement pratique. Et par exemple des logiciels de dynamique moléculaire comme LAMMPS intègrent ce genre d’outils.
>> Ces logiciels sont développés par qui ?
Il existe sans doute quelques logiciels commerciaux mais, comme c’est un développement assez rapide, la plupart des personnes utilisent des logiciels open source académiques développés par des collègues universitaires, au MIT, à l’université de Pennsylvanie, par exemple, et maintenus par une communauté.
Les calculateurs du GENCI, un point fort pour les chercheurs français
>> Faut-il les déployer sur un serveur ou sont-ils utilisables sur des ordinateurs de bureau ?
Sur des ordinateurs de bureau, on peut faire des petits tests sur une molécule, un matériau d’une centaine d’atomes. Si on veut étudier de vrais problèmes, il faut des serveurs et de plus en plus de la puissance de calcul en GPU, puisque c’est sur ces plateformes-là que les réseaux neuronaux ont été les plus optimisés.
Après, chacun fait comme il veut. Nous avons un serveur au laboratoire mais on utilise surtout des machines nationales. En France, on a cette chance d’avoir, grâce au CNRS et aux autres organismes comme le CEA, le GENCI qui nous donne accès à de la puissance de calcul sur trois grands calculateurs nationaux souverains, hébergés en propre. C’est vraiment un point fort pour nous. Comme quand on candidate pour les synchrotrons ou autres grandes infrastructures, il suffit de déposer tous les six mois en justifiant avec un dossier comportant les recherches effectuées et les nouveaux projets et c’est expertisé par le comité du GENCI qui alloue un nombre d’heures de machine.
>> Comment on fait pour créer un modèle adapté à la chimie ?
On part d’un jeu de données, par exemple une liste des stabilités mécaniques (sont-ils plus ou moins durs, plus ou moins résistants) de 15 000 matériaux avec leurs structures, et on veut faire un modèle capable de prédire cette stabilité mécanique pour d’autres matériaux. Ce qui est difficile, c’est qu’il faut représenter la structure des matériaux. Le réseau neuronal prend en entrée un jeu de nombres, il faut donc trouver une représentation sous forme de série de nombres qui représente bien la géométrie du matériau [c’est la même problématique pour tous les domaines, ndlr].
On transforme donc ces structures de matériaux en série de données et on les donne à un réseau de neurones pour lequel on optimise les poids sur les neurones pour qu’à la fin, le modèle ait appris à sortir avec une bonne précision la stabilité mécanique d’un matériau quand on lui donne sa structure. Une fois qu’on a ce modèle, on peut lui donner un matériau pour qu’il nous prédise sa stabilité mécanique.
Pour choisir le modèle, il faut une adéquation entre la complexité du réseau neuronal (nombre de neurones, façon dont ils sont connectés entre eux) et le nombre de données qu’on a et leur complexité. Ça sert à rien d’utiliser un modèle trop complexe sur un tout petit jeu de données, mais si le modèle est trop simple et qu’il n’y a pas assez de neurones, il va être de mauvaise qualité. Là est donc tout l’enjeu : savoir quel est le bon type de modèles, combien de neurones, quelle forme, quelle connectivité et comment on représente les données pour les faire ingérer à ce réseau de neurones. Tout le boulot est là.
>> Pour l’instant, après utilisation de l’IA, dans la vraie vie chimique, est-ce que ça améliore le travail ? Ne croulez-vous pas devant une liste de matériaux candidats qui sont ensuite difficiles à départager ?
Aujourd’hui, pas vraiment. Ça propose des pistes mais on n’a pas d’exemple « magique » comme les biologistes avec Alphafold. En chimie et en sciences des matériaux, on n’a pas encore sorti le truc où on peut dire : « ça, ça a été fait grâce à l’IA et on n’aurait pas pu le faire autrement, etc ». L’IA accélère certaines pratiques mais ce n’est pas applicable à tous les laboratoires ni à toutes les propriétés. Il y a des choses vraiment difficiles et pour lesquelles, on a beau utiliser l’IA, on ne voit rien en ressortir, sans facteur clair. Ce n’est pas une chose magique qui résout tous nos problèmes, loin de là. Ça accélère la recherche sur des domaines bien spécifiques.
Je ne suis pas trop inquiet sur le côté : ça fournit trop de pistes et ça noie la recherche. Je pense que le principal problème est que certains essayent de mettre de l’IA là où elle n’apporte rien et c’est là où on perd du temps.
« Un outil de plus dans la très grande boite à outils du chimiste »
>> Qu’est-ce qui ne fonctionne pas avec l’IA en chimie ?
Une des grandes questions aujourd’hui est de savoir ce qui fait qu’une molécule est synthétisable ou pas. C’est un grand problème ouvert sur lequel l’IA n’est pas vraiment « douée » et où, je crois, l’intuition chimique fait mieux. Si je montre deux molécules ou deux matériaux à un chimiste expérimentateur, il va pouvoir me dire : « Celle-là, je peux essayer de te la faire dans le bécher, mais celle-ci, c’est mort, jamais on l’aura ». Cette idée de la faisabilité expérimentale reste une question ouverte et c’est la même chose pour les matériaux. Comment un modèle peut me permettre de sélectionner parmi 140 super matériaux les 10 que je vais vraiment synthétiser et qui auront une chance d’être utilisables ? La question de la faisabilité expérimentale, ce qui fait qu’on arrive à synthétiser telle molécule ou tel matériau, est encore un problème difficile.
Ces méthodes sont un outil de plus dans la très grande boite à outils du chimiste. Mais il faut donc qu’on apprenne aux étudiants, pas forcément à savoir les utiliser mais à savoir comment ça fonctionne pour avoir un regard critique dessus et à comprendre les forces et les limites. Je travaille à former nos étudiants à ce qu’ils puissent lire des travaux qui utilisent des modèles d’IA en se posant les bonnes questions : comment le jeu de données a été traité ? Quelle est la dimension du modèle ? Et à se faire un avis critique puisque ça devient très utilisé, de même que moi, j’ai beau être théoricien et développer des modèles sur ordinateur, si je veux parler à mes collègues, il faut que je puisse comprendre une méthode expérimentale, sans pour autant être capable de faire une synthèse de matériau ou de le caractériser sur un synchrotron.
