Une quarantaine de chercheurs appellent à surveiller les « pensées » des systèmes d’IA
Les arrières-pensées que nous prêtons aux autres ne sont jamais que nos propres pensées.

Plusieurs dizaines de chercheurs en vue dans le monde de l’IA appellent à développer des techniques de surveillance des « fils de pensée » des modèles d’IA. L’idée même que ces systèmes techniques soient capable de raisonnement est profondément débattue.
Enquêter sur les « pensées » des modèles de « raisonnement » d’intelligence artificielle ? C’est ce à quoi appellent 41 chercheurs financés par les plus grandes sociétés d’IA – Antrophic, OpenAI, Google DeepMind, Meta –, des scientifiques affiliés à diverses institutions comme le UK AI Security Instititute et de grands noms du domaine comme Yoshua Bengio.
L’idée qu’ils défendent : déployer des technologies de surveillance des « chaînes de pensée » des systèmes d’IA pour y « détecter l’intention de mal se comporter ». Dans un article (un position paper intitulé « Chain of Thought Monitorability : a new and fragile opportunity for AI safety ») publié ce 15 juillet, les signataires appellent les développeurs de « modèles frontières » à se pencher sur la possibilité de suivre les « fils de pensée » (chain of thoughts, CoT) des modèles à mesure qu’ils les développent.
La proposition s’inscrit dans un contexte de difficulté à comprendre la manière dont les modèles d’apprentissage machine et les grands modèles de langage construits grâces à ces techniques parviennent à leurs résultats. Plus récemment, elle s’inscrit dans l’affirmation selon laquelle des modèles comme le o3 d’OpenAI ou le R1 de DeepSeek seraient capables de « raisonnement ». Pour les auteurs de l’article, « la surveillance des CoT est un complément précieux aux mesures de sécurité des modèles frontières, car elle offre un rare aperçu de la manière dont les agents IA prennent des décisions ».
Modèles de quoi ?
Poussée par OpenAI à l’été 2023, l’expression « modèle frontière » décrit d’après l’entreprise « des modèles de fondation très performants qui pourraient posséder des capacités dangereuses suffisantes pour poser des risques graves pour la sécurité publique ». Meta qualifie par exemple son modèle Llama 3.1 de modèle « frontière ».
Si elle est débattue dans le milieu scientifique, la notion de modèle de fondation est quant à elle définie dans le droit européen comme « un système d’IA entraîné sur un vaste jeu de données, et construit pour la généralité de ses productions ».
Les modèles de langage de raisonnement (reasoning language models) sont un qualificatif accolé à différents LLM depuis la publication du système o1 d’Open Ai, en septembre 2024. Ils fonctionnent grâce à des logiques de « fils de pensée », ces fonctionnalités grâce auxquelles un système génératif fournit un aperçu des étapes par lesquelles il est passé pour produire sa réponse. Ces derniers permettent en effet d’illustrer comment un grand modèle de langage divise une question ou une tâche en étapes, qu’il réalise les unes après les autres pour finalement produire une réponse globale.
Ouvrir les boîtes noires ?
Explicabilité et transparence sont par ailleurs depuis de nombreuses années en tête des requêtes des chercheurs pour faciliter l’audit et la compréhension de toutes sortes de modèles algorithmiques, que ceux-ci soient génératifs ou, par exemple, en charge de trier ou de modérer les flots de contenus présents sur les réseaux sociaux. En 2018, déjà, le rapport Villani soulignait la nécessité de faciliter la compréhension de leur fonctionnement.
Le position paper tout juste publié cherche justement à attirer de nouveau l’attention sur ces enjeux d’explicabilité. Ses cosignataires, que soutiennent quatre experts de renom, dont le prix Nobel Geoffrey Hinton ou le fondateur de Safe Superintelligence Inc. et ex-Open AI Ilya Sustkever, appellent à développer des techniques de surveillance des « fils de pensée », mais aussi de maintien de ces fonctionnalités. Le but : les explorer plus précisément pour gagner une meilleure compréhension du fonctionnement des LLM. Mais aussi s’assurer que « le degré actuel de visibilité » perdure.
La publication se fait dans un contexte dans lequel les plus grosses sociétés du secteur sont en compétition ouverte. Depuis quelques semaines, Meta s’est notamment employé à débaucher bon nombre de spécialistes travaillant jusqu’ici pour Google Deepmind, OpenAI, Anthropic ou même Apple pour développer son propre laboratoire en intelligence artificielle. Historiquement engagé sur les sujets de « sécurité de l’IA », ou AI safety, le cofondateur d’Anthropic Dario Amodei a de son côté indiqué en avril souhaiter « ouvrir la boîte noire » des systèmes d’IA d’ici 2027.
Surveiller les « pensées » des systèmes d’IA, une anthropomorphisation supplémentaire ?
S’il est signé par de multiples pontes du domaine, cet article creuse par ailleurs un sillon déjà largement tracé de comparaisons du fonctionnement de systèmes techniques à des comportements humains. La pratique est ardemment débattue par des scientifiques comme la linguiste Emily Bender ou l’informaticienne Timnit Gebru, pour qui elle brouille la compréhension du public et des décideurs du fonctionnement réel de ces systèmes.
En l’occurrence, évoquer les « fils de pensée » de modèles statistiques participe directement à instiller l’idée que ces machines soient conscientes — à la sortie du modèle o1 d’OpenAI, Emily Bender et la sociologue Alex Hanna avaient qualifié de « ridicule » la décision de l’entreprise de le présenter comme capable de raisonnement.
Ce flou est à l’origine de multiples débats dans la communauté de la recherche en intelligence artificielle – en 2022, l’ingénieur Blake Lemoine avait été écarté de Google après avoir affirmé que le modèle LaMDA était conscient. Dans une certaine mesure, il permet aussi aux sociétés du secteur de « continuer de faire ce qu’elles veulent », expliquait l’autrice de l’enquête Empire of AI, Karen Hao, à Next.