OpenAI : les injections de prompts resteront « un défi pour de nombreuses années »
Prise de devants
Dans un billet de blog publié ce 22 décembre, OpenAI a abordé plus en détail la sécurité de son navigateur Atlas. L’entreprise a notamment décrit la formation d’un agent spécialement entrainé pour trouver des failles. Elle reconnait cependant que les injections de prompts resteront possibles pour longtemps.
Le billet d’OpenAI se concentre sur les attaques par injection de prompts, aussi appelées injections rapides. Spécifiques à l’IA générative, elles tablent sur l’exploration par un chatbot de ressources contenant des instructions malveillantes cachées. Une requête peut par exemple envoyer ChatGPT visiter une certaine page sur un site, laquelle abrite un autre prompt, que l’IA va analyser et interpréter comme tel, avant de satisfaire la demande. Le résultat peut être notamment une fuite d’informations personnelles.
« À titre d’exemple hypothétique, un attaquant pourrait envoyer un courriel malveillant tentant de tromper un agent pour qu’il ignore la demande de l’utilisateur et transmette à la place des documents fiscaux sensibles vers une adresse e-mail contrôlée par l’attaquant. Si un utilisateur demande à l’agent de revoir les e-mails non lus et de résumer des points clés, l’agent peut ingérer cet e-mail malveillant pendant le flux de travail. S’il suit les instructions injectées, il peut s’écarter de sa tâche et partager à tort des informations sensibles », explique ainsi OpenAI.
Atlas au premier plan
Problème pour OpenAI : tout ce qu’il est possible de faire avec l’interface classique de ChatGPT l’est avec les agents. Selon les instructions données, ces derniers exécutent même leur mission de manière automatisée. Et puisqu’ils sont au cœur du navigateur Atlas, OpenAI fait le pari de communiquer directement sur la question.

Cette publication se fait à la faveur d’une mise à jour du modèle, décrit comme mieux entrainé et doté de meilleures protections contre les injections. OpenAI ajoute que cette mise à jour a été déployée suite à la détection d’une série d’attaques par sa « red team automatisée interne ». Une « red team » est une équipe chargée de tester les défenses d’un produit. Dans le cas présent, OpenAI évoque un agent spécialement créé et entrainé dans cet objectif.
Reconnaissant que le « mode agent élargit la surface d’attaque », l’entreprise en a formé un pour attaquer son navigateur. Il fonctionne par renforcement et est décrit comme s’adaptant sans cesse pour trouver de nouvelles portes d’entrée. OpenAI indique avoir accès à la liste de toutes les opérations tentées, l’agent étant présenté comme plus rapide dans ses approches qu’aucun humain ne pourra jamais l’être. Il est basé sur un LLM et se comporte comme un pirate survitaminé, selon l’entreprise.
Pour OpenAI, cette méthode a deux gros avantages : l’approche proactive forçant une adaptation rapide et l’analyse du comportement de tous les agents impliqués, aussi bien en attaque qu’en défense. L’agent attaquant peut lui aussi analyser le comportement des agents présents dans Atlas, pour itérer et lancer une boucle de rétroaction : chaque « décision » prise par Atlas est scrutée pour trouver une faille.
Un problème « à long terme »
Si OpenAI veut montrer qu’elle prend le problème des attaques par injection très au sérieux, elle reconnait dans le même temps qu’il ne sera probablement jamais circonscrit.
« Nous nous attendons à ce que nos adversaires continuent de s’adapter. L’injection rapide, tout comme les arnaques et l’ingénierie sociale sur le web, est peu susceptible d’être un jour complètement « résolue ». Mais nous sommes optimistes quant à une boucle de réponse rapide proactive, très réactive et capable de continuer à réduire de manière significative les risques réels au fil du temps », reconnait l’entreprise dans son billet de blog.
OpenAI parle de « lucidité » sur le compromis entre puissance et surface d’attaque. Cette communication a en outre un autre effet : le sous-texte est que tous les navigateurs agentiques sont concernés, avec des piques invisibles lancées aux concurrents comme Perplexity et son Comet, et surtout Google avec Chrome. Et que dire d’un Windows 11 agentique ?