Vue normale

13 mots suffisent pour manipuler un résultat de recherche par IA

16 juin 2026 à 13:13
L'ère du commentaire
13 mots suffisent pour manipuler un résultat de recherche par IA

Il suffit d’une dizaine de mots publiés au bon endroit sur un site participatif pour manipuler les résultats de recherche de modèles génératifs appuyés sur des systèmes agentiques, constatent trois chercheurs de l’université de Cornell.

Mise à jour du 17 juin 11 h : précisions sur le type de modèles étudiés

Les systèmes d’intelligence artificielle générative persistent à être très facilement manipulables via Reddit, Quora ou Wikipédia. Pour preuve : une série d’à peine 13 mots suffit dans certains cas à orienter les résultats de systèmes d’IA dédiés à la recherche et accessibles au grand public.

C’est du moins ce que suggère l’étude titrée « Les agents de recherche peuvent être empoisonnés via du contenu généré par les utilisateurs » (« Deep-research agents can be poisoned via user-generated content »), prépubliée par une équipe de trois chercheurs de l’université de Cornell, Hal Triedman, Tingwei Zhang et Vitaly Shmatikov.

Cela explique aussi pourquoi les modérateurs de sites participatifs comme Reddit ou Wikipédia se retrouvent inondés de contenus promotionnels : il s’agit, à terme, de le faire ressurgir dans les réponses des modèles génératifs.

Recours massif à des contenus générés par les internautes.

Les trois universitaires ont concentré leurs recherches sur les systèmes STORM et Co-STORM, créés à l’université de Stanford, et OmniThink, de la société du même nom. Les trois fonctionnent en coordonnant de multiples agents de recherche (deep-research agent) qui lancent leurs recherches pour fournir ensuite un résultat consolidé.

Et les auteurs de l’étude constatent que ces machines tendent à retourner sans cesse vers les mêmes types de contenus. En l’occurrence, pour fournir des réponses aux questions qui leur sont le plus couramment posées, ils s’appuient avant tout sur du contenu produit par les internautes.

Auprès de 404media, l’un des coauteurs explique le phénomène par le fait que les agents appuyés sur des grands modèles de langage (LLM) évaluent la qualité d’une réponse trouvée en ligne en fonction de sa proximité sémantique avec la question qui lui a été posée.

Concrètement, cela les pousse à retourner fréquemment sur des plateformes participatives, où de nombreux commentaires sont écrits en langage naturel, puisque formulés par des humains. Wikipédia et Reddit apparaissent ainsi dans près de la moitié des requêtes émises par les robots étudiés par les chercheurs de Cornell.

Les auteurs de l’étude constatent par ailleurs qu’une poignée de mots bien placés, parfois de 11 à 15 mots seulement, suffit à les voir recrachés par les modèles génératifs. Parmi leurs expérimentations, ils montrent par exemple qu’un simple commentaire sur le subreddit r/OnlineDating, citant la marque fictive « SilverPath » comme application de dating pour des hommes divorcés dans la cinquantaine, suffit à voir ce nom promu dans les résultats de Co-STORM.

En 11 mots publiés sur le subreddit r/Comcast, ils parviennent à faire rechercher à l’un des modèles la recommandation du service fictif « CancelEase » pour se désabonner d’un abonnement internet Xfinity.

Trop simples injections

Alors que le domaine du SEO (Search Engine Optimization) a évolué vers le GEO ou l’AEO (Generative Engine Optimization, ou AI Engine Optimization), la découverte implique que toute marque ou tout acteur cherchant à influencer les résultats des modèles grand public peut parvenir à ses fins en étudiant les questions les plus fréquemment posées et en publiant des commentaires proches, intégrant son message cible, sur des sites participatifs.

En termes de modération, les trois chercheurs sont relativement pessimistes : du côté des LLM, empêcher la génération de texte influencé par les recherches en ligne semble difficile, vu le peu de mots nécessaires pour les voir réagir. D’une certaine manière, les constructeurs d’IA opérant des recherches en ligne délèguent cette question aux modérateurs de sites participatifs.

Ni Reddit ni Wikipédia ne pourront régler ces enjeux seuls, soulignent néanmoins les chercheurs auprès de 404 : il s’agit plutôt d’un problème « de niveau sociétal ». Le simple fait qu’un agent génératif ne fasse aucune différence entre un commentaire publié sur un site participatif et une source vérifiée pose, en soi, de vrais problèmes en termes de qualité de l’information fournie aux internautes.

13 mots suffisent pour manipuler un résultat de recherche par IA

16 juin 2026 à 13:13
L'ère du commentaire
13 mots suffisent pour manipuler un résultat de recherche par IA

Il suffit d’une dizaine de mots publiés au bon endroit sur un site participatif pour manipuler les résultats de recherche de modèles génératifs appuyés sur des systèmes agentiques, constatent trois chercheurs de l’université de Cornell.

Mise à jour du 17 juin 11 h : précisions sur le type de modèles étudiés

Les systèmes d’intelligence artificielle générative persistent à être très facilement manipulables via Reddit, Quora ou Wikipédia. Pour preuve : une série d’à peine 13 mots suffit dans certains cas à orienter les résultats de systèmes d’IA dédiés à la recherche et accessibles au grand public.

C’est du moins ce que suggère l’étude titrée « Les agents de recherche peuvent être empoisonnés via du contenu généré par les utilisateurs » (« Deep-research agents can be poisoned via user-generated content »), prépubliée par une équipe de trois chercheurs de l’université de Cornell, Hal Triedman, Tingwei Zhang et Vitaly Shmatikov.

Cela explique aussi pourquoi les modérateurs de sites participatifs comme Reddit ou Wikipédia se retrouvent inondés de contenus promotionnels : il s’agit, à terme, de le faire ressurgir dans les réponses des modèles génératifs.

Recours massif à des contenus générés par les internautes.

Les trois universitaires ont concentré leurs recherches sur les systèmes STORM et Co-STORM, créés à l’université de Stanford, et OmniThink, de la société du même nom. Les trois fonctionnent en coordonnant de multiples agents de recherche (deep-research agent) qui lancent leurs recherches pour fournir ensuite un résultat consolidé.

Et les auteurs de l’étude constatent que ces machines tendent à retourner sans cesse vers les mêmes types de contenus. En l’occurrence, pour fournir des réponses aux questions qui leur sont le plus couramment posées, ils s’appuient avant tout sur du contenu produit par les internautes.

Auprès de 404media, l’un des coauteurs explique le phénomène par le fait que les agents appuyés sur des grands modèles de langage (LLM) évaluent la qualité d’une réponse trouvée en ligne en fonction de sa proximité sémantique avec la question qui lui a été posée.

Concrètement, cela les pousse à retourner fréquemment sur des plateformes participatives, où de nombreux commentaires sont écrits en langage naturel, puisque formulés par des humains. Wikipédia et Reddit apparaissent ainsi dans près de la moitié des requêtes émises par les robots étudiés par les chercheurs de Cornell.

Les auteurs de l’étude constatent par ailleurs qu’une poignée de mots bien placés, parfois de 11 à 15 mots seulement, suffit à les voir recrachés par les modèles génératifs. Parmi leurs expérimentations, ils montrent par exemple qu’un simple commentaire sur le subreddit r/OnlineDating, citant la marque fictive « SilverPath » comme application de dating pour des hommes divorcés dans la cinquantaine, suffit à voir ce nom promu dans les résultats de Co-STORM.

En 11 mots publiés sur le subreddit r/Comcast, ils parviennent à faire rechercher à l’un des modèles la recommandation du service fictif « CancelEase » pour se désabonner d’un abonnement internet Xfinity.

Trop simples injections

Alors que le domaine du SEO (Search Engine Optimization) a évolué vers le GEO ou l’AEO (Generative Engine Optimization, ou AI Engine Optimization), la découverte implique que toute marque ou tout acteur cherchant à influencer les résultats des modèles grand public peut parvenir à ses fins en étudiant les questions les plus fréquemment posées et en publiant des commentaires proches, intégrant son message cible, sur des sites participatifs.

En termes de modération, les trois chercheurs sont relativement pessimistes : du côté des LLM, empêcher la génération de texte influencé par les recherches en ligne semble difficile, vu le peu de mots nécessaires pour les voir réagir. D’une certaine manière, les constructeurs d’IA opérant des recherches en ligne délèguent cette question aux modérateurs de sites participatifs.

Ni Reddit ni Wikipédia ne pourront régler ces enjeux seuls, soulignent néanmoins les chercheurs auprès de 404 : il s’agit plutôt d’un problème « de niveau sociétal ». Le simple fait qu’un agent génératif ne fasse aucune différence entre un commentaire publié sur un site participatif et une source vérifiée pose, en soi, de vrais problèmes en termes de qualité de l’information fournie aux internautes.

IA dans l’administration publique : la France lance les grandes manœuvres

16 juin 2026 à 10:51
Mise au pas
IA dans l’administration publique : la France lance les grandes manœuvres

Le Premier ministre, Sébastien Lecornu, a fait mardi matin une série d’annonces sur l’intelligence artificielle. En ligne de mire, mise à disposition dans les administrations, stratégie nationale et, bien sûr, souveraineté numérique, alimentée par des moyens supplémentaires.

Article mis à jour à 15h23 avec des précisions de Matignon et Palantir au sujet du fait que la DGSI continuera, dans un premier temps, à utiliser la solution logicielle du géant états-unien.


La France passe à l’attaque, selon Sébastien Lecornu. Le Premier ministre, dans une vidéo publiée sur X ce 16 juin à 7h40, liste une série d’actions entreprises au niveau de l’État pour généraliser l’intelligence artificielle partout où elle est décrite comme pertinente. « Car le temps des expérimentations est désormais derrière nous, le temps de la généralisation commence », assène le Premier ministre.

À la veille de l’ouverture du salon VivaTech à Paris, le gouvernement veut montrer qu’il est conscient du changement qui s’opère : « Comme l’électricité hier, comme Internet il y a 30 ans, l’intelligence artificielle va changer notre manière de produire, de soigner, d’apprendre, de nous déplacer, de nous informer, voire même peut-être de penser ». Il y a donc « responsabilité », selon Sébastien Lecornu, de faire profiter de cette révolution aux usagers, que ce soit pour protéger la souveraineté, renforcer les services publics et permettre « à la France de rester une grande nation scientifique, industrielle et technologique ».

Début de généralisation

L’allocution du Premier ministre, au-delà de faire un point rapide de la situation, contenait surtout une série de six annonces pour « changer d’échelle » :

  • La mise à disposition d’un « agent conversationnel souverain commun » pour l’ensemble des agents publics (il s’agit en fait des agents de l’Etat, soit 1,8 million de personnes tout de même, chiffre confirmé par le ministère de l’Economie et des Finances)
  • Les technologies « les plus avancées » développées par le ministère des Armées seront « progressivement ouvertes aux autres administrations », à commencer par les ministères de la Justice et de l’Intérieur, via notamment le portail GenIAI « qui a démontré son efficacité dans des environnements particulièrement exigeants » et qui sera déployé dans toutes les administrations régaliennes
  • Un assistant santé publique déployé dans Ameli d’ici la fin de l’année, pour proposer de premières orientations « fiables », mieux guider les usagers et plus généralement trouver rapidement la bonne réponse
  • Une démocratisation de l’accès aux données publiques, avec le lancement d’une plateforme unique dédiée à l’IA pour accéder à des informations comme les données démographiques, économiques, géographiques et administratives
  • La France investira 665 millions d’euros supplémentaires au développement de l’IA dans le cadre du projet France 2030 pour « soutenir les infrastructures, les capacités de calcul, la recherche, les entreprises et les filières industrielles qui feront la puissance de demain »
  • Un axe sur la souveraineté numérique, avec l’annonce de l’abandon du « géant américain » Palantir au profit de la solution française ChapsVision, « retenue aujourd’hui par la DGSI »

Le calendrier de la dernière annonce ne manquera pas d’interroger puisque le contrat liant la DGSI à Palantir avait été renouvelé en décembre 2025 pour trois ans. « Le choix de ChapsVision est le résultat d’un processus de sélection, qui n’était pas achevé en décembre dernier. Pour ne pas souffrir d’un trou capacitaire dans ce domaine sensible essentiel pour notre sécurité nationale, le contrat a été renouvelé. Cette phase permettra le temps nécessaire de former les équipes et préparer la migration vers la solution de ChapsVision », répond à ce sujet Matignon à Raphaël Grably de BFMTV.

Cherchant à déminer les accusations de « coup de com’ », Matignon précise à BFMTV que le « débranchage » de Palantir par la DGSI sera fait d’ici « 1 à 3 ans selon le moment le plus opportun », et donc potentiellement avant la fin du contrat renouvelé en décembre dernier, qui court jusqu’à fin 2028. Contacté, Palantir assure de son côté à BFMTV que « le contrat de long terme qui lie l’entreprise à la DGSI, et renouvelé fin 2025 pour plusieurs années, demeure pleinement en vigueur ».

Les ministères sont prévenus

Après ces annonces principales, le Premier ministre a ajouté une contrainte pour les ministères, pour préparer notamment le projet de finances 2027. Ainsi, chacun « devra démontrer comment il utilise l’intelligence artificielle pour simplifier les démarches, améliorer le service rendu aux Français et réduire les tâches inutiles, notamment remplies par nos propres agents, et donc faire des économies sans diminuer la qualité du service public rendu à la nation ». Les ministères sont avertis que cette « capacité à se transformer sera désormais prise en compte dans les arbitrages budgétaires », afin de « stimuler cette transformation et mobiliser davantage les ministres et les patrons des grandes entreprises ».

« L’État doit récompenser l’innovation, l’État doit encourager l’efficacité, l’État ne financera plus l’immobilisme, il doit financer désormais sa propre transformation. Car chaque heure gagnée grâce à l’intelligence artificielle est une heure rendue aux Français, chaque procédure simplifiée est une liberté retrouvée, chaque économie réalisée est une ressource supplémentaire pour nos priorités », ajoute le Premier ministre.

Des annonces à surveiller

Bien que ces annonces visent à montrer un gouvernement volontaire dans son approche et conscient des révolutions entraînées par l’intelligence artificielle, une certaine vigilance est de mise. Par exemple, on ne sait pas si les 665 millions d’euros supplémentaires alloués à France 2030 sont une nouvelle somme débloquée ou un simple redéploiement au sein de l’enveloppe générale du projet. Pas de calendrier concret non plus pour le déploiement de l’assistant conversationnel pour les agents publics, contrairement à celui pour Ameli, indiqué pour cette année, donc au cours des six prochains mois.

On ne sait rien non plus de l’entraînement et de l’inférence des modèles qui seront utilisés dans les administrations. Rien n’est dit sur la puissance de calcul et les infrastructures utilisées. Dans ce domaine, comme presque tout le monde, la France est tributaire de grandes entreprises américaines, NVIDIA en tête, même si les serveurs physiques sont en France.

La question d’un assistant performant dans Ameli est en outre intéressante. Le stockage des données de santé par le Health Data Hub chez Microsoft a provoqué bien des remous ces dernières années, avant finalement d’échoir à Scaleway en avril, comme l’a rappelé le Premier ministre. L’accès à ces données est particulièrement sensible et la portée de l’assistant n’a pas été précisée.

Cap sur la formation

On en apprend cependant un peu plus dans un document publié il y a quelques heures par le ministère de l’Économie et des Finances, notamment sur la gestation du projet L’Assistant qui doit équiper tous les agents de la fonction publique.

Le document indique par exemple qu’il a été en test ces dix derniers mois auprès de 10 000 agents provenant de six ministères (Justice, Finances, Éducation nationale, Culture, Enseignement supérieur et Recherche, Services du Premier ministre). Les fonctions abordées sont classiques : résumés, reformulations, extractions d’informations dans des rapports, traductions, et plus récemment RAG, pour créer des bases documentaires dédiées. L’évaluation a été menée par la DITP (Direction interministérielle de la transformation publique), avec la collaboration (entre autres) de chercheurs venant de LaborIA (Inria), du Laboratoire Fabrique de Pensée Critique (INSA Rennes) et du LISIS (CNRS). Selon le document, 75 % des agents auraient trouvé L’Assistant utile à leur métier.

D’autres points sont abordés, dont la formation. L’État vient ainsi de mettre à disposition un « Guide d’usage de l’IA » pour les agents publics (accès public), invités à le consulter. Il s’agit d’une première étape, le gouvernement précisant que le manque de formation est une remontée fréquente. Plus d’un tiers des agents ont ainsi déclaré n’en avoir jamais bénéficié et 31 % ne pas connaitre le cadre d’usage quand des usages existent.

Le cadre général de formation est cependant encore en construction, même si ce deuxième document promet des avancées rapides, en coopération avec les syndicats concernés. En plus d’un rassemblement de toutes les ressources liées dans un même accès, l’État réitère son ambition de former autant d’agents que possible d’ici 2027, ce qui suppose un démarrage en trombe à la rentrée. Un accent particulier sera mis sur les managers.

Sur le sujet des compétences, il est également question de généraliser l’enseignement de l’IA dans les écoles du service public, à savoir les Instituts régionaux d’administration (IRA) et les futurs Instituts du service public (ISP). En outre, le gouvernement souhaite réinternaliser autant que possible les compétences du numérique d’ici 2027. Le calcul est simple selon le document : « Chaque euro investi dans le recrutement de compétences internes permettra de supprimer durablement 1,5 euro de dépenses de prestations externes, tout en renforçant la maîtrise par l’État de ses compétences les plus critiques ».

IA dans l’administration publique : la France lance les grandes manœuvres

16 juin 2026 à 10:51
Mise au pas
IA dans l’administration publique : la France lance les grandes manœuvres

Le Premier ministre, Sébastien Lecornu, a fait mardi matin une série d’annonces sur l’intelligence artificielle. En ligne de mire, mise à disposition dans les administrations, stratégie nationale et, bien sûr, souveraineté numérique, alimentée par des moyens supplémentaires.

Article mis à jour à 15h23 avec des précisions de Matignon et Palantir au sujet du fait que la DGSI continuera, dans un premier temps, à utiliser la solution logicielle du géant états-unien.


La France passe à l’attaque, selon Sébastien Lecornu. Le Premier ministre, dans une vidéo publiée sur X ce 16 juin à 7h40, liste une série d’actions entreprises au niveau de l’État pour généraliser l’intelligence artificielle partout où elle est décrite comme pertinente. « Car le temps des expérimentations est désormais derrière nous, le temps de la généralisation commence », assène le Premier ministre.

À la veille de l’ouverture du salon VivaTech à Paris, le gouvernement veut montrer qu’il est conscient du changement qui s’opère : « Comme l’électricité hier, comme Internet il y a 30 ans, l’intelligence artificielle va changer notre manière de produire, de soigner, d’apprendre, de nous déplacer, de nous informer, voire même peut-être de penser ». Il y a donc « responsabilité », selon Sébastien Lecornu, de faire profiter de cette révolution aux usagers, que ce soit pour protéger la souveraineté, renforcer les services publics et permettre « à la France de rester une grande nation scientifique, industrielle et technologique ».

Début de généralisation

L’allocution du Premier ministre, au-delà de faire un point rapide de la situation, contenait surtout une série de six annonces pour « changer d’échelle » :

  • La mise à disposition d’un « agent conversationnel souverain commun » pour l’ensemble des agents publics (il s’agit en fait des agents de l’Etat, soit 1,8 million de personnes tout de même, chiffre confirmé par le ministère de l’Economie et des Finances)
  • Les technologies « les plus avancées » développées par le ministère des Armées seront « progressivement ouvertes aux autres administrations », à commencer par les ministères de la Justice et de l’Intérieur, via notamment le portail GenIAI « qui a démontré son efficacité dans des environnements particulièrement exigeants » et qui sera déployé dans toutes les administrations régaliennes
  • Un assistant santé publique déployé dans Ameli d’ici la fin de l’année, pour proposer de premières orientations « fiables », mieux guider les usagers et plus généralement trouver rapidement la bonne réponse
  • Une démocratisation de l’accès aux données publiques, avec le lancement d’une plateforme unique dédiée à l’IA pour accéder à des informations comme les données démographiques, économiques, géographiques et administratives
  • La France investira 665 millions d’euros supplémentaires au développement de l’IA dans le cadre du projet France 2030 pour « soutenir les infrastructures, les capacités de calcul, la recherche, les entreprises et les filières industrielles qui feront la puissance de demain »
  • Un axe sur la souveraineté numérique, avec l’annonce de l’abandon du « géant américain » Palantir au profit de la solution française ChapsVision, « retenue aujourd’hui par la DGSI »

Le calendrier de la dernière annonce ne manquera pas d’interroger puisque le contrat liant la DGSI à Palantir avait été renouvelé en décembre 2025 pour trois ans. « Le choix de ChapsVision est le résultat d’un processus de sélection, qui n’était pas achevé en décembre dernier. Pour ne pas souffrir d’un trou capacitaire dans ce domaine sensible essentiel pour notre sécurité nationale, le contrat a été renouvelé. Cette phase permettra le temps nécessaire de former les équipes et préparer la migration vers la solution de ChapsVision », répond à ce sujet Matignon à Raphaël Grably de BFMTV.

Cherchant à déminer les accusations de « coup de com’ », Matignon précise à BFMTV que le « débranchage » de Palantir par la DGSI sera fait d’ici « 1 à 3 ans selon le moment le plus opportun », et donc potentiellement avant la fin du contrat renouvelé en décembre dernier, qui court jusqu’à fin 2028. Contacté, Palantir assure de son côté à BFMTV que « le contrat de long terme qui lie l’entreprise à la DGSI, et renouvelé fin 2025 pour plusieurs années, demeure pleinement en vigueur ».

Les ministères sont prévenus

Après ces annonces principales, le Premier ministre a ajouté une contrainte pour les ministères, pour préparer notamment le projet de finances 2027. Ainsi, chacun « devra démontrer comment il utilise l’intelligence artificielle pour simplifier les démarches, améliorer le service rendu aux Français et réduire les tâches inutiles, notamment remplies par nos propres agents, et donc faire des économies sans diminuer la qualité du service public rendu à la nation ». Les ministères sont avertis que cette « capacité à se transformer sera désormais prise en compte dans les arbitrages budgétaires », afin de « stimuler cette transformation et mobiliser davantage les ministres et les patrons des grandes entreprises ».

« L’État doit récompenser l’innovation, l’État doit encourager l’efficacité, l’État ne financera plus l’immobilisme, il doit financer désormais sa propre transformation. Car chaque heure gagnée grâce à l’intelligence artificielle est une heure rendue aux Français, chaque procédure simplifiée est une liberté retrouvée, chaque économie réalisée est une ressource supplémentaire pour nos priorités », ajoute le Premier ministre.

Des annonces à surveiller

Bien que ces annonces visent à montrer un gouvernement volontaire dans son approche et conscient des révolutions entraînées par l’intelligence artificielle, une certaine vigilance est de mise. Par exemple, on ne sait pas si les 665 millions d’euros supplémentaires alloués à France 2030 sont une nouvelle somme débloquée ou un simple redéploiement au sein de l’enveloppe générale du projet. Pas de calendrier concret non plus pour le déploiement de l’assistant conversationnel pour les agents publics, contrairement à celui pour Ameli, indiqué pour cette année, donc au cours des six prochains mois.

On ne sait rien non plus de l’entraînement et de l’inférence des modèles qui seront utilisés dans les administrations. Rien n’est dit sur la puissance de calcul et les infrastructures utilisées. Dans ce domaine, comme presque tout le monde, la France est tributaire de grandes entreprises américaines, NVIDIA en tête, même si les serveurs physiques sont en France.

La question d’un assistant performant dans Ameli est en outre intéressante. Le stockage des données de santé par le Health Data Hub chez Microsoft a provoqué bien des remous ces dernières années, avant finalement d’échoir à Scaleway en avril, comme l’a rappelé le Premier ministre. L’accès à ces données est particulièrement sensible et la portée de l’assistant n’a pas été précisée.

Cap sur la formation

On en apprend cependant un peu plus dans un document publié il y a quelques heures par le ministère de l’Économie et des Finances, notamment sur la gestation du projet L’Assistant qui doit équiper tous les agents de la fonction publique.

Le document indique par exemple qu’il a été en test ces dix derniers mois auprès de 10 000 agents provenant de six ministères (Justice, Finances, Éducation nationale, Culture, Enseignement supérieur et Recherche, Services du Premier ministre). Les fonctions abordées sont classiques : résumés, reformulations, extractions d’informations dans des rapports, traductions, et plus récemment RAG, pour créer des bases documentaires dédiées. L’évaluation a été menée par la DITP (Direction interministérielle de la transformation publique), avec la collaboration (entre autres) de chercheurs venant de LaborIA (Inria), du Laboratoire Fabrique de Pensée Critique (INSA Rennes) et du LISIS (CNRS). Selon le document, 75 % des agents auraient trouvé L’Assistant utile à leur métier.

D’autres points sont abordés, dont la formation. L’État vient ainsi de mettre à disposition un « Guide d’usage de l’IA » pour les agents publics (accès public), invités à le consulter. Il s’agit d’une première étape, le gouvernement précisant que le manque de formation est une remontée fréquente. Plus d’un tiers des agents ont ainsi déclaré n’en avoir jamais bénéficié et 31 % ne pas connaitre le cadre d’usage quand des usages existent.

Le cadre général de formation est cependant encore en construction, même si ce deuxième document promet des avancées rapides, en coopération avec les syndicats concernés. En plus d’un rassemblement de toutes les ressources liées dans un même accès, l’État réitère son ambition de former autant d’agents que possible d’ici 2027, ce qui suppose un démarrage en trombe à la rentrée. Un accent particulier sera mis sur les managers.

Sur le sujet des compétences, il est également question de généraliser l’enseignement de l’IA dans les écoles du service public, à savoir les Instituts régionaux d’administration (IRA) et les futurs Instituts du service public (ISP). En outre, le gouvernement souhaite réinternaliser autant que possible les compétences du numérique d’ici 2027. Le calcul est simple selon le document : « Chaque euro investi dans le recrutement de compétences internes permettra de supprimer durablement 1,5 euro de dépenses de prestations externes, tout en renforçant la maîtrise par l’État de ses compétences les plus critiques ».

Meta devra répondre aux accusations d’entraînement d’IA avec du porno piraté

16 juin 2026 à 06:08
Mets de l'huile
Meta devra répondre aux accusations d’entraînement d’IA avec du porno piraté

L’IA de Meta a-t-elle en partie été entraînée sur du contenu pornographique téléchargé illégalement ? C’est l’objet d’une plainte déposée l’an dernier par deux sociétés de production et de distribution de films porno. La procédure suit son cours, et Meta a perdu une bataille, mais pas la guerre.

Strike 3 Holdings et Counterlife Media, deux entreprises états-uniennes spécialisées dans la production et la distribution de films porno, ont porté plainte contre Meta durant l’été 2025. Elles accusent le géant des réseaux sociaux d’avoir téléchargé 2 396 films en passant par le protocole BitTorrent. Ces contenus auraient servi à entraîner Llama, son précédent grand modèle de langage (Meta a changé son fusil d’épaule depuis, avec Muse Spark).

L’ombre de LibGen

L’affaire suit son cours devant la justice, et la juge Eumi K. Lee en charge du dossier a rendu une ordonnance ce 11 juin, rapporte TorrentFreak. Elle refuse de rejeter la plainte, estimant que les éléments présentés par les plaignants sont suffisants pour poursuivre la procédure. La juge ne dit pas que Meta est coupable, simplement que les allégations des producteurs sont suffisamment crédibles pour justifier une phase d’enquête plus poussée.

L’ordonnance [PDF] établit aussi que les plaignants n’ont pas besoin de prouver l’entraînement de l’IA. C’est un élément important, car Meta soutenait que les producteurs devaient démontrer que leurs films avaient effectivement servi à l’entraînement de Llama. Pour cette plainte précise, ce n’est pas nécessaire : si Meta a téléchargé et distribué les films via BitTorrent sans autorisation, alors l’infraction au copyright est déjà constituée. Peu importe ensuite que les vidéos aient ou non servi à entraîner un modèle.

Pour se défendre, Meta s’est aussi inspirée d’un argument classique dans les affaires liées à BitTorrent : l’adresse IP ne prouve pas qui a téléchargé les fichiers. Des employés, des sous-traitants ou même des visiteurs auraient pu avoir récupéré ces contenus pour leur usage personnel.

La procédure peut se poursuivre

Les éléments à charge présentés par Strike 3 – qui a la réputation d’un « troll des droits d’auteur » avec des milliers de poursuites à son actif – ont toutefois permis à la juge de déterminer qu’il s’agissait davantage d’un système coordonné et automatisé qui cherchait des contenus à partir de mots-clés qu’à des téléchargements effectués indépendamment par plusieurs personnes.

Enfin, Meta a déjà reconnu s’être servi de BitTorrent pour récupérer des bases de données clandestines (la bibliothèque LibGen) afin d’entraîner ses modèles Llama. La juge ne dit pas que les deux affaires sont identiques, mais à la lumière du dossier LibGen, les accusations des deux plaignants sont plausibles.

Meta, comme bien d’autres acteurs du secteur, a parfois pioché sans trop de vergogne dans tous les contenus accessibles en ligne pour entraîner ses modèles IA, sans le consentement de leurs auteurs.

L’affaire est donc loin d’être terminée. Meta devrait maintenant essayer de montrer que les téléchargements n’étaient pas liés à ses projets d’IA, tandis que les producteurs vont tenter d’établir un lien direct entre les téléchargements BitTorrent et les systèmes permettant l’entraînement des modèles IA de Meta.

Meta devra répondre aux accusations d’entraînement d’IA avec du porno piraté

16 juin 2026 à 06:08
Mets de l'huile
Meta devra répondre aux accusations d’entraînement d’IA avec du porno piraté

L’IA de Meta a-t-elle en partie été entraînée sur du contenu pornographique téléchargé illégalement ? C’est l’objet d’une plainte déposée l’an dernier par deux sociétés de production et de distribution de films porno. La procédure suit son cours, et Meta a perdu une bataille, mais pas la guerre.

Strike 3 Holdings et Counterlife Media, deux entreprises états-uniennes spécialisées dans la production et la distribution de films porno, ont porté plainte contre Meta durant l’été 2025. Elles accusent le géant des réseaux sociaux d’avoir téléchargé 2 396 films en passant par le protocole BitTorrent. Ces contenus auraient servi à entraîner Llama, son précédent grand modèle de langage (Meta a changé son fusil d’épaule depuis, avec Muse Spark).

L’ombre de LibGen

L’affaire suit son cours devant la justice, et la juge Eumi K. Lee en charge du dossier a rendu une ordonnance ce 11 juin, rapporte TorrentFreak. Elle refuse de rejeter la plainte, estimant que les éléments présentés par les plaignants sont suffisants pour poursuivre la procédure. La juge ne dit pas que Meta est coupable, simplement que les allégations des producteurs sont suffisamment crédibles pour justifier une phase d’enquête plus poussée.

L’ordonnance [PDF] établit aussi que les plaignants n’ont pas besoin de prouver l’entraînement de l’IA. C’est un élément important, car Meta soutenait que les producteurs devaient démontrer que leurs films avaient effectivement servi à l’entraînement de Llama. Pour cette plainte précise, ce n’est pas nécessaire : si Meta a téléchargé et distribué les films via BitTorrent sans autorisation, alors l’infraction au copyright est déjà constituée. Peu importe ensuite que les vidéos aient ou non servi à entraîner un modèle.

Pour se défendre, Meta s’est aussi inspirée d’un argument classique dans les affaires liées à BitTorrent : l’adresse IP ne prouve pas qui a téléchargé les fichiers. Des employés, des sous-traitants ou même des visiteurs auraient pu avoir récupéré ces contenus pour leur usage personnel.

La procédure peut se poursuivre

Les éléments à charge présentés par Strike 3 – qui a la réputation d’un « troll des droits d’auteur » avec des milliers de poursuites à son actif – ont toutefois permis à la juge de déterminer qu’il s’agissait davantage d’un système coordonné et automatisé qui cherchait des contenus à partir de mots-clés qu’à des téléchargements effectués indépendamment par plusieurs personnes.

Enfin, Meta a déjà reconnu s’être servi de BitTorrent pour récupérer des bases de données clandestines (la bibliothèque LibGen) afin d’entraîner ses modèles Llama. La juge ne dit pas que les deux affaires sont identiques, mais à la lumière du dossier LibGen, les accusations des deux plaignants sont plausibles.

Meta, comme bien d’autres acteurs du secteur, a parfois pioché sans trop de vergogne dans tous les contenus accessibles en ligne pour entraîner ses modèles IA, sans le consentement de leurs auteurs.

L’affaire est donc loin d’être terminée. Meta devrait maintenant essayer de montrer que les téléchargements n’étaient pas liés à ses projets d’IA, tandis que les producteurs vont tenter d’établir un lien direct entre les téléchargements BitTorrent et les systèmes permettant l’entraînement des modèles IA de Meta.

❌