Vue lecture

Google autorise les sites web à refuser explicitement les résumés IA

Merci, mais non merci
Google autorise les sites web à refuser explicitement les résumés IA

Depuis un peu plus de deux ans, Google affiche ses AI Overviews tout en haut d’une recherche web, autrement dit un résumé des résultats généré par IA. Ils ne tombent pas du ciel : les informations qu’ils contiennent proviennent de sites web qui vont finalement avoir la possibilité explicite d’exclure leurs contenus du moissonnage effectué par le moteur de recherche. Trop peu, trop tard ?

Les AI Overviews, visibles aux États-Unis depuis leur lancement en mai 2024, sont maintenant présents dans une centaine de pays (la France est toujours exclue). Ces résumés ont été complétés un an plus tard par l’AI Mode, qui tente de concurrencer directement les moteurs de recherche IA comme Perplexity ou ChatGPT.

Google demande enfin la permission d’aspirer le web

Durant la dernière édition de la Google I/O, le géant américain en a remis une couche avec une avalanche de nouveautés IA pour son moteur de recherche – offrant au passage au mode « No AI » de DuckDuckGo un joli coup de pouce. Aussi incroyable que cela puisse paraitre, il existe des internautes qui apprécient peu le forcing IA de Google. C’est le cas aussi pour plusieurs éditeurs de sites web, qui refusent obstinément que leurs contenus soient collectés sans autorisation ni rémunération pour se transformer en données d’entraînement.

Exemple d’AI Overview.

Il existe des mécanismes qui empêchent les robots de scraping de moissonner les contenus du web ouvert. Le fichier robots.txt est le plus commun, il permet à un site de refuser l’accès à certaines de ses pages pour l’indexation web et la collecte IA. Voilà pour la théorie, mais en pratique rien n’empêche un bot mal élevé d’ignorer ces consignes et de parcourir l’intégralité d’un site. Perplexity est régulièrement pointé du doigt à ce sujet.

Google a commencé à déployer un nouvel outil qui va permettre aux éditeurs web de décider, depuis la Search Console, si leurs sites peuvent apparaitre dans les résumés générés par IA. C’est un changement de taille, le groupe ayant plutôt cherché à flouter la frontière entre l’indexation et le scraping. Il promet la main sur le cœur que cela n’aura aucun impact sur l’indexation traditionnelle. En activant ce bouton depuis la console de recherche, un site ne recevra « ni trafic ni impressions provenant de nos fonctionnalités d’IA générative », martèle Google. Est-ce pour autant un drame ?

Google affirme régulièrement que les résumés IA dans les résultats de recherche ne font pas diminuer le trafic des sites d’où les informations sont extraites. Une étude du Pew Research Center, publiée en juillet dernier, affirmait le contraire. L’entreprise s’était d’ailleurs pris les pieds dans le tapis en évoquant un web ouvert en « déclin rapide » en raison du marché publicitaire chamboulé par l’IA.

La mise en place de ce bouton n’a rien d’un geste désintéressé ou d’une branche d’olivier lancé aux éditeurs, car sinon pourquoi avoir attendu deux ans ? C’est simplement le résultat d’une obligation réglementaire imposée par la CMA, l’autorité de la concurrence britannique. « Pour la première fois au monde, les éditeurs disposeront d’outils leur permettant d’empêcher l’utilisation de leurs contenus par les fonctionnalités d’IA de la recherche Google », se réjouit le régulateur.

Ce dernier ajoute que les éditeurs seront ainsi « mieux armés pour négocier des accords de licence avec Google, notamment dans le secteur de la presse ». L’intention est louable, mais rien n’empêchera Google d’utiliser les contenus provenant d’autres sites web plus conciliants pour générer ses résumés IA.

  •  

Google autorise les sites web à refuser explicitement les résumés IA

Merci, mais non merci
Google autorise les sites web à refuser explicitement les résumés IA

Depuis un peu plus de deux ans, Google affiche ses AI Overviews tout en haut d’une recherche web, autrement dit un résumé des résultats généré par IA. Ils ne tombent pas du ciel : les informations qu’ils contiennent proviennent de sites web qui vont finalement avoir la possibilité explicite d’exclure leurs contenus du moissonnage effectué par le moteur de recherche. Trop peu, trop tard ?

Les AI Overviews, visibles aux États-Unis depuis leur lancement en mai 2024, sont maintenant présents dans une centaine de pays (la France est toujours exclue). Ces résumés ont été complétés un an plus tard par l’AI Mode, qui tente de concurrencer directement les moteurs de recherche IA comme Perplexity ou ChatGPT.

Google demande enfin la permission d’aspirer le web

Durant la dernière édition de la Google I/O, le géant américain en a remis une couche avec une avalanche de nouveautés IA pour son moteur de recherche – offrant au passage au mode « No AI » de DuckDuckGo un joli coup de pouce. Aussi incroyable que cela puisse paraitre, il existe des internautes qui apprécient peu le forcing IA de Google. C’est le cas aussi pour plusieurs éditeurs de sites web, qui refusent obstinément que leurs contenus soient collectés sans autorisation ni rémunération pour se transformer en données d’entraînement.

Exemple d’AI Overview.

Il existe des mécanismes qui empêchent les robots de scraping de moissonner les contenus du web ouvert. Le fichier robots.txt est le plus commun, il permet à un site de refuser l’accès à certaines de ses pages pour l’indexation web et la collecte IA. Voilà pour la théorie, mais en pratique rien n’empêche un bot mal élevé d’ignorer ces consignes et de parcourir l’intégralité d’un site. Perplexity est régulièrement pointé du doigt à ce sujet.

Google a commencé à déployer un nouvel outil qui va permettre aux éditeurs web de décider, depuis la Search Console, si leurs sites peuvent apparaitre dans les résumés générés par IA. C’est un changement de taille, le groupe ayant plutôt cherché à flouter la frontière entre l’indexation et le scraping. Il promet la main sur le cœur que cela n’aura aucun impact sur l’indexation traditionnelle. En activant ce bouton depuis la console de recherche, un site ne recevra « ni trafic ni impressions provenant de nos fonctionnalités d’IA générative », martèle Google. Est-ce pour autant un drame ?

Google affirme régulièrement que les résumés IA dans les résultats de recherche ne font pas diminuer le trafic des sites d’où les informations sont extraites. Une étude du Pew Research Center, publiée en juillet dernier, affirmait le contraire. L’entreprise s’était d’ailleurs pris les pieds dans le tapis en évoquant un web ouvert en « déclin rapide » en raison du marché publicitaire chamboulé par l’IA.

La mise en place de ce bouton n’a rien d’un geste désintéressé ou d’une branche d’olivier lancé aux éditeurs, car sinon pourquoi avoir attendu deux ans ? C’est simplement le résultat d’une obligation réglementaire imposée par la CMA, l’autorité de la concurrence britannique. « Pour la première fois au monde, les éditeurs disposeront d’outils leur permettant d’empêcher l’utilisation de leurs contenus par les fonctionnalités d’IA de la recherche Google », se réjouit le régulateur.

Ce dernier ajoute que les éditeurs seront ainsi « mieux armés pour négocier des accords de licence avec Google, notamment dans le secteur de la presse ». L’intention est louable, mais rien n’empêchera Google d’utiliser les contenus provenant d’autres sites web plus conciliants pour générer ses résumés IA.

  •  

Microsoft a désormais son propre modèle de raisonnement

Vieux motard
Microsoft a désormais son propre modèle de raisonnement

Durant sa conférence BUILD, Microsoft a présenté une nouvelle série de modèles MAI. L’entreprise se dote pour la première fois d’un modèle de raisonnement, présenté comme idéal par sa taille moyenne et son coût maitrisé.

Cela peut paraître étonnant, mais Microsoft – qui a investi plusieurs milliards de dollars très tôt dans OpenAI – ne disposait d’aucun modèle de raisonnement. Jusqu’à présent, l’entreprise s’était surtout positionnée comme championne des relais pour d’autres modèles, laissant par exemple un accès à ChatGPT et plus récemment Claude via sa myriade d’assistants Copilot.

La situation a cependant changé : Anthropic a largement grimpé en puissance, tout particulièrement dans le développement, tandis qu’OpenAI suit sa propre trajectoire et se montre beaucoup plus autonome. La firme de Redmond a tout intérêt à manifester sa propre indépendance, avec à la clé une gamme plus complète de modèles.

Place à MAI-Thinking-1

La famille MAI (Microsoft AI) accueille plusieurs nouveaux venus présentés pendant la conférence BUILD, dont MAI-Thinking-1 présenté hier. Comme son nom l’indique, il s’agit d’un modèle de raisonnement de taille intermédiaire, de type MoE (Mixture of Experts), avec 35 milliards de paramètres actifs et une fenêtre de contexte de 256 000 tokens, soit l’équivalent d’un document de 600 pages selon Microsoft.

L’entreprise met clairement en avant un entrainement du modèle depuis zéro : aucune distillation et à partir de données commercialement licenciées et « propres ». MAI-Thinking-1 n’est donc pas censé s’appuyer sur les traces de raisonnement d’autres modèles, particulièrement concurrents. Il s’agit d’une construction indépendante.

Le modèle atteint 97 % sur AIME 2025 et 94,5 % sur AIME 2026, deux benchmarks évaluant le raisonnement mathématique et scientifique multi-étapes. Sur SWE-Bench Pro, benchmark d’ingénierie logicielle, Microsoft affirme qu’il égale Claude Opus 4.6 sur les tâches de codage. Dans des évaluations indépendantes en aveugle menées par Surge (partenaire indépendant de Microsoft), MAI-Thinking-1 a été préféré à Claude Sonnet 4.6. Ce dernier, le modèle par défaut pour Claude, est largement utilisé comme point de comparaison dans les chiffres donnés par Microsoft.

CNBC rapporte qu’une démonstration a présenté des résultats supérieurs à ceux de GPT-5.5 d’OpenAI avec un modèle ajusté sur les données de McKinsey, avec un coût annoncé comme dix fois inférieur. Il faut pour l’instant croire l’éditeur sur parole, car le modèle n’est disponible qu’en préversion privée via Microsoft Foundry. Sur la partie raisonnement, les tokens seront tarifés à la consommation, là encore sans plus de détails. Le modèle est également inclus dans GitHub Copilot Enterprise et une version pour les enclaves Azure Confidential Computing est prévue.

Six autres « nouveaux » modèles dans la famille MAI

Bien que MAI-Thinking-1 ait eu la part du lion pendant la présentation, la famille MAI a également reçu six autres modèles, en majorité des évolutions de ceux existant déjà.

MAI-Image-2.5 et MAI-Image-2.5 Flash débarquent ainsi pour la génération d’images. Microsoft évoque une hausse significative de la qualité, avec de meilleurs résultats que Nano Banana 2, avec une édition et des contrôles précis. La version classique vise la fidélité maximale et des performances « de qualité professionnelle », tandis que la version Flash – sans surprise – sacrifie une partie de cette qualité pour une plus grande rapidité des résultats. MAI-Image-2.5 est en cours de déploiement dans PowerPoint et OneDrive. Côté tarifs, MAI-Image-2.5 coûte 5 dollars par million de tokens pour les entrées texte, 8 dollars pour les entrées image et 47 dollars pour les sorties image. Pour la version Flash, les tarifs sont de 1,75 dollar pour les entrées texte et image, et de 33 dollars pour les sorties image.

MAI-Transcribe-1.5 est présenté de son côté comme le meilleur modèle de transcription au monde (tout simplement), avec une précision de pointe dans 43 langues, surpassant Gemini et les modèles phares d’OpenAI. Il est censé produire des transcriptions cinq fois plus rapidement que les modèles concurrents, et sera disponible dans GitHub Copilot, Dynamics 365 Contact Center et Foundry, avec un support prochain du streaming. Côté développeurs, il est accessible via Azure Speech au prix de 22 dollars le million de caractères.

Pour les autres modèles, il s’agit surtout de disponibilité. MAI-Voice-2 et sa variante Flash sont ainsi disponibles dans une quinzaine de langues supplémentaires avec de nouvelles options de voix. MAI-Code-1, modèle de codage présenté comme très efficace en inférence et optimisé pour GitHub, est disponible dans Copilot et Visual Studio Code. Son déploiement dans Copilot (tous niveaux) a commencé mardi 2 juin.

Aion, des modèles conçus pour l’exécution locale

Bien que moins mis en avant, deux nouveaux modèles nommés Aion ont aussi été présentés pour l’exécution locale.

Le premier, Aion Instruct, doit prendre le relai de l’actuel Windows OS SLM. Il se veut plus petit (4 milliards de paramètres), plus rapide et surtout plus efficace. Il doit alimenter tout ce qui touche à l’intelligence textuelle quotidienne, c’est-à-dire les résumés, la réécriture, la détection d’intention ou encore l’accessibilité.

Disponible dès maintenant dans le canal Insider d’Edge à des fins de tests pour les développeurs, il sera également accessible depuis les API de Windows. Contrairement aux modèles fournis jusqu’ici par Microsoft dans ce cas de figure, aucun NPU n’est requis : Aion Instruct est fait pour fonctionner partout, sur CPU. Enfin, une version open source doit arriver courant juillet sur Hugging Face.

Aion Plan est à la fois plus ambitieux et plus restreint. Disposant de 14 milliards de paramètres et d’une fenêtre de contexte de 32 000 tokens, de capacités de raisonnement et pouvant appeler des outils (tool-calling), il se veut le champion du flux agentique local. En revanche, il ne sera pas disponible avant plusieurs mois, et la présence d’un NPU semble cette fois requise.

Dans les deux cas, les modèles sont gratuits à l’usage, les opérations étant réalisées par la machine.

  •  

Microsoft a désormais son propre modèle de raisonnement

Vieux motard
Microsoft a désormais son propre modèle de raisonnement

Durant sa conférence BUILD, Microsoft a présenté une nouvelle série de modèles MAI. L’entreprise se dote pour la première fois d’un modèle de raisonnement, présenté comme idéal par sa taille moyenne et son coût maitrisé.

Cela peut paraître étonnant, mais Microsoft – qui a investi plusieurs milliards de dollars très tôt dans OpenAI – ne disposait d’aucun modèle de raisonnement. Jusqu’à présent, l’entreprise s’était surtout positionnée comme championne des relais pour d’autres modèles, laissant par exemple un accès à ChatGPT et plus récemment Claude via sa myriade d’assistants Copilot.

La situation a cependant changé : Anthropic a largement grimpé en puissance, tout particulièrement dans le développement, tandis qu’OpenAI suit sa propre trajectoire et se montre beaucoup plus autonome. La firme de Redmond a tout intérêt à manifester sa propre indépendance, avec à la clé une gamme plus complète de modèles.

Place à MAI-Thinking-1

La famille MAI (Microsoft AI) accueille plusieurs nouveaux venus présentés pendant la conférence BUILD, dont MAI-Thinking-1 présenté hier. Comme son nom l’indique, il s’agit d’un modèle de raisonnement de taille intermédiaire, de type MoE (Mixture of Experts), avec 35 milliards de paramètres actifs et une fenêtre de contexte de 256 000 tokens, soit l’équivalent d’un document de 600 pages selon Microsoft.

L’entreprise met clairement en avant un entrainement du modèle depuis zéro : aucune distillation et à partir de données commercialement licenciées et « propres ». MAI-Thinking-1 n’est donc pas censé s’appuyer sur les traces de raisonnement d’autres modèles, particulièrement concurrents. Il s’agit d’une construction indépendante.

Le modèle atteint 97 % sur AIME 2025 et 94,5 % sur AIME 2026, deux benchmarks évaluant le raisonnement mathématique et scientifique multi-étapes. Sur SWE-Bench Pro, benchmark d’ingénierie logicielle, Microsoft affirme qu’il égale Claude Opus 4.6 sur les tâches de codage. Dans des évaluations indépendantes en aveugle menées par Surge (partenaire indépendant de Microsoft), MAI-Thinking-1 a été préféré à Claude Sonnet 4.6. Ce dernier, le modèle par défaut pour Claude, est largement utilisé comme point de comparaison dans les chiffres donnés par Microsoft.

CNBC rapporte qu’une démonstration a présenté des résultats supérieurs à ceux de GPT-5.5 d’OpenAI avec un modèle ajusté sur les données de McKinsey, avec un coût annoncé comme dix fois inférieur. Il faut pour l’instant croire l’éditeur sur parole, car le modèle n’est disponible qu’en préversion privée via Microsoft Foundry. Sur la partie raisonnement, les tokens seront tarifés à la consommation, là encore sans plus de détails. Le modèle est également inclus dans GitHub Copilot Enterprise et une version pour les enclaves Azure Confidential Computing est prévue.

Six autres « nouveaux » modèles dans la famille MAI

Bien que MAI-Thinking-1 ait eu la part du lion pendant la présentation, la famille MAI a également reçu six autres modèles, en majorité des évolutions de ceux existant déjà.

MAI-Image-2.5 et MAI-Image-2.5 Flash débarquent ainsi pour la génération d’images. Microsoft évoque une hausse significative de la qualité, avec de meilleurs résultats que Nano Banana 2, avec une édition et des contrôles précis. La version classique vise la fidélité maximale et des performances « de qualité professionnelle », tandis que la version Flash – sans surprise – sacrifie une partie de cette qualité pour une plus grande rapidité des résultats. MAI-Image-2.5 est en cours de déploiement dans PowerPoint et OneDrive. Côté tarifs, MAI-Image-2.5 coûte 5 dollars par million de tokens pour les entrées texte, 8 dollars pour les entrées image et 47 dollars pour les sorties image. Pour la version Flash, les tarifs sont de 1,75 dollar pour les entrées texte et image, et de 33 dollars pour les sorties image.

MAI-Transcribe-1.5 est présenté de son côté comme le meilleur modèle de transcription au monde (tout simplement), avec une précision de pointe dans 43 langues, surpassant Gemini et les modèles phares d’OpenAI. Il est censé produire des transcriptions cinq fois plus rapidement que les modèles concurrents, et sera disponible dans GitHub Copilot, Dynamics 365 Contact Center et Foundry, avec un support prochain du streaming. Côté développeurs, il est accessible via Azure Speech au prix de 22 dollars le million de caractères.

Pour les autres modèles, il s’agit surtout de disponibilité. MAI-Voice-2 et sa variante Flash sont ainsi disponibles dans une quinzaine de langues supplémentaires avec de nouvelles options de voix. MAI-Code-1, modèle de codage présenté comme très efficace en inférence et optimisé pour GitHub, est disponible dans Copilot et Visual Studio Code. Son déploiement dans Copilot (tous niveaux) a commencé mardi 2 juin.

Aion, des modèles conçus pour l’exécution locale

Bien que moins mis en avant, deux nouveaux modèles nommés Aion ont aussi été présentés pour l’exécution locale.

Le premier, Aion Instruct, doit prendre le relai de l’actuel Windows OS SLM. Il se veut plus petit (4 milliards de paramètres), plus rapide et surtout plus efficace. Il doit alimenter tout ce qui touche à l’intelligence textuelle quotidienne, c’est-à-dire les résumés, la réécriture, la détection d’intention ou encore l’accessibilité.

Disponible dès maintenant dans le canal Insider d’Edge à des fins de tests pour les développeurs, il sera également accessible depuis les API de Windows. Contrairement aux modèles fournis jusqu’ici par Microsoft dans ce cas de figure, aucun NPU n’est requis : Aion Instruct est fait pour fonctionner partout, sur CPU. Enfin, une version open source doit arriver courant juillet sur Hugging Face.

Aion Plan est à la fois plus ambitieux et plus restreint. Disposant de 14 milliards de paramètres et d’une fenêtre de contexte de 32 000 tokens, de capacités de raisonnement et pouvant appeler des outils (tool-calling), il se veut le champion du flux agentique local. En revanche, il ne sera pas disponible avant plusieurs mois, et la présence d’un NPU semble cette fois requise.

Dans les deux cas, les modèles sont gratuits à l’usage, les opérations étant réalisées par la machine.

  •  

Le décret présidentiel sur l’IA de Donald Trump a été édulcoré

L'industrie IA garde les clés
Le décret présidentiel sur l’IA de Donald Trump a été édulcoré

Donald Trump a finalement signé l’executive order sur l’intelligence artificielle. Le président américain devait apposer son paraphe sur une précédente version du texte, plus contraignante, il y a deux semaines. Mais au dernier moment, l’industrie a réclamé et obtenu des changements importants dans la mouture finale.

Ce n’est pas une bulle du pape, mais pas loin. Dans l’executive order (EO) signé ce mardi 2 juin, Donald Trump rappelle les mesures déjà mises en œuvre depuis le début de son second mandat, dont « [la suppression des] contraintes bureaucratiques que l’administration précédente avait imposées aux développeurs et aux chercheurs américains ». Surtout, l’EO liste une série de mécanismes visant à amplifier le mouvement pour « promouvoir l’innovation et la sécurité de l’IA ».

Report de dernière minute

Mais voilà, ce décret présidentiel aurait déjà dû être paraphé le 21 mai, et tout semblait prêt pour que ce soit le cas. Mais David Sacks, l’ancien « tsar » de l’IA nommé par Donald Trump, a arraché un délai de dernière minute, comme l’explique Politico.

L’ancien EO mettait en place un mécanisme volontaire de supervision pour les entreprises IA : certains modèles avancés auraient pu être soumis à un examen par plusieurs agences fédérales jusqu’à 90 jours avant leur publication. L’administration Trump avait un temps imaginé d’imposer ce dispositif aux entreprises, avant de revenir à une position moins tranchée. La perspective n’en inquiétait pas moins une partie de l’industrie, qui voyait dans ce mécanisme les prémices d’un contrôle gouvernemental plus poussé sur les modèles les plus puissants.

La mesure a notamment été imaginée suite aux craintes d’un modèle comme Mythos sur ses capacités d’attaque envers les infrastructures critiques. David Sacks, porte-voix de l’industrie en sa qualité d’associé fondateur du fonds de capital-risque Craft Ventures, aurait expliqué à Trump que les entreprises n’avaient pas besoin d’une mesure coercitive : elles coopèrent déjà volontairement. Autre argument : un examen des modèles par le gouvernement ralentirait la marche de l’IA, ce qui nuirait aux États-Unis dans sa course contre la Chine.

La signature a donc été reportée et avec elle, une bonne partie du (faible) mordant initial du décret présidentiel. La mouture finale renforce l’idée que le gouvernement fédéral n’impose pas de licence obligatoire, pas d’autorisation avant lancement, pas de « permis » pour publier un modèle. Un cadre est mis en place pour les développeurs volontaires, dans lequel ils peuvent fournir un accès anticipé à leurs modèles 30 jours maximum avant leur mise à disposition.

Le texte ordonne la création, sous les 30 jours, d’un centre de coordination de la cybersécurité liée à l’IA, en collaboration — là aussi volontaire — avec des entreprises du secteur et les opérateurs des infrastructures critiques. Il regroupera plusieurs activités aujourd’hui dispersées entre plusieurs agences du gouvernement pour détecter des vulnérabilités logicielles, mesurer les niveaux de risque de ces failles, coordonner la réponse et la diffusion des correctifs. Il s’agit d’éviter que chacun, dans le privé comme dans le public, fasse sa tambouille dans son coin. C’est louable, mais le caractère non contraignant de ce centre risque d’en diluer la force de frappe.

Un coup pour rien ?

Le décret demande également à plusieurs agences, dont la NSA et le Trésor, de mettre au point dans les 60 jours un processus d’évaluation pour déterminer les modèles IA considérés comme suffisamment puissants pour présenter un risque particulier. Les critères de ce processus resteront secrets, pour éviter que des acteurs malveillants ne connaissent les capacités qui intéressent les autorités.

L’EO ne le précise pas, mais les agences pourraient par exemple mesurer la capacité d’un modèle à découvrir des vulnérabilités zero-day, à écrire du code malveillant, à automatiser des campagnes de piratage, ou à contourner des systèmes de sécurité. Le dernier mot reviendra à la NSA, l’agence du renseignement états-unien. Le NIST, souvent considéré comme plus neutre et technique, est écarté de la décision finale.

L’EO exige aussi du ministère de la Justice de poursuivre les personnes utilisant l’IA pour pirater des systèmes, voler des données ou commettre des infractions informatiques. Si l’architecture générale entre les deux versions du texte est similaire, la version finale adoucit fortement les aspects les plus contraignants pour l’industrie, en insistant notamment sur le caractère volontaire de certaines mesures. Et surtout, elle exclut tout système de licence ou d’autorisation préalable.

  •  

Le décret présidentiel sur l’IA de Donald Trump a été édulcoré

L'industrie IA garde les clés
Le décret présidentiel sur l’IA de Donald Trump a été édulcoré

Donald Trump a finalement signé l’executive order sur l’intelligence artificielle. Le président américain devait apposer son paraphe sur une précédente version du texte, plus contraignante, il y a deux semaines. Mais au dernier moment, l’industrie a réclamé et obtenu des changements importants dans la mouture finale.

Ce n’est pas une bulle du pape, mais pas loin. Dans l’executive order (EO) signé ce mardi 2 juin, Donald Trump rappelle les mesures déjà mises en œuvre depuis le début de son second mandat, dont « [la suppression des] contraintes bureaucratiques que l’administration précédente avait imposées aux développeurs et aux chercheurs américains ». Surtout, l’EO liste une série de mécanismes visant à amplifier le mouvement pour « promouvoir l’innovation et la sécurité de l’IA ».

Report de dernière minute

Mais voilà, ce décret présidentiel aurait déjà dû être paraphé le 21 mai, et tout semblait prêt pour que ce soit le cas. Mais David Sacks, l’ancien « tsar » de l’IA nommé par Donald Trump, a arraché un délai de dernière minute, comme l’explique Politico.

L’ancien EO mettait en place un mécanisme volontaire de supervision pour les entreprises IA : certains modèles avancés auraient pu être soumis à un examen par plusieurs agences fédérales jusqu’à 90 jours avant leur publication. L’administration Trump avait un temps imaginé d’imposer ce dispositif aux entreprises, avant de revenir à une position moins tranchée. La perspective n’en inquiétait pas moins une partie de l’industrie, qui voyait dans ce mécanisme les prémices d’un contrôle gouvernemental plus poussé sur les modèles les plus puissants.

La mesure a notamment été imaginée suite aux craintes d’un modèle comme Mythos sur ses capacités d’attaque envers les infrastructures critiques. David Sacks, porte-voix de l’industrie en sa qualité d’associé fondateur du fonds de capital-risque Craft Ventures, aurait expliqué à Trump que les entreprises n’avaient pas besoin d’une mesure coercitive : elles coopèrent déjà volontairement. Autre argument : un examen des modèles par le gouvernement ralentirait la marche de l’IA, ce qui nuirait aux États-Unis dans sa course contre la Chine.

La signature a donc été reportée et avec elle, une bonne partie du (faible) mordant initial du décret présidentiel. La mouture finale renforce l’idée que le gouvernement fédéral n’impose pas de licence obligatoire, pas d’autorisation avant lancement, pas de « permis » pour publier un modèle. Un cadre est mis en place pour les développeurs volontaires, dans lequel ils peuvent fournir un accès anticipé à leurs modèles 30 jours maximum avant leur mise à disposition.

Le texte ordonne la création, sous les 30 jours, d’un centre de coordination de la cybersécurité liée à l’IA, en collaboration — là aussi volontaire — avec des entreprises du secteur et les opérateurs des infrastructures critiques. Il regroupera plusieurs activités aujourd’hui dispersées entre plusieurs agences du gouvernement pour détecter des vulnérabilités logicielles, mesurer les niveaux de risque de ces failles, coordonner la réponse et la diffusion des correctifs. Il s’agit d’éviter que chacun, dans le privé comme dans le public, fasse sa tambouille dans son coin. C’est louable, mais le caractère non contraignant de ce centre risque d’en diluer la force de frappe.

Un coup pour rien ?

Le décret demande également à plusieurs agences, dont la NSA et le Trésor, de mettre au point dans les 60 jours un processus d’évaluation pour déterminer les modèles IA considérés comme suffisamment puissants pour présenter un risque particulier. Les critères de ce processus resteront secrets, pour éviter que des acteurs malveillants ne connaissent les capacités qui intéressent les autorités.

L’EO ne le précise pas, mais les agences pourraient par exemple mesurer la capacité d’un modèle à découvrir des vulnérabilités zero-day, à écrire du code malveillant, à automatiser des campagnes de piratage, ou à contourner des systèmes de sécurité. Le dernier mot reviendra à la NSA, l’agence du renseignement états-unien. Le NIST, souvent considéré comme plus neutre et technique, est écarté de la décision finale.

L’EO exige aussi du ministère de la Justice de poursuivre les personnes utilisant l’IA pour pirater des systèmes, voler des données ou commettre des infractions informatiques. Si l’architecture générale entre les deux versions du texte est similaire, la version finale adoucit fortement les aspects les plus contraignants pour l’industrie, en insistant notamment sur le caractère volontaire de certaines mesures. Et surtout, elle exclut tout système de licence ou d’autorisation préalable.

  •  

Pour contrer le scraping des IA, Strava verrouille les accès à son API

Un abonnement pour accéder aux précieuses données de Strava
Pour contrer le scraping des IA, Strava verrouille les accès à son API

Strava fait la police au sein de son écosystème. La plateforme de suivi de sports d’endurance, qui fait aussi office de réseau social pour sportifs, serre la vis de l’accès à ses API pour reprendre le contrôle de ses données et de son infrastructure.

Les robots d’IA qui moissonnent internet à la recherche de données d’entraînement pour leurs modèles ont cette fâcheuse tendance à ignorer les règles habituelles du web, à l’instar du fichier robots.txt censé leur indiquer les pages qu’ils peuvent consulter, et celles qui leur sont interdites. Les labos IA sont régulièrement accusés de n’en faire qu’à leur tête et de siphonner les contenus sans respect des règles de base, à l’image de Perplexity.

Payer pour un accès

Strava, qui fournit un grand volume de données aux développeurs via une API, fait partie des fournisseurs de contenus touchés par ces pratiques agressives. Les acteurs de l’IA « détournent » l’interface de programmation du service, accuse l’entreprise, tandis que les outils de vibe-coding « génèrent des applications qui sollicitent massivement l’API ». Au détriment des usages standards des développeurs (Strava en dénombre désormais 241 000, contre 185 000 l’an dernier).

« Les candidatures à notre programme développeur ont augmenté de 448 % depuis le début de l’année, certains intermédiaires API ont enfreint nos conditions d’utilisation, et les tentatives de scraping ont dégradé les performances de la plateforme pour l’ensemble des utilisateurs. Les abus répétés que nous avons identifiés nous ont conduits à suspendre et à revoir notre processus d’évaluation des candidatures. »

Face à cette mutation du paysage technologique, Strava s’estime forcé à appliquer des changements dans son programme développeur. Jusqu’à présent, certaines informations étaient visibles sans compte développeur : les profils publics, certaines données de clubs sportifs et communautaires. Il faudra désormais une authentification. Par ailleurs, l’accès à l’API via la formule Standard nécessite désormais la souscription à l’abonnement Strava (9,99 euros par mois) pour les nouveaux inscrits ; les développeurs actifs sans abonnement auront 90 jours à partir du 30 juin pour se mettre en règle.

Et ça n’est pas tout. Le 1er septembre, Strava abandonnera des points d’accès API historiques qui permettent de récupérer certains types d’informations, sur les clubs par exemple. Au-delà de l’abonnement obligatoire, c’est probablement le point qui inquiète le plus les développeurs, il existe des apps tierces qui s’appuient en effet sur ces données. « Le niveau d’engagement de la communauté ne justifie plus les ressources nécessaires à la maintenance [de ces accès] », rétorque l’entreprise.

Il ne s’agit pas pour autant de fermer complètement les portes aux développeurs qui exploitent les données de Strava pour leurs applications. Contrairement à Reddit, dont le prix des accès à sa propre API a fini par réduire à peau de chagrin le nombre d’apps tierces, Strava cherche un point d’équilibre. « Nous voulons que les utilisateurs aient le sentiment de garder la maîtrise de leurs données et qu’ils aient confiance dans la façon dont nous les sécurisons. Mais nous souhaitons également que l’écosystème de développeurs continue de prospérer et de grandir », déclare à TechCrunch le directeur général, Michael Martin.

Strava va également adopter MCP (Model Context Protocol), un standard qui permet aux assistants IA et aux apps d’accéder à des données de façon structurée. La plateforme cherche à mieux contrôler les données auxquelles elle donne l’accès, et surtout la manière dont elles sont utilisées.

Ce serrage de boulon n’intervient pas au hasard. Strava a en effet déposé un dossier d’introduction en bourse début février. Il s’agit de montrer aux investisseurs que l’entreprise protège ses précieuses données. Exactement comme l’avait fait Reddit en 2024, avant sa propre IPO. Après avoir bouché les trous dans son API, la plateforme a signé un accord à 60 millions de dollars avec Google pour encadrer l’utilisation par ce dernier des données de ses utilisateurs.

  •  

Pour contrer le scraping des IA, Strava verrouille les accès à son API

Un abonnement pour accéder aux précieuses données de Strava
Pour contrer le scraping des IA, Strava verrouille les accès à son API

Strava fait la police au sein de son écosystème. La plateforme de suivi de sports d’endurance, qui fait aussi office de réseau social pour sportifs, serre la vis de l’accès à ses API pour reprendre le contrôle de ses données et de son infrastructure.

Les robots d’IA qui moissonnent internet à la recherche de données d’entraînement pour leurs modèles ont cette fâcheuse tendance à ignorer les règles habituelles du web, à l’instar du fichier robots.txt censé leur indiquer les pages qu’ils peuvent consulter, et celles qui leur sont interdites. Les labos IA sont régulièrement accusés de n’en faire qu’à leur tête et de siphonner les contenus sans respect des règles de base, à l’image de Perplexity.

Payer pour un accès

Strava, qui fournit un grand volume de données aux développeurs via une API, fait partie des fournisseurs de contenus touchés par ces pratiques agressives. Les acteurs de l’IA « détournent » l’interface de programmation du service, accuse l’entreprise, tandis que les outils de vibe-coding « génèrent des applications qui sollicitent massivement l’API ». Au détriment des usages standards des développeurs (Strava en dénombre désormais 241 000, contre 185 000 l’an dernier).

« Les candidatures à notre programme développeur ont augmenté de 448 % depuis le début de l’année, certains intermédiaires API ont enfreint nos conditions d’utilisation, et les tentatives de scraping ont dégradé les performances de la plateforme pour l’ensemble des utilisateurs. Les abus répétés que nous avons identifiés nous ont conduits à suspendre et à revoir notre processus d’évaluation des candidatures. »

Face à cette mutation du paysage technologique, Strava s’estime forcé à appliquer des changements dans son programme développeur. Jusqu’à présent, certaines informations étaient visibles sans compte développeur : les profils publics, certaines données de clubs sportifs et communautaires. Il faudra désormais une authentification. Par ailleurs, l’accès à l’API via la formule Standard nécessite désormais la souscription à l’abonnement Strava (9,99 euros par mois) pour les nouveaux inscrits ; les développeurs actifs sans abonnement auront 90 jours à partir du 30 juin pour se mettre en règle.

Et ça n’est pas tout. Le 1er septembre, Strava abandonnera des points d’accès API historiques qui permettent de récupérer certains types d’informations, sur les clubs par exemple. Au-delà de l’abonnement obligatoire, c’est probablement le point qui inquiète le plus les développeurs, il existe des apps tierces qui s’appuient en effet sur ces données. « Le niveau d’engagement de la communauté ne justifie plus les ressources nécessaires à la maintenance [de ces accès] », rétorque l’entreprise.

Il ne s’agit pas pour autant de fermer complètement les portes aux développeurs qui exploitent les données de Strava pour leurs applications. Contrairement à Reddit, dont le prix des accès à sa propre API a fini par réduire à peau de chagrin le nombre d’apps tierces, Strava cherche un point d’équilibre. « Nous voulons que les utilisateurs aient le sentiment de garder la maîtrise de leurs données et qu’ils aient confiance dans la façon dont nous les sécurisons. Mais nous souhaitons également que l’écosystème de développeurs continue de prospérer et de grandir », déclare à TechCrunch le directeur général, Michael Martin.

Strava va également adopter MCP (Model Context Protocol), un standard qui permet aux assistants IA et aux apps d’accéder à des données de façon structurée. La plateforme cherche à mieux contrôler les données auxquelles elle donne l’accès, et surtout la manière dont elles sont utilisées.

Ce serrage de boulon n’intervient pas au hasard. Strava a en effet déposé un dossier d’introduction en bourse début février. Il s’agit de montrer aux investisseurs que l’entreprise protège ses précieuses données. Exactement comme l’avait fait Reddit en 2024, avant sa propre IPO. Après avoir bouché les trous dans son API, la plateforme a signé un accord à 60 millions de dollars avec Google pour encadrer l’utilisation par ce dernier des données de ses utilisateurs.

  •  
❌