Vue lecture

Deutsche Telekom va construire un cloud IA industriel à 1 milliard d’euros à Munich

Aller anfang ist schwer
Deutsche Telekom va construire un cloud IA industriel à 1 milliard d’euros à Munich

Deutsche Telekom a annoncé mardi la transformation imminente d’un centre de données installé à Munich en une « usine IA ». Le projet, chiffré à 1 milliard d’euros, doit voir le jour dès 2026, au service des clients industriels du pays.

Les chiffres évoqués n’ont rien à voir avec les promesses d’investissement formulées par les grands noms de l’IA et du cloud aux États-Unis, mais ils devraient tout de même contribuer à augmenter de 50 % la capacité de calcul IA disponible en Allemagne, affirme Deutsche Telekom. L’opérateur a en effet annoncé, mardi 4 novembre, la construction prochaine d’une « usine IA » dotée d’un budget d’environ 1 milliard d’euros.

0,5 exaflops et 20 Po de stockage

Pour ce faire, Deutsche Telekom ne partira pas de zéro : l’entreprise indique qu’elle va convertir un datacenter déjà existant, en partenariat avec un intégrateur spécialisé, l’Allemand Polarise, pour l’équiper de plus d’un millier de systèmes NVIDIA DGX B200 et de serveurs NVIDIA RTX Pro équipés d’environ 10 000 GPU de classe Blackwell. L’ensemble devrait être accompagné de 20 Po de stockage et délivrer une puissance de calcul de l’ordre de 0,5 exaflops.

La réutilisation d’un centre de données existant, déjà construit et disposant d’une alimentation électrique adaptée, permet à Deutsche Telekom d’avancer un calendrier particulièrement optimiste : son usine IA devrait ainsi débuter ses opérations dans le courant du premier trimestre 2026. NVIDIA est présenté non seulement comme un fournisseur, mais aussi comme un partenaire du projet, ce qui a vraisemblablement permis de sécuriser les approvisionnements nécessaires sur un marché à flux tendus.

De l’idée à l’annonce officielle, il ne se serait écoulé que six mois, clame l’opérateur allemand dans un communiqué, qui indique avoir développé son projet indépendamment du plan d’action de la Commission européenne pour le développement de l’IA sur le Vieux Continent.

Un cloud piloté par une stack SAP

Le projet se veut porté par des enjeux de souveraineté, à la fois nationale et économique. Cette usine IA a en effet vocation à servir les besoins des acteurs industriels du pays, estime l’opérateur. « L’ingénierie mécanique et l’industrie ont fait la force de ce pays. Mais là aussi, nous sommes confrontés à des défis. L’IA représente une formidable opportunité. Elle contribuera à améliorer nos produits et à renforcer nos atouts européens », promet Tim Höttges, PDG de Deutsche Telekom. L’opérateur indique que plusieurs « partenaires et clients » ont déjà manifesté leur intérêt pour ce futur cloud IA, parmi lesquels Siemens et Deutsche Bank.

En matière de débouchés, il évoque par exemple la création de jumeaux numériques dans l’automobile ou l’aéronautique, mais aussi le « développement de robots grâce à l’apprentissage et à la validation basés sur des simulations physiquement précises ». Ici, le destinataire est nommément cité : il s’agit de la société Agile Robots, spin-off de l’Institut de robotique et de mécatronique du German Aerospace Center, également basée à Munich.

Si la dominante de ce cloud IA se veut à la fois allemande et industrielle, Deutsche Telekom adopte en réalité une approche plutôt agnostique. De la même façon que le futur Campus IA français sera ouvert aux GAFAM, Deutsche Telekom accueillera ainsi l’américain Perplexity parmi ses clients, sans doute rejoint à terme par d’autres acteurs du monde des grands modèles de langage (LLM).

L’opérateur s’est par ailleurs assuré les services d’un autre poids lourd allemand : l’éditeur de progiciels SAP. « Deutsche Telekom fournit l’infrastructure physique, et SAP fournit la plateforme et les applications SAP Business Technology, y compris les technologies d’IA modernes », indique l’entreprise, qui capitalisera donc sur cette « Deutschland-Stack » pour aller chercher des clients allemands sensibles aux problématiques de souveraineté géographique.

Le projet, soutenu par le ministre fédéral du Numérique, Karsten Wildberger, doit faire office de figure de proue pour l’initiative « Made 4 Germany » qui, à la façon du Choose France orchestré par Emmanuel Macron, vise à jouer des synergies avec une sélection de cent entreprises de premier plan pour encourager le développement de nouvelles activités économiques sur le sol allemand.

Les deux voisins auront d’ailleurs bientôt l’occasion d’échanger leurs vues sur le sujet puisque, comme le rappelle Contexte, le cloud et la préférence européenne devraient être les deux principaux sujets de discussion du sommet franco-allemand sur la souveraineté numérique, organisé le 18 novembre prochain.

  •  

☕️ Faille critique dans le paquet NPM de React Native, la mise à jour s’impose

Une importante faille critique a été découverte dans le paquet NPM React Native Community CLI, très populaire chez les développeurs (de 1,5 à 2 millions de téléchargements par semaine). Présentant un score CVSS de 9,8 sur 10, elle présente une dangerosité quasi maximale et peut être exploitée à distance sur toutes les plateformes Windows, macOS et Linux.

La vulnérabilité a été découverte par jFrog et estampillée CVE-2025-11953. « Cette vulnérabilité permet à des attaquants distants non authentifiés de déclencher facilement l’exécution arbitraire d’une commande du système d’exploitation sur la machine exécutant le serveur de développement de react-native-community/cli, ce qui représente un risque important pour les développeurs », explique l’entreprise.

En outre, et contrairement aux vulnérabilités habituelles découvertes dans les serveurs de développement, la faille CVE-2025-11953 peut être exploitée à distance. Elle réside dans le fait que le serveur de développement Metro, utilisé par React Native pour créer du code et des ressources JavaScript, se lie à des interfaces externes par défaut, au lieu de localhost. Il expose un point de terminaison « /open-url » qui devient alors vulnérable aux injections de commandes du système d’exploitation.

Concrètement, un utilisateur non authentifié peut se servir de la faille pour envoyer une requête POST spécialement conçue au serveur pour lui faire exécuter des commandes arbitraires. Dans le billet de jFrog, on peut lire que les chercheurs ont réussi à exploiter la faille sur Windows avec un contrôle total des paramètres. Sur macOS et Linux, ils sont parvenus à l’exécution de code avec un contrôle limité des paramètres. Cependant, avec des tests supplémentaires, ils estiment pouvoir parvenir au contrôle total.

Cette vulnérabilité critique est présente dans un très grand nombre de versions, de la 4.8.0 à la 20.0.0-alpha.2. Elle est corrigée depuis la version 20.0.0, publiée depuis octobre. Comme souvent dans ce genre de cas, les informations sur la faille n’ont été données qu’une fois que l’éditeur – ici Meta – a pu corriger la faille et qu’un nombre suffisant de développeurs ont récupéré la dernière version.

Seules les personnes utilisant donc une version plus ancienne que la 20.0.0 et utilisant le serveur Metro sont vulnérables. Pour jFrog cependant, cette faille « est particulièrement dangereuse en raison de sa facilité d’exploitation, de l’absence d’exigences d’authentification et de sa large surface d’attaque ».

  •  

Deutsche Telekom va construire un cloud IA industriel à 1 milliard d’euros à Munich

Aller anfang ist schwer
Deutsche Telekom va construire un cloud IA industriel à 1 milliard d’euros à Munich

Deutsche Telekom a annoncé mardi la transformation imminente d’un centre de données installé à Munich en une « usine IA ». Le projet, chiffré à 1 milliard d’euros, doit voir le jour dès 2026, au service des clients industriels du pays.

Les chiffres évoqués n’ont rien à voir avec les promesses d’investissement formulées par les grands noms de l’IA et du cloud aux États-Unis, mais ils devraient tout de même contribuer à augmenter de 50 % la capacité de calcul IA disponible en Allemagne, affirme Deutsche Telekom. L’opérateur a en effet annoncé, mardi 4 novembre, la construction prochaine d’une « usine IA » dotée d’un budget d’environ 1 milliard d’euros.

0,5 exaflops et 20 Po de stockage

Pour ce faire, Deutsche Telekom ne partira pas de zéro : l’entreprise indique qu’elle va convertir un datacenter déjà existant, en partenariat avec un intégrateur spécialisé, l’Allemand Polarise, pour l’équiper de plus d’un millier de systèmes NVIDIA DGX B200 et de serveurs NVIDIA RTX Pro équipés d’environ 10 000 GPU de classe Blackwell. L’ensemble devrait être accompagné de 20 Po de stockage et délivrer une puissance de calcul de l’ordre de 0,5 exaflops.

La réutilisation d’un centre de données existant, déjà construit et disposant d’une alimentation électrique adaptée, permet à Deutsche Telekom d’avancer un calendrier particulièrement optimiste : son usine IA devrait ainsi débuter ses opérations dans le courant du premier trimestre 2026. NVIDIA est présenté non seulement comme un fournisseur, mais aussi comme un partenaire du projet, ce qui a vraisemblablement permis de sécuriser les approvisionnements nécessaires sur un marché à flux tendus.

De l’idée à l’annonce officielle, il ne se serait écoulé que six mois, clame l’opérateur allemand dans un communiqué, qui indique avoir développé son projet indépendamment du plan d’action de la Commission européenne pour le développement de l’IA sur le Vieux Continent.

Un cloud piloté par une stack SAP

Le projet se veut porté par des enjeux de souveraineté, à la fois nationale et économique. Cette usine IA a en effet vocation à servir les besoins des acteurs industriels du pays, estime l’opérateur. « L’ingénierie mécanique et l’industrie ont fait la force de ce pays. Mais là aussi, nous sommes confrontés à des défis. L’IA représente une formidable opportunité. Elle contribuera à améliorer nos produits et à renforcer nos atouts européens », promet Tim Höttges, PDG de Deutsche Telekom. L’opérateur indique que plusieurs « partenaires et clients » ont déjà manifesté leur intérêt pour ce futur cloud IA, parmi lesquels Siemens et Deutsche Bank.

En matière de débouchés, il évoque par exemple la création de jumeaux numériques dans l’automobile ou l’aéronautique, mais aussi le « développement de robots grâce à l’apprentissage et à la validation basés sur des simulations physiquement précises ». Ici, le destinataire est nommément cité : il s’agit de la société Agile Robots, spin-off de l’Institut de robotique et de mécatronique du German Aerospace Center, également basée à Munich.

Si la dominante de ce cloud IA se veut à la fois allemande et industrielle, Deutsche Telekom adopte en réalité une approche plutôt agnostique. De la même façon que le futur Campus IA français sera ouvert aux GAFAM, Deutsche Telekom accueillera ainsi l’américain Perplexity parmi ses clients, sans doute rejoint à terme par d’autres acteurs du monde des grands modèles de langage (LLM).

L’opérateur s’est par ailleurs assuré les services d’un autre poids lourd allemand : l’éditeur de progiciels SAP. « Deutsche Telekom fournit l’infrastructure physique, et SAP fournit la plateforme et les applications SAP Business Technology, y compris les technologies d’IA modernes », indique l’entreprise, qui capitalisera donc sur cette « Deutschland-Stack » pour aller chercher des clients allemands sensibles aux problématiques de souveraineté géographique.

Le projet, soutenu par le ministre fédéral du Numérique, Karsten Wildberger, doit faire office de figure de proue pour l’initiative « Made 4 Germany » qui, à la façon du Choose France orchestré par Emmanuel Macron, vise à jouer des synergies avec une sélection de cent entreprises de premier plan pour encourager le développement de nouvelles activités économiques sur le sol allemand.

Les deux voisins auront d’ailleurs bientôt l’occasion d’échanger leurs vues sur le sujet puisque, comme le rappelle Contexte, le cloud et la préférence européenne devraient être les deux principaux sujets de discussion du sommet franco-allemand sur la souveraineté numérique, organisé le 18 novembre prochain.

  •  

☕️ Faille critique dans le paquet NPM de React Native, la mise à jour s’impose

Une importante faille critique a été découverte dans le paquet NPM React Native Community CLI, très populaire chez les développeurs (de 1,5 à 2 millions de téléchargements par semaine). Présentant un score CVSS de 9,8 sur 10, elle présente une dangerosité quasi maximale et peut être exploitée à distance sur toutes les plateformes Windows, macOS et Linux.

La vulnérabilité a été découverte par jFrog et estampillée CVE-2025-11953. « Cette vulnérabilité permet à des attaquants distants non authentifiés de déclencher facilement l’exécution arbitraire d’une commande du système d’exploitation sur la machine exécutant le serveur de développement de react-native-community/cli, ce qui représente un risque important pour les développeurs », explique l’entreprise.

En outre, et contrairement aux vulnérabilités habituelles découvertes dans les serveurs de développement, la faille CVE-2025-11953 peut être exploitée à distance. Elle réside dans le fait que le serveur de développement Metro, utilisé par React Native pour créer du code et des ressources JavaScript, se lie à des interfaces externes par défaut, au lieu de localhost. Il expose un point de terminaison « /open-url » qui devient alors vulnérable aux injections de commandes du système d’exploitation.

Concrètement, un utilisateur non authentifié peut se servir de la faille pour envoyer une requête POST spécialement conçue au serveur pour lui faire exécuter des commandes arbitraires. Dans le billet de jFrog, on peut lire que les chercheurs ont réussi à exploiter la faille sur Windows avec un contrôle total des paramètres. Sur macOS et Linux, ils sont parvenus à l’exécution de code avec un contrôle limité des paramètres. Cependant, avec des tests supplémentaires, ils estiment pouvoir parvenir au contrôle total.

Cette vulnérabilité critique est présente dans un très grand nombre de versions, de la 4.8.0 à la 20.0.0-alpha.2. Elle est corrigée depuis la version 20.0.0, publiée depuis octobre. Comme souvent dans ce genre de cas, les informations sur la faille n’ont été données qu’une fois que l’éditeur – ici Meta – a pu corriger la faille et qu’un nombre suffisant de développeurs ont récupéré la dernière version.

Seules les personnes utilisant donc une version plus ancienne que la 20.0.0 et utilisant le serveur Metro sont vulnérables. Pour jFrog cependant, cette faille « est particulièrement dangereuse en raison de sa facilité d’exploitation, de l’absence d’exigences d’authentification et de sa large surface d’attaque ».

  •  

Linux 6.19 To Support Additional Arm Mali & Vivante Graphics Hardware

Sent out today to DRM-Next was the latest weekly batch of drm-misc-next patches for enhancing the various smaller Direct Rendering Manager drivers within the kernel. Included with this week's update is supporting some additional Mali and Vivante hardware as well as continuing to enhance the in-kernel accelerator "accel" drivers...
  •  

Brazil Proposes a New Type of Fund To Protect Tropical Forests

Brazil is set to announce Thursday the establishment of a multibillion-dollar fund designed to pay countries to keep their tropical forests standing. The Tropical Forest Forever Facility would deliver $4 billion per year to as many as 74 countries that maintain their forest cover. The fund requires $25 billion from governments and philanthropies to begin operations. Private investors would contribute the remaining $100 billion. Brazil has committed $1 billion. Countries would receive around $4 per hectare of standing forest after using satellite imagery to verify forests remain in place. Nations with annual deforestation rates above 0.5% are ineligible for payouts. Indonesia, which has rapidly lost forests to palm-oil cultivation and mining, cannot participate. One-fifth of the payments are designated for forest communities. The World Bank is managing the fund.

Read more of this story at Slashdot.

  •  

DRAM Costs Surge Past Gold as AI Demand Strains Supply

DRAM contract prices surged 171.8% year-over-year as of the third quarter of 2025. The increase now exceeds the rate at which gold prices have climbed. ADATA chairman Chen Libai stated that the fourth quarter of 2025 will mark the beginning of a major DRAM bull market. He expects severe shortages to materialize in 2026. Memory manufacturers have shifted production priorities toward datacenter-focused memory types like RDIMM and HBM. Consumer DDR5 production has declined as a result. A Corsair Vengeance RGB dual-channel DDR5 kit that sold for $91 dollars in July now costs a $183 dollars on Newegg. The pricing trend extends to NAND flash and hard drives. Analysts project the increases will persist for at least four years, matching the duration of supply contracts that some companies have signed with Samsung and SK Hynix.

Read more of this story at Slashdot.

  •  

La bataille des éditeurs de presse face à Common Crawl continue

Common or paywalled ?
La bataille des éditeurs de presse face à Common Crawl continue

Alors que Common Crawl fournit des téraoctets de données d’entrainement aux entreprises d’IA générative, l’organisation est accusée de récupérer des contenus placés derrière des paywalls. La presse, en France ou ailleurs, essaye de bloquer l’aspiration de ses contenus via des procédures judiciaires, mais la plupart des paywalls laissent des trous pour jouer le jeu de l’indexation dans les moteurs de recherche.

La base de données Common Crawl est sous le feu des critiques de la presse parce qu’elle fournit aux entreprises d’IA générative comme OpenAI, Google, Anthropic, Nvidia, Meta ou Amazon énormément de contenus pour l’entrainement de leurs modèles.

La plupart des grands modèles de langage s’appuient, depuis leurs origines, sur cette base de données. Celle-ci regroupe des téraoctets de textes moissonnés sur le web. Tous les mois, une nouvelle archive est publiée par Common Crawl, gérée par une structure à but non lucratif.

Ainsi, le lot d’octobre 2025 contient 2,6 milliards de pages web, correspondant à 126 téraoctets de données compressées. Si la légalité de ce genre de moissonnage pour la recherche ou pour l’indexation ne fait pas de doute, il y en a plus pour des projets commerciaux d’IA générative, notamment car leurs systèmes peuvent régurgiter les contenus qui sont sous copyright ou sous d’autres régimes de droit d’auteurs.

Des articles sous paywall dans Common Crawl ?

Ce lundi 4 novembre, The Atlantic a publié un article à propos de la base de donnée qui accuse la structure à but non lucratif d’avoir ouvert une porte dérobée (backdoor) pour les entreprises d’IA leur permettant d’entrainer leurs modèles sur les articles de presse sous paywall, et de mentir à ce sujet aux éditeurs de presse.

Notre confrère, Alex Reisner, estime que les archives de Commons Crawl contiennent « des millions d’articles provenant d’organismes de presse du monde entier, notamment The Economist, Los Angeles Times, The Wall Street Journal, The New York Times, The New Yorker, Harper’s et The Atlantic ».

En France, l’Alliance de la presse d’information générale (APIG) et le Syndicat des éditeurs de la presse magazine (SEPM) sont passés à la vitesse supérieure début septembre en mettant en demeure début septembre Common Crawl de retirer les sites de leurs membres de son archivage.

Retrait des articles de 81 éditeurs français

Un mois après, les deux lobbys de la presse ont obtenu le retrait des contenus de 81 éditeurs. Dans une interview au Journal du Net publiée début septembre, Léa Boccara, responsable du pôle juridique et des affaires publiques de l’Alliance, accusait aussi l’organisme à but non lucratif d’archiver des articles payants : « Nous sommes face à un crawling de masse d’articles et d’extraits d’articles, qui contourne les paywalls ». Elle rejoint ainsi les accusations lancées par The Atlantic.

On peut facilement imaginer, comme nos confrères états-uniens l’affirment, que Common Crawl ne se logue pas à chaque site d’information pour aspirer les contenus, mais qu’il contourne les paywalls. Et, en effet, de nombreux systèmes utilisés par la presse pour bloquer l’accès à leurs contenus se contentent de cacher avec du code javascript le texte des articles. Ainsi, alors qu’un navigateur ne l’affichera pas à l’utilisateur lambda d’un navigateur, un crawler peut facilement le récupérer.

Ajoutons qu’une bonne partie des éditeurs de presse savent que, derrière ce genre de « paywall », leurs contenus ne sont que vaguement protégés, ce qui permet de laisser les robots des moteurs de recherche classiques moissonner ces articles, et de mieux les valoriser dans leurs résultats.

Common Crawl réfute

Common Crawl a réagi à l’article de The Atlantic dans un billet publié le même jour. L’organisation réfute les accusations de mensonges envers les éditeurs de presse : « Cela donne une image fausse du fonctionnement de Common Crawl et des valeurs qui guident notre travail ». Elle ajoute : « Nous ne contournons pas les « paywalls », ne nous connectons à aucun site web et n’utilisons aucune méthode visant à contourner les restrictions d’accès ».

Elle affirme avoir toujours eu une approche transparente en publiant le code de son crawling et en le documentant publiquement, en identifiant l’user agent « CCBot » de son bot de crawling, en respectant les robots.txt et en se conformant « aux demandes de retrait et de suppression qui nous sont envoyées de bonne foi ».

Dans l’article de The Atlantic, le responsable de Common Crawl, Rich Skrenta, avait été plus direct, répondant que les éditeurs faisaient une erreur en s’excluant d’eux-mêmes de la « recherche 2.0 ». Il ajoutait : « Vous n’auriez pas dû publier votre contenu sur Internet si vous ne vouliez pas qu’il figure sur Internet ».

Enjeu économique avec des contrats à la clé

Reste que la presse n’engage pas ces démarches pour bloquer entièrement tout accès à leurs articles payants aux entreprises d’IA générative. En effet, comme l’explique l’Alliance de la presse d’information générale il y a là « un enjeu économique majeur » autour d’accords financiers avec ces mêmes entreprises d’IA.

Le Monde et Prisa Media ont, par exemple, dès le début de l’année 2024, signé des contrats avec OpenAI. L’Alliance s’appuie d’ailleurs sur l’exemple des accords noués avec Google sur les droits voisins concernant son moteur de recherche.

Louis Dreyfus, président du directoire du journal, expliquait encore récemment à l’INA que son groupe de presse a « vocation à signer d’autres accords avec d’autres acteurs ». Si Le Monde a aussi signé un contrat avec Perplexity, le responsable du journal explique que celle-ci n’a pas la possibilité d’entrainer de LLM avec ses articles, contrairement à OpenAI.

  •  

La bataille des éditeurs de presse face à Common Crawl continue

Common or paywalled ?
La bataille des éditeurs de presse face à Common Crawl continue

Alors que Common Crawl fournit des téraoctets de données d’entrainement aux entreprises d’IA générative, l’organisation est accusée de récupérer des contenus placés derrière des paywalls. La presse, en France ou ailleurs, essaye de bloquer l’aspiration de ses contenus via des procédures judiciaires, mais la plupart des paywalls laissent des trous pour jouer le jeu de l’indexation dans les moteurs de recherche.

La base de données Common Crawl est sous le feu des critiques de la presse parce qu’elle fournit aux entreprises d’IA générative comme OpenAI, Google, Anthropic, Nvidia, Meta ou Amazon énormément de contenus pour l’entrainement de leurs modèles.

La plupart des grands modèles de langage s’appuient, depuis leurs origines, sur cette base de données. Celle-ci regroupe des téraoctets de textes moissonnés sur le web. Tous les mois, une nouvelle archive est publiée par Common Crawl, gérée par une structure à but non lucratif.

Ainsi, le lot d’octobre 2025 contient 2,6 milliards de pages web, correspondant à 126 téraoctets de données compressées. Si la légalité de ce genre de moissonnage pour la recherche ou pour l’indexation ne fait pas de doute, il y en a plus pour des projets commerciaux d’IA générative, notamment car leurs systèmes peuvent régurgiter les contenus qui sont sous copyright ou sous d’autres régimes de droit d’auteurs.

Des articles sous paywall dans Common Crawl ?

Ce lundi 4 novembre, The Atlantic a publié un article à propos de la base de donnée qui accuse la structure à but non lucratif d’avoir ouvert une porte dérobée (backdoor) pour les entreprises d’IA leur permettant d’entrainer leurs modèles sur les articles de presse sous paywall, et de mentir à ce sujet aux éditeurs de presse.

Notre confrère, Alex Reisner, estime que les archives de Commons Crawl contiennent « des millions d’articles provenant d’organismes de presse du monde entier, notamment The Economist, Los Angeles Times, The Wall Street Journal, The New York Times, The New Yorker, Harper’s et The Atlantic ».

En France, l’Alliance de la presse d’information générale (APIG) et le Syndicat des éditeurs de la presse magazine (SEPM) sont passés à la vitesse supérieure début septembre en mettant en demeure début septembre Common Crawl de retirer les sites de leurs membres de son archivage.

Retrait des articles de 81 éditeurs français

Un mois après, les deux lobbys de la presse ont obtenu le retrait des contenus de 81 éditeurs. Dans une interview au Journal du Net publiée début septembre, Léa Boccara, responsable du pôle juridique et des affaires publiques de l’Alliance, accusait aussi l’organisme à but non lucratif d’archiver des articles payants : « Nous sommes face à un crawling de masse d’articles et d’extraits d’articles, qui contourne les paywalls ». Elle rejoint ainsi les accusations lancées par The Atlantic.

On peut facilement imaginer, comme nos confrères états-uniens l’affirment, que Common Crawl ne se logue pas à chaque site d’information pour aspirer les contenus, mais qu’il contourne les paywalls. Et, en effet, de nombreux systèmes utilisés par la presse pour bloquer l’accès à leurs contenus se contentent de cacher avec du code javascript le texte des articles. Ainsi, alors qu’un navigateur ne l’affichera pas à l’utilisateur lambda d’un navigateur, un crawler peut facilement le récupérer.

Ajoutons qu’une bonne partie des éditeurs de presse savent que, derrière ce genre de « paywall », leurs contenus ne sont que vaguement protégés, ce qui permet de laisser les robots des moteurs de recherche classiques moissonner ces articles, et de mieux les valoriser dans leurs résultats.

Common Crawl réfute

Common Crawl a réagi à l’article de The Atlantic dans un billet publié le même jour. L’organisation réfute les accusations de mensonges envers les éditeurs de presse : « Cela donne une image fausse du fonctionnement de Common Crawl et des valeurs qui guident notre travail ». Elle ajoute : « Nous ne contournons pas les « paywalls », ne nous connectons à aucun site web et n’utilisons aucune méthode visant à contourner les restrictions d’accès ».

Elle affirme avoir toujours eu une approche transparente en publiant le code de son crawling et en le documentant publiquement, en identifiant l’user agent « CCBot » de son bot de crawling, en respectant les robots.txt et en se conformant « aux demandes de retrait et de suppression qui nous sont envoyées de bonne foi ».

Dans l’article de The Atlantic, le responsable de Common Crawl, Rich Skrenta, avait été plus direct, répondant que les éditeurs faisaient une erreur en s’excluant d’eux-mêmes de la « recherche 2.0 ». Il ajoutait : « Vous n’auriez pas dû publier votre contenu sur Internet si vous ne vouliez pas qu’il figure sur Internet ».

Enjeu économique avec des contrats à la clé

Reste que la presse n’engage pas ces démarches pour bloquer entièrement tout accès à leurs articles payants aux entreprises d’IA générative. En effet, comme l’explique l’Alliance de la presse d’information générale il y a là « un enjeu économique majeur » autour d’accords financiers avec ces mêmes entreprises d’IA.

Le Monde et Prisa Media ont, par exemple, dès le début de l’année 2024, signé des contrats avec OpenAI. L’Alliance s’appuie d’ailleurs sur l’exemple des accords noués avec Google sur les droits voisins concernant son moteur de recherche.

Louis Dreyfus, président du directoire du journal, expliquait encore récemment à l’INA que son groupe de presse a « vocation à signer d’autres accords avec d’autres acteurs ». Si Le Monde a aussi signé un contrat avec Perplexity, le responsable du journal explique que celle-ci n’a pas la possibilité d’entrainer de LLM avec ses articles, contrairement à OpenAI.

  •  

Deux nouveaux processeurs AMD Strix Halo avec GPU à 40 cœurs en approche !

Actuellement la gamme des processeurs AMD Ryzen AI Max, alias Strix Halo, ne compte que 3 références : les Ryzen AI Max+ 395, Ryzen AI Max 390 et Ryzen AI Max 385. Pour ceux qui veulent un Strix Halo avec le GPU intégré le plus performant qui soit, le Radeon 8060S et ses 40 cœurs RDNA 3.5, le choix...

  •  

36 ports USB : on appelle ça une carte mère ou une autoroute à périphérique ?

Mais qui a réellement besoin d'une carte mère avec 36 ports USB ? Visiblement quelqu'un s'est posé la question… puis a décidé d'y répondre avec un fer à souder. Une vieille carte mère en LGA 1151 a donc subi une petite opération de chirurgie lourde : on lui a greffé assez de ports USB pour organiser un tournoi de Tetris 99 sur une seule machine. Reste maintenant à espérer que ce n'est pas juste pour faire joli, et que tous les ports sont vraiment branchés… pas juste collés à chaud pour impressionner les copains. […]

Lire la suite
  •  

3mdeb Achieves Good Progress Porting Coreboot+OpenSIL To AMD Turin Motherboard

Over the past few months the open-source firmware consulting firm 3mdeb has been porting Coreboot and AMD's new openSIL silicon initialization library to the Gigabyte MZ33-AR1. The Gigabyte MZ33-AR1 is a broadly available motherboard that supports the latest-generation AMD EPYC 9005 "Turin" server processors. 3mdeb has been fairly successful in their quest and an early demonstrator for openSIL...
  •  

Kingston lance une version de 8 To de son SSD FURY Renegade G5, pour ceux qui ont les bourses pleines !

Kingston possède une gamme de SSD NVMe PCIe 5.0 moins en vue que les marques plus classiques comme Corsair, Crucial ou Lexar, mais elle a le mérite d'exister et d'étayer l'offre. Aujourd'hui, un modèle de 8 To arrive sur le marché, il est d'ores et déjà trouvable sur Mazone sous le nom de Kingston F...

  •  

Le Steam Deck hérite d’un mode basse consommation

Proposé en mode Beta et Preview de la console, le mode basse consommation va permettre de basculer le Steam Deck dans un état dans lequel il limitera radicalement l’usage de sa batterie, mais sans s’éteindre complètement. Un mode limité, mais suffisant pour, par exemple, télécharger des données.

C’est un des défauts des consoles de jeux de ce type. Elles n’ont pas forcément une connexion au réseau très rapide et doivent télécharger des jeux pesant de gros paquets de gigaoctets. On les laisse donc trainer sur un dock ou au bout d’un câble le temps qu’elles finissent cette corvée. Mais il arrive également qu’on se retrouve à devoir télécharger des données de manière impromptue, loin de toute prise d’alimentation. Pour des mises à jour par exemple. Et là, la console reste allumée au maximum de ses capacités pour une tâche n’en nécessitant pas autant.

Un mode basse consommation très logique

Pour éviter cela, Valve a donc décidé d’initier une mise à jour qui permettra de basculer la console en mode basse consommation. Un protocole tout simple qui éteindra l’écran et limitera les dépenses énergétiques non nécessaires. En activant cette option dans les paramètres de l’alimentation, on pourra basculer la console  dans une semi léthargie technique. En appuyant sur le bouton de démarrage, la console demandera si vous voulez passer en basse consommation ou éteindre. Si vous faites le premier choix, le Stem Deck éteindra son écran et continuera d’effectuer les tâches demandées. Par exemple, le téléchargement de données en Wi-Fi. LEs 22 Go de mise à jour de votre SuperJeu pourra donc se faire sans dépenser l’énergie nécessaire au rétro éclairage de l’écran. Aucune informations sur la mise en veille d’autres postes. On se doute que le stockage et la mémoire resteront actifs, mais le système pourrait également éteindre des cœurs du processeur, couper au maximum le circuit graphique et limiter la fréquence de la puce. 

Le mode basse consommation du Steam Deck

Valve a bien peaufiné sa solution et proposera de réveiller la machine à moitié pour vérifier l’état des opérations. En appuyant sur un bouton, l’écran s’allumera à nouveau pour vous indiquer la progression de vos téléchargements. Vous pourrez alors choisir de la réveiller ou de la replonger dans sa cryostase. Si, avant la fin de son téléchargement, vous la laissez tranquille, alors elle finira par s’éteindre complètement. À noter que pour être certain de ne pas pousser la batterie dans un mode de décharge complet, le système s’arrêtera de lui-même lorsque vous atteindrez 20% de capacité. Et cela même si vos téléchargements ne sont pas terminés.

La solution est à la fois simple et élégante. Elle permettra par exemple de mettre en charge votre Steam Deck pour la nuit sur son dock. Tout en lui demandant de lancer ses mises à jour puis de la basculer dans ce mode basse consommation pour qu’elle télécharge vos données avant de s’éteindre toute seule.

Valve joue ici avec les possibilités des machines modernes de réguler leur consommation. Compétences que l’on connait bien dans le monde des portables, mais souvent encore peu ou mal employées. On a croisé, par exemple, des MiniPC AMD qui permettent de basculer entre plusieurs modes d’usage pour limiter leur consommation et leur ventilation. On imagine qu’il serait possible de jouer avec beaucoup plus de paramètres et de créer des profils techniques assez vastes. Les constructeurs de portables jouent ainsi sur la baisse de la luminosité des écrans, la limitation en fréquence des puces sur batterie et autres techniques visant à augmenter l’autonomie. L’option de mettre à jour avant d’arrêter sa machine est également présente sur des systèmes d’exploitation depuis longtemps. Mais les utilisateurs ont très rarement la main sur ces options qui restent souvent à la discrétion seule des constructeurs.

Source : Valve

Le Steam Deck hérite d’un mode basse consommation © MiniMachines.net. 2025

  •  

La Haute Autorité de santé dit oui à l’IA, mais pas n’importe comment

Pas si évident
La Haute Autorité de santé dit oui à l’IA, mais pas n’importe comment

La HAS a publié le 30 octobre un guide pédagogique sur l’utilisation de l’intelligence artificielle générative dans l’ensemble du secteur sanitaire, social et médico-social. L’autorité ne s’oppose pas à cette utilisation, mais elle pointe très vite les deux problèmes majeurs : la sensibilité des données manipulées et la fiabilité des résultats.

Les données de santé sont une mine d’or. Selon comment elles sont exploitées, elles peuvent permettre le suivi de l’efficacité des traitements, faire apparaitre des corrélations, étudier des prévalences et autres.

Ce caractère précieux est au cœur de plusieurs décisions politiques. En France, il y a bien sûr le HDH (Health Data Hub) et ses décisions sulfureuses d’hébergement chez Microsoft, pointées constamment par le député Philippe Latombe, des rapports interministériels ou même encore récemment par la Cour des comptes. L’entrepôt de données européen EMC2 a le même problème.

Mais les objectifs sont à chaque fois les mêmes : concentrer les données, favoriser les travaux des chercheurs, servir de guichet unique et, bien sûr, permettre à terme le traitement des données par l’IA. Dans le cadre du projet EMC2 d’ailleurs, l’Agence européenne du médicament abordait explicitement cette finalité.

La Haute Autorité de santé publie donc un avis sur la question, même s’il peut sembler tardif. Dans les grandes lignes toutefois, la HAS ne réagit pas spécifiquement sur l’exploitation des données, mais vise les professionnels de santé et l’utilisation de l’IA comme aide à la décision.

Quatre lignes directrices

La HAS publie principalement quatre conseils, rassemblés sous l’appellation : AVEC, pour « Apprendre, Vérifier, Estimer et Communiquer ».

Pour l’apprentissage, la HAS recommande chaudement aux professionnels de se former sur les outils qu’ils utilisent. Les IA peuvent faire gagner du temps, mais la plupart n’ont pas été formées sur les questions de santé. Les professionnels devraient ainsi s’interroger sur les modalités d’utilisation, les règles liées à la confidentialité des données personnelles ou encore effectuer des tests pratiques avant de se lancer dans une pratique quotidienne.

Sur la vérification, la HAS conseille la prudence face aux résultats renvoyés par l’IA : « le professionnel est attentif à la pertinence de son usage, à la qualité de sa requête et au contrôle du contenu généré ». Ce qui inclut de ne pas partager d’informations confidentielles et de considérer chaque réponse comme une proposition et non une vérité. La fiabilité des réponses de l’IA ne pouvant par définition être garantie (approche probabiliste), elles peuvent contenir des erreurs : valeurs et unités des quantités chiffrées, noms des médicaments, etc. On l’a vu récemment dans nos propres tests, l’IA peut se tromper lourdement dans la méthode de calcul.

L’estimation concerne l’analyse régulière de l’adéquation entre les besoins et les résultats. Les professionnels de santé sont ainsi invités à réinterroger sa pratique : des corrections ont-elles été nécessaires ? Si oui, à quelle fréquence ? L’outil est-il simple d’utilisation ? A-t-il pu être intégré dans des flux de travail existants ? En somme, la HAS souhaite que les professionnels s’interrogent sur les gains apportés face aux contraintes.

Enfin, pour la communication, la Haute Autorité est claire : les professionnels devraient échanger avec les patients autour de l’usage de l’IA. L’autorité leur recommande également de favoriser les retours d’expérience avec d’autres utilisateurs et développer « une démarche de transparence autour des typologies de données partagées, de l’adhésion au sein de sa structure et des impacts organisationnels ».

Le danger des mauvaises pratiques

De manière générale, la HAS souhaite que chaque usage de l’IA générative soit « conscient, supervisé et raisonné ».

Cependant, même si elle peut « devenir une alliée » quand elle est « bien maitrisée », l’autorité pointe également les dangers inhérents à son utilisation. Elle met en garde contre les erreurs pouvant survenir dans les réponses envoyées, notamment quand elles se fondent sur des données non vérifiées. Surtout, elle pointe les hallucinations, soit des informations fausses mais qui peuvent paraitre convaincantes. 

Outre les dangers propres à l’IA elle-même, la HAS signale de mauvais comportements chez les professionnels eux-mêmes, dont l’utilisation d’informations confidentielles dans les requêtes, expliquant les conseils sur la communication avec les patients.

Dans l’ensemble, l’autorité évoque un potentiel prometteur sur l’ensemble de ces technologies. Elle ne parle d’ailleurs pas uniquement des interfaces questions/réponses des chatbots, mais aussi d’autres outils devenus très courants : transcriptions de conversations lors de consultations, synthèses de littérature scientifique, création de documents illustrés pour expliquer des parcours médicaux-sociaux, préremplissage de documents administratifs, traductions de textes pour des personnes non-francophones, etc. Tous peuvent faire gagner du temps (voire beaucoup), mais le risque d’erreur est le même dans tous les cas de figure dès que l’outil utilise l’IA générative.

Enfin, outre les erreurs, les professionnels ont tout intérêt à se former pour s’acclimater à des concepts centraux de l’IA générative. Par exemple, les réponses peuvent varier dans le temps, notamment en fonction de la version du modèle et des données utilisées pour l’entrainement. La qualité de la réponse peut aussi fortement varier selon le soin apporté à la question (prompt).

Pour les personnes intéressées, la HAS a donc publié deux versions de ses recommandations : une complète d’une quinzaine de pages (PDF), et une concise rassemblant les principales informations sur une seule page (PDF). Administration publique oblige, la HAS a également publié un rapport sur l’élaboration de son guide et les méthodes utilisées (PDF).

  •  

La Haute Autorité de santé dit oui à l’IA, mais pas n’importe comment

Pas si évident
La Haute Autorité de santé dit oui à l’IA, mais pas n’importe comment

La HAS a publié le 30 octobre un guide pédagogique sur l’utilisation de l’intelligence artificielle générative dans l’ensemble du secteur sanitaire, social et médico-social. L’autorité ne s’oppose pas à cette utilisation, mais elle pointe très vite les deux problèmes majeurs : la sensibilité des données manipulées et la fiabilité des résultats.

Les données de santé sont une mine d’or. Selon comment elles sont exploitées, elles peuvent permettre le suivi de l’efficacité des traitements, faire apparaitre des corrélations, étudier des prévalences et autres.

Ce caractère précieux est au cœur de plusieurs décisions politiques. En France, il y a bien sûr le HDH (Health Data Hub) et ses décisions sulfureuses d’hébergement chez Microsoft, pointées constamment par le député Philippe Latombe, des rapports interministériels ou même encore récemment par la Cour des comptes. L’entrepôt de données européen EMC2 a le même problème.

Mais les objectifs sont à chaque fois les mêmes : concentrer les données, favoriser les travaux des chercheurs, servir de guichet unique et, bien sûr, permettre à terme le traitement des données par l’IA. Dans le cadre du projet EMC2 d’ailleurs, l’Agence européenne du médicament abordait explicitement cette finalité.

La Haute Autorité de santé publie donc un avis sur la question, même s’il peut sembler tardif. Dans les grandes lignes toutefois, la HAS ne réagit pas spécifiquement sur l’exploitation des données, mais vise les professionnels de santé et l’utilisation de l’IA comme aide à la décision.

Quatre lignes directrices

La HAS publie principalement quatre conseils, rassemblés sous l’appellation : AVEC, pour « Apprendre, Vérifier, Estimer et Communiquer ».

Pour l’apprentissage, la HAS recommande chaudement aux professionnels de se former sur les outils qu’ils utilisent. Les IA peuvent faire gagner du temps, mais la plupart n’ont pas été formées sur les questions de santé. Les professionnels devraient ainsi s’interroger sur les modalités d’utilisation, les règles liées à la confidentialité des données personnelles ou encore effectuer des tests pratiques avant de se lancer dans une pratique quotidienne.

Sur la vérification, la HAS conseille la prudence face aux résultats renvoyés par l’IA : « le professionnel est attentif à la pertinence de son usage, à la qualité de sa requête et au contrôle du contenu généré ». Ce qui inclut de ne pas partager d’informations confidentielles et de considérer chaque réponse comme une proposition et non une vérité. La fiabilité des réponses de l’IA ne pouvant par définition être garantie (approche probabiliste), elles peuvent contenir des erreurs : valeurs et unités des quantités chiffrées, noms des médicaments, etc. On l’a vu récemment dans nos propres tests, l’IA peut se tromper lourdement dans la méthode de calcul.

L’estimation concerne l’analyse régulière de l’adéquation entre les besoins et les résultats. Les professionnels de santé sont ainsi invités à réinterroger sa pratique : des corrections ont-elles été nécessaires ? Si oui, à quelle fréquence ? L’outil est-il simple d’utilisation ? A-t-il pu être intégré dans des flux de travail existants ? En somme, la HAS souhaite que les professionnels s’interrogent sur les gains apportés face aux contraintes.

Enfin, pour la communication, la Haute Autorité est claire : les professionnels devraient échanger avec les patients autour de l’usage de l’IA. L’autorité leur recommande également de favoriser les retours d’expérience avec d’autres utilisateurs et développer « une démarche de transparence autour des typologies de données partagées, de l’adhésion au sein de sa structure et des impacts organisationnels ».

Le danger des mauvaises pratiques

De manière générale, la HAS souhaite que chaque usage de l’IA générative soit « conscient, supervisé et raisonné ».

Cependant, même si elle peut « devenir une alliée » quand elle est « bien maitrisée », l’autorité pointe également les dangers inhérents à son utilisation. Elle met en garde contre les erreurs pouvant survenir dans les réponses envoyées, notamment quand elles se fondent sur des données non vérifiées. Surtout, elle pointe les hallucinations, soit des informations fausses mais qui peuvent paraitre convaincantes. 

Outre les dangers propres à l’IA elle-même, la HAS signale de mauvais comportements chez les professionnels eux-mêmes, dont l’utilisation d’informations confidentielles dans les requêtes, expliquant les conseils sur la communication avec les patients.

Dans l’ensemble, l’autorité évoque un potentiel prometteur sur l’ensemble de ces technologies. Elle ne parle d’ailleurs pas uniquement des interfaces questions/réponses des chatbots, mais aussi d’autres outils devenus très courants : transcriptions de conversations lors de consultations, synthèses de littérature scientifique, création de documents illustrés pour expliquer des parcours médicaux-sociaux, préremplissage de documents administratifs, traductions de textes pour des personnes non-francophones, etc. Tous peuvent faire gagner du temps (voire beaucoup), mais le risque d’erreur est le même dans tous les cas de figure dès que l’outil utilise l’IA générative.

Enfin, outre les erreurs, les professionnels ont tout intérêt à se former pour s’acclimater à des concepts centraux de l’IA générative. Par exemple, les réponses peuvent varier dans le temps, notamment en fonction de la version du modèle et des données utilisées pour l’entrainement. La qualité de la réponse peut aussi fortement varier selon le soin apporté à la question (prompt).

Pour les personnes intéressées, la HAS a donc publié deux versions de ses recommandations : une complète d’une quinzaine de pages (PDF), et une concise rassemblant les principales informations sur une seule page (PDF). Administration publique oblige, la HAS a également publié un rapport sur l’élaboration de son guide et les méthodes utilisées (PDF).

  •