Vue lecture

La bataille des éditeurs de presse face à Common Crawl continue

Common or paywalled ?
La bataille des éditeurs de presse face à Common Crawl continue

Alors que Common Crawl fournit des téraoctets de données d’entrainement aux entreprises d’IA générative, l’organisation est accusée de récupérer des contenus placés derrière des paywalls. La presse, en France ou ailleurs, essaye de bloquer l’aspiration de ses contenus via des procédures judiciaires, mais la plupart des paywalls laissent des trous pour jouer le jeu de l’indexation dans les moteurs de recherche.

La base de données Common Crawl est sous le feu des critiques de la presse parce qu’elle fournit aux entreprises d’IA générative comme OpenAI, Google, Anthropic, Nvidia, Meta ou Amazon énormément de contenus pour l’entrainement de leurs modèles.

La plupart des grands modèles de langage s’appuient, depuis leurs origines, sur cette base de données. Celle-ci regroupe des téraoctets de textes moissonnés sur le web. Tous les mois, une nouvelle archive est publiée par Common Crawl, gérée par une structure à but non lucratif.

Ainsi, le lot d’octobre 2025 contient 2,6 milliards de pages web, correspondant à 126 téraoctets de données compressées. Si la légalité de ce genre de moissonnage pour la recherche ou pour l’indexation ne fait pas de doute, il y en a plus pour des projets commerciaux d’IA générative, notamment car leurs systèmes peuvent régurgiter les contenus qui sont sous copyright ou sous d’autres régimes de droit d’auteurs.

Des articles sous paywall dans Common Crawl ?

Ce lundi 4 novembre, The Atlantic a publié un article à propos de la base de donnée qui accuse la structure à but non lucratif d’avoir ouvert une porte dérobée (backdoor) pour les entreprises d’IA leur permettant d’entrainer leurs modèles sur les articles de presse sous paywall, et de mentir à ce sujet aux éditeurs de presse.

Notre confrère, Alex Reisner, estime que les archives de Commons Crawl contiennent « des millions d’articles provenant d’organismes de presse du monde entier, notamment The Economist, Los Angeles Times, The Wall Street Journal, The New York Times, The New Yorker, Harper’s et The Atlantic ».

En France, l’Alliance de la presse d’information générale (APIG) et le Syndicat des éditeurs de la presse magazine (SEPM) sont passés à la vitesse supérieure début septembre en mettant en demeure début septembre Common Crawl de retirer les sites de leurs membres de son archivage.

Retrait des articles de 81 éditeurs français

Un mois après, les deux lobbys de la presse ont obtenu le retrait des contenus de 81 éditeurs. Dans une interview au Journal du Net publiée début septembre, Léa Boccara, responsable du pôle juridique et des affaires publiques de l’Alliance, accusait aussi l’organisme à but non lucratif d’archiver des articles payants : « Nous sommes face à un crawling de masse d’articles et d’extraits d’articles, qui contourne les paywalls ». Elle rejoint ainsi les accusations lancées par The Atlantic.

On peut facilement imaginer, comme nos confrères états-uniens l’affirment, que Common Crawl ne se logue pas à chaque site d’information pour aspirer les contenus, mais qu’il contourne les paywalls. Et, en effet, de nombreux systèmes utilisés par la presse pour bloquer l’accès à leurs contenus se contentent de cacher avec du code javascript le texte des articles. Ainsi, alors qu’un navigateur ne l’affichera pas à l’utilisateur lambda d’un navigateur, un crawler peut facilement le récupérer.

Ajoutons qu’une bonne partie des éditeurs de presse savent que, derrière ce genre de « paywall », leurs contenus ne sont que vaguement protégés, ce qui permet de laisser les robots des moteurs de recherche classiques moissonner ces articles, et de mieux les valoriser dans leurs résultats.

Common Crawl réfute

Common Crawl a réagi à l’article de The Atlantic dans un billet publié le même jour. L’organisation réfute les accusations de mensonges envers les éditeurs de presse : « Cela donne une image fausse du fonctionnement de Common Crawl et des valeurs qui guident notre travail ». Elle ajoute : « Nous ne contournons pas les « paywalls », ne nous connectons à aucun site web et n’utilisons aucune méthode visant à contourner les restrictions d’accès ».

Elle affirme avoir toujours eu une approche transparente en publiant le code de son crawling et en le documentant publiquement, en identifiant l’user agent « CCBot » de son bot de crawling, en respectant les robots.txt et en se conformant « aux demandes de retrait et de suppression qui nous sont envoyées de bonne foi ».

Dans l’article de The Atlantic, le responsable de Common Crawl, Rich Skrenta, avait été plus direct, répondant que les éditeurs faisaient une erreur en s’excluant d’eux-mêmes de la « recherche 2.0 ». Il ajoutait : « Vous n’auriez pas dû publier votre contenu sur Internet si vous ne vouliez pas qu’il figure sur Internet ».

Enjeu économique avec des contrats à la clé

Reste que la presse n’engage pas ces démarches pour bloquer entièrement tout accès à leurs articles payants aux entreprises d’IA générative. En effet, comme l’explique l’Alliance de la presse d’information générale il y a là « un enjeu économique majeur » autour d’accords financiers avec ces mêmes entreprises d’IA.

Le Monde et Prisa Media ont, par exemple, dès le début de l’année 2024, signé des contrats avec OpenAI. L’Alliance s’appuie d’ailleurs sur l’exemple des accords noués avec Google sur les droits voisins concernant son moteur de recherche.

Louis Dreyfus, président du directoire du journal, expliquait encore récemment à l’INA que son groupe de presse a « vocation à signer d’autres accords avec d’autres acteurs ». Si Le Monde a aussi signé un contrat avec Perplexity, le responsable du journal explique que celle-ci n’a pas la possibilité d’entrainer de LLM avec ses articles, contrairement à OpenAI.

  •  

La bataille des éditeurs de presse face à Common Crawl continue

Common or paywalled ?
La bataille des éditeurs de presse face à Common Crawl continue

Alors que Common Crawl fournit des téraoctets de données d’entrainement aux entreprises d’IA générative, l’organisation est accusée de récupérer des contenus placés derrière des paywalls. La presse, en France ou ailleurs, essaye de bloquer l’aspiration de ses contenus via des procédures judiciaires, mais la plupart des paywalls laissent des trous pour jouer le jeu de l’indexation dans les moteurs de recherche.

La base de données Common Crawl est sous le feu des critiques de la presse parce qu’elle fournit aux entreprises d’IA générative comme OpenAI, Google, Anthropic, Nvidia, Meta ou Amazon énormément de contenus pour l’entrainement de leurs modèles.

La plupart des grands modèles de langage s’appuient, depuis leurs origines, sur cette base de données. Celle-ci regroupe des téraoctets de textes moissonnés sur le web. Tous les mois, une nouvelle archive est publiée par Common Crawl, gérée par une structure à but non lucratif.

Ainsi, le lot d’octobre 2025 contient 2,6 milliards de pages web, correspondant à 126 téraoctets de données compressées. Si la légalité de ce genre de moissonnage pour la recherche ou pour l’indexation ne fait pas de doute, il y en a plus pour des projets commerciaux d’IA générative, notamment car leurs systèmes peuvent régurgiter les contenus qui sont sous copyright ou sous d’autres régimes de droit d’auteurs.

Des articles sous paywall dans Common Crawl ?

Ce lundi 4 novembre, The Atlantic a publié un article à propos de la base de donnée qui accuse la structure à but non lucratif d’avoir ouvert une porte dérobée (backdoor) pour les entreprises d’IA leur permettant d’entrainer leurs modèles sur les articles de presse sous paywall, et de mentir à ce sujet aux éditeurs de presse.

Notre confrère, Alex Reisner, estime que les archives de Commons Crawl contiennent « des millions d’articles provenant d’organismes de presse du monde entier, notamment The Economist, Los Angeles Times, The Wall Street Journal, The New York Times, The New Yorker, Harper’s et The Atlantic ».

En France, l’Alliance de la presse d’information générale (APIG) et le Syndicat des éditeurs de la presse magazine (SEPM) sont passés à la vitesse supérieure début septembre en mettant en demeure début septembre Common Crawl de retirer les sites de leurs membres de son archivage.

Retrait des articles de 81 éditeurs français

Un mois après, les deux lobbys de la presse ont obtenu le retrait des contenus de 81 éditeurs. Dans une interview au Journal du Net publiée début septembre, Léa Boccara, responsable du pôle juridique et des affaires publiques de l’Alliance, accusait aussi l’organisme à but non lucratif d’archiver des articles payants : « Nous sommes face à un crawling de masse d’articles et d’extraits d’articles, qui contourne les paywalls ». Elle rejoint ainsi les accusations lancées par The Atlantic.

On peut facilement imaginer, comme nos confrères états-uniens l’affirment, que Common Crawl ne se logue pas à chaque site d’information pour aspirer les contenus, mais qu’il contourne les paywalls. Et, en effet, de nombreux systèmes utilisés par la presse pour bloquer l’accès à leurs contenus se contentent de cacher avec du code javascript le texte des articles. Ainsi, alors qu’un navigateur ne l’affichera pas à l’utilisateur lambda d’un navigateur, un crawler peut facilement le récupérer.

Ajoutons qu’une bonne partie des éditeurs de presse savent que, derrière ce genre de « paywall », leurs contenus ne sont que vaguement protégés, ce qui permet de laisser les robots des moteurs de recherche classiques moissonner ces articles, et de mieux les valoriser dans leurs résultats.

Common Crawl réfute

Common Crawl a réagi à l’article de The Atlantic dans un billet publié le même jour. L’organisation réfute les accusations de mensonges envers les éditeurs de presse : « Cela donne une image fausse du fonctionnement de Common Crawl et des valeurs qui guident notre travail ». Elle ajoute : « Nous ne contournons pas les « paywalls », ne nous connectons à aucun site web et n’utilisons aucune méthode visant à contourner les restrictions d’accès ».

Elle affirme avoir toujours eu une approche transparente en publiant le code de son crawling et en le documentant publiquement, en identifiant l’user agent « CCBot » de son bot de crawling, en respectant les robots.txt et en se conformant « aux demandes de retrait et de suppression qui nous sont envoyées de bonne foi ».

Dans l’article de The Atlantic, le responsable de Common Crawl, Rich Skrenta, avait été plus direct, répondant que les éditeurs faisaient une erreur en s’excluant d’eux-mêmes de la « recherche 2.0 ». Il ajoutait : « Vous n’auriez pas dû publier votre contenu sur Internet si vous ne vouliez pas qu’il figure sur Internet ».

Enjeu économique avec des contrats à la clé

Reste que la presse n’engage pas ces démarches pour bloquer entièrement tout accès à leurs articles payants aux entreprises d’IA générative. En effet, comme l’explique l’Alliance de la presse d’information générale il y a là « un enjeu économique majeur » autour d’accords financiers avec ces mêmes entreprises d’IA.

Le Monde et Prisa Media ont, par exemple, dès le début de l’année 2024, signé des contrats avec OpenAI. L’Alliance s’appuie d’ailleurs sur l’exemple des accords noués avec Google sur les droits voisins concernant son moteur de recherche.

Louis Dreyfus, président du directoire du journal, expliquait encore récemment à l’INA que son groupe de presse a « vocation à signer d’autres accords avec d’autres acteurs ». Si Le Monde a aussi signé un contrat avec Perplexity, le responsable du journal explique que celle-ci n’a pas la possibilité d’entrainer de LLM avec ses articles, contrairement à OpenAI.

  •  

Deux nouveaux processeurs AMD Strix Halo avec GPU à 40 cœurs en approche !

Actuellement la gamme des processeurs AMD Ryzen AI Max, alias Strix Halo, ne compte que 3 références : les Ryzen AI Max+ 395, Ryzen AI Max 390 et Ryzen AI Max 385. Pour ceux qui veulent un Strix Halo avec le GPU intégré le plus performant qui soit, le Radeon 8060S et ses 40 cœurs RDNA 3.5, le choix...

  •  

36 ports USB : on appelle ça une carte mère ou une autoroute à périphérique ?

Mais qui a réellement besoin d'une carte mère avec 36 ports USB ? Visiblement quelqu'un s'est posé la question… puis a décidé d'y répondre avec un fer à souder. Une vieille carte mère en LGA 1151 a donc subi une petite opération de chirurgie lourde : on lui a greffé assez de ports USB pour organiser un tournoi de Tetris 99 sur une seule machine. Reste maintenant à espérer que ce n'est pas juste pour faire joli, et que tous les ports sont vraiment branchés… pas juste collés à chaud pour impressionner les copains. […]

Lire la suite
  •  

3mdeb Achieves Good Progress Porting Coreboot+OpenSIL To AMD Turin Motherboard

Over the past few months the open-source firmware consulting firm 3mdeb has been porting Coreboot and AMD's new openSIL silicon initialization library to the Gigabyte MZ33-AR1. The Gigabyte MZ33-AR1 is a broadly available motherboard that supports the latest-generation AMD EPYC 9005 "Turin" server processors. 3mdeb has been fairly successful in their quest and an early demonstrator for openSIL...
  •  

Kingston lance une version de 8 To de son SSD FURY Renegade G5, pour ceux qui ont les bourses pleines !

Kingston possède une gamme de SSD NVMe PCIe 5.0 moins en vue que les marques plus classiques comme Corsair, Crucial ou Lexar, mais elle a le mérite d'exister et d'étayer l'offre. Aujourd'hui, un modèle de 8 To arrive sur le marché, il est d'ores et déjà trouvable sur Mazone sous le nom de Kingston F...

  •  

Le Steam Deck hérite d’un mode basse consommation

Proposé en mode Beta et Preview de la console, le mode basse consommation va permettre de basculer le Steam Deck dans un état dans lequel il limitera radicalement l’usage de sa batterie, mais sans s’éteindre complètement. Un mode limité, mais suffisant pour, par exemple, télécharger des données.

C’est un des défauts des consoles de jeux de ce type. Elles n’ont pas forcément une connexion au réseau très rapide et doivent télécharger des jeux pesant de gros paquets de gigaoctets. On les laisse donc trainer sur un dock ou au bout d’un câble le temps qu’elles finissent cette corvée. Mais il arrive également qu’on se retrouve à devoir télécharger des données de manière impromptue, loin de toute prise d’alimentation. Pour des mises à jour par exemple. Et là, la console reste allumée au maximum de ses capacités pour une tâche n’en nécessitant pas autant.

Un mode basse consommation très logique

Pour éviter cela, Valve a donc décidé d’initier une mise à jour qui permettra de basculer la console en mode basse consommation. Un protocole tout simple qui éteindra l’écran et limitera les dépenses énergétiques non nécessaires. En activant cette option dans les paramètres de l’alimentation, on pourra basculer la console  dans une semi léthargie technique. En appuyant sur le bouton de démarrage, la console demandera si vous voulez passer en basse consommation ou éteindre. Si vous faites le premier choix, le Stem Deck éteindra son écran et continuera d’effectuer les tâches demandées. Par exemple, le téléchargement de données en Wi-Fi. LEs 22 Go de mise à jour de votre SuperJeu pourra donc se faire sans dépenser l’énergie nécessaire au rétro éclairage de l’écran. Aucune informations sur la mise en veille d’autres postes. On se doute que le stockage et la mémoire resteront actifs, mais le système pourrait également éteindre des cœurs du processeur, couper au maximum le circuit graphique et limiter la fréquence de la puce. 

Le mode basse consommation du Steam Deck

Valve a bien peaufiné sa solution et proposera de réveiller la machine à moitié pour vérifier l’état des opérations. En appuyant sur un bouton, l’écran s’allumera à nouveau pour vous indiquer la progression de vos téléchargements. Vous pourrez alors choisir de la réveiller ou de la replonger dans sa cryostase. Si, avant la fin de son téléchargement, vous la laissez tranquille, alors elle finira par s’éteindre complètement. À noter que pour être certain de ne pas pousser la batterie dans un mode de décharge complet, le système s’arrêtera de lui-même lorsque vous atteindrez 20% de capacité. Et cela même si vos téléchargements ne sont pas terminés.

La solution est à la fois simple et élégante. Elle permettra par exemple de mettre en charge votre Steam Deck pour la nuit sur son dock. Tout en lui demandant de lancer ses mises à jour puis de la basculer dans ce mode basse consommation pour qu’elle télécharge vos données avant de s’éteindre toute seule.

Valve joue ici avec les possibilités des machines modernes de réguler leur consommation. Compétences que l’on connait bien dans le monde des portables, mais souvent encore peu ou mal employées. On a croisé, par exemple, des MiniPC AMD qui permettent de basculer entre plusieurs modes d’usage pour limiter leur consommation et leur ventilation. On imagine qu’il serait possible de jouer avec beaucoup plus de paramètres et de créer des profils techniques assez vastes. Les constructeurs de portables jouent ainsi sur la baisse de la luminosité des écrans, la limitation en fréquence des puces sur batterie et autres techniques visant à augmenter l’autonomie. L’option de mettre à jour avant d’arrêter sa machine est également présente sur des systèmes d’exploitation depuis longtemps. Mais les utilisateurs ont très rarement la main sur ces options qui restent souvent à la discrétion seule des constructeurs.

Source : Valve

Le Steam Deck hérite d’un mode basse consommation © MiniMachines.net. 2025

  •  

La Haute Autorité de santé dit oui à l’IA, mais pas n’importe comment

Pas si évident
La Haute Autorité de santé dit oui à l’IA, mais pas n’importe comment

La HAS a publié le 30 octobre un guide pédagogique sur l’utilisation de l’intelligence artificielle générative dans l’ensemble du secteur sanitaire, social et médico-social. L’autorité ne s’oppose pas à cette utilisation, mais elle pointe très vite les deux problèmes majeurs : la sensibilité des données manipulées et la fiabilité des résultats.

Les données de santé sont une mine d’or. Selon comment elles sont exploitées, elles peuvent permettre le suivi de l’efficacité des traitements, faire apparaitre des corrélations, étudier des prévalences et autres.

Ce caractère précieux est au cœur de plusieurs décisions politiques. En France, il y a bien sûr le HDH (Health Data Hub) et ses décisions sulfureuses d’hébergement chez Microsoft, pointées constamment par le député Philippe Latombe, des rapports interministériels ou même encore récemment par la Cour des comptes. L’entrepôt de données européen EMC2 a le même problème.

Mais les objectifs sont à chaque fois les mêmes : concentrer les données, favoriser les travaux des chercheurs, servir de guichet unique et, bien sûr, permettre à terme le traitement des données par l’IA. Dans le cadre du projet EMC2 d’ailleurs, l’Agence européenne du médicament abordait explicitement cette finalité.

La Haute Autorité de santé publie donc un avis sur la question, même s’il peut sembler tardif. Dans les grandes lignes toutefois, la HAS ne réagit pas spécifiquement sur l’exploitation des données, mais vise les professionnels de santé et l’utilisation de l’IA comme aide à la décision.

Quatre lignes directrices

La HAS publie principalement quatre conseils, rassemblés sous l’appellation : AVEC, pour « Apprendre, Vérifier, Estimer et Communiquer ».

Pour l’apprentissage, la HAS recommande chaudement aux professionnels de se former sur les outils qu’ils utilisent. Les IA peuvent faire gagner du temps, mais la plupart n’ont pas été formées sur les questions de santé. Les professionnels devraient ainsi s’interroger sur les modalités d’utilisation, les règles liées à la confidentialité des données personnelles ou encore effectuer des tests pratiques avant de se lancer dans une pratique quotidienne.

Sur la vérification, la HAS conseille la prudence face aux résultats renvoyés par l’IA : « le professionnel est attentif à la pertinence de son usage, à la qualité de sa requête et au contrôle du contenu généré ». Ce qui inclut de ne pas partager d’informations confidentielles et de considérer chaque réponse comme une proposition et non une vérité. La fiabilité des réponses de l’IA ne pouvant par définition être garantie (approche probabiliste), elles peuvent contenir des erreurs : valeurs et unités des quantités chiffrées, noms des médicaments, etc. On l’a vu récemment dans nos propres tests, l’IA peut se tromper lourdement dans la méthode de calcul.

L’estimation concerne l’analyse régulière de l’adéquation entre les besoins et les résultats. Les professionnels de santé sont ainsi invités à réinterroger sa pratique : des corrections ont-elles été nécessaires ? Si oui, à quelle fréquence ? L’outil est-il simple d’utilisation ? A-t-il pu être intégré dans des flux de travail existants ? En somme, la HAS souhaite que les professionnels s’interrogent sur les gains apportés face aux contraintes.

Enfin, pour la communication, la Haute Autorité est claire : les professionnels devraient échanger avec les patients autour de l’usage de l’IA. L’autorité leur recommande également de favoriser les retours d’expérience avec d’autres utilisateurs et développer « une démarche de transparence autour des typologies de données partagées, de l’adhésion au sein de sa structure et des impacts organisationnels ».

Le danger des mauvaises pratiques

De manière générale, la HAS souhaite que chaque usage de l’IA générative soit « conscient, supervisé et raisonné ».

Cependant, même si elle peut « devenir une alliée » quand elle est « bien maitrisée », l’autorité pointe également les dangers inhérents à son utilisation. Elle met en garde contre les erreurs pouvant survenir dans les réponses envoyées, notamment quand elles se fondent sur des données non vérifiées. Surtout, elle pointe les hallucinations, soit des informations fausses mais qui peuvent paraitre convaincantes. 

Outre les dangers propres à l’IA elle-même, la HAS signale de mauvais comportements chez les professionnels eux-mêmes, dont l’utilisation d’informations confidentielles dans les requêtes, expliquant les conseils sur la communication avec les patients.

Dans l’ensemble, l’autorité évoque un potentiel prometteur sur l’ensemble de ces technologies. Elle ne parle d’ailleurs pas uniquement des interfaces questions/réponses des chatbots, mais aussi d’autres outils devenus très courants : transcriptions de conversations lors de consultations, synthèses de littérature scientifique, création de documents illustrés pour expliquer des parcours médicaux-sociaux, préremplissage de documents administratifs, traductions de textes pour des personnes non-francophones, etc. Tous peuvent faire gagner du temps (voire beaucoup), mais le risque d’erreur est le même dans tous les cas de figure dès que l’outil utilise l’IA générative.

Enfin, outre les erreurs, les professionnels ont tout intérêt à se former pour s’acclimater à des concepts centraux de l’IA générative. Par exemple, les réponses peuvent varier dans le temps, notamment en fonction de la version du modèle et des données utilisées pour l’entrainement. La qualité de la réponse peut aussi fortement varier selon le soin apporté à la question (prompt).

Pour les personnes intéressées, la HAS a donc publié deux versions de ses recommandations : une complète d’une quinzaine de pages (PDF), et une concise rassemblant les principales informations sur une seule page (PDF). Administration publique oblige, la HAS a également publié un rapport sur l’élaboration de son guide et les méthodes utilisées (PDF).

  •  

La Haute Autorité de santé dit oui à l’IA, mais pas n’importe comment

Pas si évident
La Haute Autorité de santé dit oui à l’IA, mais pas n’importe comment

La HAS a publié le 30 octobre un guide pédagogique sur l’utilisation de l’intelligence artificielle générative dans l’ensemble du secteur sanitaire, social et médico-social. L’autorité ne s’oppose pas à cette utilisation, mais elle pointe très vite les deux problèmes majeurs : la sensibilité des données manipulées et la fiabilité des résultats.

Les données de santé sont une mine d’or. Selon comment elles sont exploitées, elles peuvent permettre le suivi de l’efficacité des traitements, faire apparaitre des corrélations, étudier des prévalences et autres.

Ce caractère précieux est au cœur de plusieurs décisions politiques. En France, il y a bien sûr le HDH (Health Data Hub) et ses décisions sulfureuses d’hébergement chez Microsoft, pointées constamment par le député Philippe Latombe, des rapports interministériels ou même encore récemment par la Cour des comptes. L’entrepôt de données européen EMC2 a le même problème.

Mais les objectifs sont à chaque fois les mêmes : concentrer les données, favoriser les travaux des chercheurs, servir de guichet unique et, bien sûr, permettre à terme le traitement des données par l’IA. Dans le cadre du projet EMC2 d’ailleurs, l’Agence européenne du médicament abordait explicitement cette finalité.

La Haute Autorité de santé publie donc un avis sur la question, même s’il peut sembler tardif. Dans les grandes lignes toutefois, la HAS ne réagit pas spécifiquement sur l’exploitation des données, mais vise les professionnels de santé et l’utilisation de l’IA comme aide à la décision.

Quatre lignes directrices

La HAS publie principalement quatre conseils, rassemblés sous l’appellation : AVEC, pour « Apprendre, Vérifier, Estimer et Communiquer ».

Pour l’apprentissage, la HAS recommande chaudement aux professionnels de se former sur les outils qu’ils utilisent. Les IA peuvent faire gagner du temps, mais la plupart n’ont pas été formées sur les questions de santé. Les professionnels devraient ainsi s’interroger sur les modalités d’utilisation, les règles liées à la confidentialité des données personnelles ou encore effectuer des tests pratiques avant de se lancer dans une pratique quotidienne.

Sur la vérification, la HAS conseille la prudence face aux résultats renvoyés par l’IA : « le professionnel est attentif à la pertinence de son usage, à la qualité de sa requête et au contrôle du contenu généré ». Ce qui inclut de ne pas partager d’informations confidentielles et de considérer chaque réponse comme une proposition et non une vérité. La fiabilité des réponses de l’IA ne pouvant par définition être garantie (approche probabiliste), elles peuvent contenir des erreurs : valeurs et unités des quantités chiffrées, noms des médicaments, etc. On l’a vu récemment dans nos propres tests, l’IA peut se tromper lourdement dans la méthode de calcul.

L’estimation concerne l’analyse régulière de l’adéquation entre les besoins et les résultats. Les professionnels de santé sont ainsi invités à réinterroger sa pratique : des corrections ont-elles été nécessaires ? Si oui, à quelle fréquence ? L’outil est-il simple d’utilisation ? A-t-il pu être intégré dans des flux de travail existants ? En somme, la HAS souhaite que les professionnels s’interrogent sur les gains apportés face aux contraintes.

Enfin, pour la communication, la Haute Autorité est claire : les professionnels devraient échanger avec les patients autour de l’usage de l’IA. L’autorité leur recommande également de favoriser les retours d’expérience avec d’autres utilisateurs et développer « une démarche de transparence autour des typologies de données partagées, de l’adhésion au sein de sa structure et des impacts organisationnels ».

Le danger des mauvaises pratiques

De manière générale, la HAS souhaite que chaque usage de l’IA générative soit « conscient, supervisé et raisonné ».

Cependant, même si elle peut « devenir une alliée » quand elle est « bien maitrisée », l’autorité pointe également les dangers inhérents à son utilisation. Elle met en garde contre les erreurs pouvant survenir dans les réponses envoyées, notamment quand elles se fondent sur des données non vérifiées. Surtout, elle pointe les hallucinations, soit des informations fausses mais qui peuvent paraitre convaincantes. 

Outre les dangers propres à l’IA elle-même, la HAS signale de mauvais comportements chez les professionnels eux-mêmes, dont l’utilisation d’informations confidentielles dans les requêtes, expliquant les conseils sur la communication avec les patients.

Dans l’ensemble, l’autorité évoque un potentiel prometteur sur l’ensemble de ces technologies. Elle ne parle d’ailleurs pas uniquement des interfaces questions/réponses des chatbots, mais aussi d’autres outils devenus très courants : transcriptions de conversations lors de consultations, synthèses de littérature scientifique, création de documents illustrés pour expliquer des parcours médicaux-sociaux, préremplissage de documents administratifs, traductions de textes pour des personnes non-francophones, etc. Tous peuvent faire gagner du temps (voire beaucoup), mais le risque d’erreur est le même dans tous les cas de figure dès que l’outil utilise l’IA générative.

Enfin, outre les erreurs, les professionnels ont tout intérêt à se former pour s’acclimater à des concepts centraux de l’IA générative. Par exemple, les réponses peuvent varier dans le temps, notamment en fonction de la version du modèle et des données utilisées pour l’entrainement. La qualité de la réponse peut aussi fortement varier selon le soin apporté à la question (prompt).

Pour les personnes intéressées, la HAS a donc publié deux versions de ses recommandations : une complète d’une quinzaine de pages (PDF), et une concise rassemblant les principales informations sur une seule page (PDF). Administration publique oblige, la HAS a également publié un rapport sur l’élaboration de son guide et les méthodes utilisées (PDF).

  •  

NVIDIA fait un très beau geste pour l'utilisateur qui a endommagé le connecteur de sa RTX 5090 FE

Alors que la GeForce RTX 5090 Founders Edition de NVIDIA fait rêver avec son format moindre et ses performances stratosphériques, un retour terrain vient un peu ternir l'image de cette carte hors norme. Le spécialiste en réparation NorthridgeFix tire en effet la sonnette d'alarme : la carte serait particulièrement difficile à démonter et à réparer, voire même quasi impossible à remettre en état dans certains cas.Le principal souci viendrait d'un connecteur interne très fragile reliant certaines parties du PCB et du système de refroidissement. Ce connecteur n'est pas conçu pour supporter plusieurs démontages et pourrait facilement s'endommager lors d'une intervention, notamment pour ceux qui envisagent un changement de pâte thermique ou l'installation d'un waterblock. […]

Lire la suite
  •  

Seasonic, 50 ans d'innovations aux services de nos alimentations

Nous vous proposons, toujours dans le cadre de notre CCL Tech Tour 2025, de revenir sur les 50 ans de la marque Seasonic, un acteur ô combien important et incontournable quand on parle d'alimentation PC. Comme vous allez le voir, la marque taïwanaise ne fait pas que produire des blocs, en effet, elle est à la pointe de la technologie et des innovations. […]

Lire la suite
  •  

La console Nintendo Switch 2 se vend toujours TRES bien !

La nouvelle petite, pas si petite, console de Nintendo cartonne... Cette nouvelle déclanaison de la Switch que nous vous avons fait découvrir ici même : Nintendo Switch 2, nos premières impressions, se vend comme des petits pains. Nintendo vient de l'annoncer, la Nintendo Switch 2 est déjà la console la plus vendue de la marque en aussi peu de temps. Vous êtes prêts, nous allons vous donner le chiffre, roulement de tambour. […]

Lire la suite
  •  

JONSBO X400, un style connu pour un flux d'air revu

Après le BO400, JONSBO revient avec un nouveau boitier qui reprend le même style tout an apportant des changements significatifs au niveau du châssis, avec notamment deux emplacements de 120 mm sur l'arrière et donc une plus grande polyvalence pour le refroidissement. Relativement imposant avec des dimensions de 460.2 x 310.3 x 476.5 mm, le X400 se démarque surtout sur un point qu'on ne voit pas au premier coup d'oeil : un nouvel emplacement en 2 x 120 mm dans la continuité du plateau de la carte mère avec un déflecteur qui va rediriger l'air vers le processeur. Pratique si on installe un AIO avec un radiateur de 360 mm dans le haut pour refroidir les VRM ? […]

Lire la suite
  •  

Seagate LaCie Rugged SSD4, un SSD externe rapide et costaud !

Cela fait maintenant plusieurs années que la série LaCie Rugged nous accompagne, avec des mises à jours diverses et variées en fonction des évolutions technologiques. Récemment, Seagate est revenu avec un modèle en USB4 annoncé à 4000 Mo/s en lecture et 3000 Mo/s en écriture. Un disque externe assez gros pour ne pas le perdre sans prendre trop de place dans un sac, une couleur orange qui ne passe pas inaperçue, mais surtout de gros débits ! A découvrir ici : Seagate LaCie Rugged SSD4, un SSD externe rapide et costaud ! ou sur la source. […]

Lire la suite
  •  

Call of Duty: Black Ops 7 précise ses recommandations hardware

Un premier teaser vient d'être dévoilé pour le jeu Call of Duty: Black Ops 7, ce dernier est plutôt long, un peu plus de trois minutes, mais en dévoile malheureusement pas de gameplay. On apprend, juste, que les événements feront suite à ceux vécus dans Black Ops 2 et Black Ops 6. Nous nous situerons dans un futur proche, 2035, dans un monde qui promet d'être dévasté, la campagne devrait faire la part belle au coop et le multijoueur devrait acceuillir de nouvelles maps. Le jeu est déjà listé sur Steam et Battlenet. […]

Lire la suite
  •