Vue normale

Reçu aujourd’hui — 14 novembre 2025

Google : Bruxelles enquête sur la rétrogradation des contenus de certains médias

14 novembre 2025 à 11:12
Publireportages, publicités natives ou spam, c'est pas la même chose ?
Google : Bruxelles enquête sur la rétrogradation des contenus de certains médias

Dans son moteur de recherche, Google a décidé de rétrograder des publications sponsorisées publiées sur les sites de certains médias, les considérant comme du spam. La Commission européenne vient d’ouvrir une enquête sur le sujet pour vérifier que cette démarche respecte le DMA et que Google n’utilise pas ce filtre pour protéger ses parts de marché dans la publicité en ligne.

La Commission européenne ouvre une nouvelle enquête sur les pratiques de Google. Alors qu’elle a récemment infligé une amende de 3 milliards d’euros à l’entreprise pour avoir enfreint les règles de la concurrence dans le domaine de la publicité, l’organe exécutif de l’Union européenne s’intéresse à la rétrogradation de contenus de certains médias dans le moteur de recherche.

Elle cherche à vérifier que Google applique bien « des conditions d’accès équitables, raisonnables et non discriminatoires aux sites web des éditeurs sur Google Search », explique-t-elle dans un communiqué, en précisant que c’est une obligation imposée par la législation sur les marchés numériques (le DMA).

Google considère depuis un an et demi certains publireportages ou publicités natives comme du spam

Tout part d’une mise à jour par Google, en mars 2024, de ses règles concernant le spam pour son moteur de recherche.

On peut y lire notamment que, depuis, l’entreprise considère comme des « liens toxiques » les « publireportages ou publicités natives pour lesquels une rémunération est perçue contre des articles contenant des liens qui améliorent le classement, ou des liens avec du texte d’ancrage optimisé dans des articles, des articles d’invités, ou des communiqués de presse diffusés sur d’autres sites ».

Dans son argumentaire pour justifier cette mise à jour, Google explique sa position : « Nos Règles concernant le spam visent à contrarier les pratiques pouvant avoir un impact négatif sur la qualité des résultats de recherche Google ».

Un changement qui n’a pas plu aux lobbys de la presse européenne

Mais, comme l’expliquaient en avril dernier nos confrères de Contexte, plusieurs lobbys de la presse européenne pointaient les « pratiques de Google relatives à sa politique dite « Site Reputation Abuse » (SRA) – une mesure qui pénalise les sites web dans le classement de Google Search pour avoir coopéré avec des fournisseurs de contenu tiers, indépendamment du contrôle éditorial exercé par le site web sur ce contenu ou de sa qualité respective ».

Le même jour, l’entreprise allemande ActMeraki portait plainte auprès de la Commission sur le même sujet. « Google continue de fixer unilatéralement les règles du commerce en ligne à son avantage, en privilégiant ses propres offres commerciales et en privant les prestataires de services concurrents de toute visibilité. Il est temps d’y mettre un terme définitif », affirmait à Reuters l’avocat de l’entreprise.

Et tout le problème est là. Si les arguments de Google contre l’utilisation des publireportages ou publicités natives pour promouvoir du spam sont légitimes, l’entreprise met en place des règles concernant le marché de la publicité alors qu’elle est elle-même en position dominante sur celui-ci.

La Commission explique examiner « si les rétrogradations par Alphabet de sites web et de contenus d’éditeurs dans Google Search peuvent avoir une incidence sur la liberté des éditeurs d’exercer des activités commerciales légitimes, d’innover et de coopérer avec des fournisseurs de contenus tiers ». Elle précise que l’ouverture de son enquête « ne préjuge pas d’une constatation de non-conformité ». Elle ajoute que si elle trouve des preuves d’infractions au DMA, elle expliquera à Alphabet les mesures adéquates à prendre et qu’elle peut lui infliger une amende allant jusqu’à 10 % de son chiffre d’affaires mondial.

Dans sa déclaration sur le sujet, la vice-présidente exécutive de la Commission européenne
pour une transition propre, juste et compétitive, Teresa Ribera, est plus vindicative : « Nous sommes préoccupés par le fait que les politiques de Google ne permettent pas aux éditeurs de presse d’être traités de manière équitable, raisonnable et non discriminatoire dans ses résultats de recherche. Nous mènerons une enquête afin de nous assurer que les éditeurs de presse ne perdent pas d’importantes sources de revenus dans une période difficile pour le secteur, et que Google respecte la loi sur les marchés numériques ».

Google confirme sa position sur sa lutte anti-spam

De son côté, Google a jugé bon de publier un billet de blog pour défendre sa politique anti-spam de son moteur de recherche. « L’enquête annoncée aujourd’hui sur nos efforts de lutte contre le spam est malavisée et risque de nuire à des millions d’utilisateurs européens », affirme l’entreprise. « La politique anti-spam de Google est essentielle dans notre lutte contre les tactiques trompeuses de paiement à la performance qui nuisent à la qualité de nos résultats », ajoute-t-elle.

Elle donne deux exemples d’articles sponsorisés qu’elle considère comme problématiques :

Si l’entreprise semble se soucier des spams qui polluent son moteur de recherche, rappelons qu’elle montre beaucoup moins de scrupule dans la gestion des contenus recommandés par son autre outil Discover qui met en avant, par exemple, des infox GenAI diffamantes sur du soi-disant pain cancérigène ou un faux scandale de poissons recongelés.

Google : Bruxelles enquête sur la rétrogradation des contenus de certains médias

14 novembre 2025 à 11:12
Publireportages, publicités natives ou spam, c'est pas la même chose ?
Google : Bruxelles enquête sur la rétrogradation des contenus de certains médias

Dans son moteur de recherche, Google a décidé de rétrograder des publications sponsorisées publiées sur les sites de certains médias, les considérant comme du spam. La Commission européenne vient d’ouvrir une enquête sur le sujet pour vérifier que cette démarche respecte le DMA et que Google n’utilise pas ce filtre pour protéger ses parts de marché dans la publicité en ligne.

La Commission européenne ouvre une nouvelle enquête sur les pratiques de Google. Alors qu’elle a récemment infligé une amende de 3 milliards d’euros à l’entreprise pour avoir enfreint les règles de la concurrence dans le domaine de la publicité, l’organe exécutif de l’Union européenne s’intéresse à la rétrogradation de contenus de certains médias dans le moteur de recherche.

Elle cherche à vérifier que Google applique bien « des conditions d’accès équitables, raisonnables et non discriminatoires aux sites web des éditeurs sur Google Search », explique-t-elle dans un communiqué, en précisant que c’est une obligation imposée par la législation sur les marchés numériques (le DMA).

Google considère depuis un an et demi certains publireportages ou publicités natives comme du spam

Tout part d’une mise à jour par Google, en mars 2024, de ses règles concernant le spam pour son moteur de recherche.

On peut y lire notamment que, depuis, l’entreprise considère comme des « liens toxiques » les « publireportages ou publicités natives pour lesquels une rémunération est perçue contre des articles contenant des liens qui améliorent le classement, ou des liens avec du texte d’ancrage optimisé dans des articles, des articles d’invités, ou des communiqués de presse diffusés sur d’autres sites ».

Dans son argumentaire pour justifier cette mise à jour, Google explique sa position : « Nos Règles concernant le spam visent à contrarier les pratiques pouvant avoir un impact négatif sur la qualité des résultats de recherche Google ».

Un changement qui n’a pas plu aux lobbys de la presse européenne

Mais, comme l’expliquaient en avril dernier nos confrères de Contexte, plusieurs lobbys de la presse européenne pointaient les « pratiques de Google relatives à sa politique dite « Site Reputation Abuse » (SRA) – une mesure qui pénalise les sites web dans le classement de Google Search pour avoir coopéré avec des fournisseurs de contenu tiers, indépendamment du contrôle éditorial exercé par le site web sur ce contenu ou de sa qualité respective ».

Le même jour, l’entreprise allemande ActMeraki portait plainte auprès de la Commission sur le même sujet. « Google continue de fixer unilatéralement les règles du commerce en ligne à son avantage, en privilégiant ses propres offres commerciales et en privant les prestataires de services concurrents de toute visibilité. Il est temps d’y mettre un terme définitif », affirmait à Reuters l’avocat de l’entreprise.

Et tout le problème est là. Si les arguments de Google contre l’utilisation des publireportages ou publicités natives pour promouvoir du spam sont légitimes, l’entreprise met en place des règles concernant le marché de la publicité alors qu’elle est elle-même en position dominante sur celui-ci.

La Commission explique examiner « si les rétrogradations par Alphabet de sites web et de contenus d’éditeurs dans Google Search peuvent avoir une incidence sur la liberté des éditeurs d’exercer des activités commerciales légitimes, d’innover et de coopérer avec des fournisseurs de contenus tiers ». Elle précise que l’ouverture de son enquête « ne préjuge pas d’une constatation de non-conformité ». Elle ajoute que si elle trouve des preuves d’infractions au DMA, elle expliquera à Alphabet les mesures adéquates à prendre et qu’elle peut lui infliger une amende allant jusqu’à 10 % de son chiffre d’affaires mondial.

Dans sa déclaration sur le sujet, la vice-présidente exécutive de la Commission européenne
pour une transition propre, juste et compétitive, Teresa Ribera, est plus vindicative : « Nous sommes préoccupés par le fait que les politiques de Google ne permettent pas aux éditeurs de presse d’être traités de manière équitable, raisonnable et non discriminatoire dans ses résultats de recherche. Nous mènerons une enquête afin de nous assurer que les éditeurs de presse ne perdent pas d’importantes sources de revenus dans une période difficile pour le secteur, et que Google respecte la loi sur les marchés numériques ».

Google confirme sa position sur sa lutte anti-spam

De son côté, Google a jugé bon de publier un billet de blog pour défendre sa politique anti-spam de son moteur de recherche. « L’enquête annoncée aujourd’hui sur nos efforts de lutte contre le spam est malavisée et risque de nuire à des millions d’utilisateurs européens », affirme l’entreprise. « La politique anti-spam de Google est essentielle dans notre lutte contre les tactiques trompeuses de paiement à la performance qui nuisent à la qualité de nos résultats », ajoute-t-elle.

Elle donne deux exemples d’articles sponsorisés qu’elle considère comme problématiques :

Si l’entreprise semble se soucier des spams qui polluent son moteur de recherche, rappelons qu’elle montre beaucoup moins de scrupule dans la gestion des contenus recommandés par son autre outil Discover qui met en avant, par exemple, des infox GenAI diffamantes sur du soi-disant pain cancérigène ou un faux scandale de poissons recongelés.

☕️ 127 organisations européennes s’insurgent de la volonté de la Commission d’alléger le RGPD

14 novembre 2025 à 08:58

Dans une lettre ouverte publiée ce jeudi 13 novembre [PDF], 127 organisations européennes dont noyb, EDRi, le Chaos Computer Club ou encore Ekō s’opposent à la loi « omnibus numérique » proposée par la Commission européenne. Pour rappel, celle-ci veut notamment alléger le RGPD au profit des entreprises d’IA.

« Ce qui est présenté comme une « rationalisation technique » des lois numériques de l’UE est en réalité une tentative de démanteler subrepticement les protections les plus solides de l’Europe contre les menaces numériques », écrivent-elles. Sans modifications significatives du texte, il deviendrait « le plus grand recul des droits fondamentaux numériques dans l’histoire de l’UE ».

IA Act

« En qualifiant de « bureaucratie » des lois essentielles telles que le RGPD, la directive ePrivacy, la loi sur l’IA, le DSA, le DMA, la réglementation sur l’internet ouvert (DNA), la directive sur le devoir de vigilance des entreprises en matière de durabilité et d’autres lois cruciales, l’UE cède aux puissants acteurs privés et publics qui s’opposent aux principes d’un paysage numérique équitable, sûr et démocratique et qui souhaitent abaisser le niveau des lois européennes à leur propre avantage » affirment-elles.

Enfin, elles ajoutent que « les règles récemment adoptées par l’Europe en matière d’IA risquent également d’être compromises, l’Omnibus étant sur le point de supprimer certaines des mesures de protection destinées à garantir que l’IA soit développée de manière sûre et sans discrimination ».

Ces 127 organisations demandent donc à la commission de « mettre immédiatement fin » à la relecture de textes comme le RGPD, l’ePrivacy ou l’AI act et de « réaffirmer l’engagement de l’UE en faveur d’une gouvernance numérique fondée sur les droits, y compris une application stricte des protections existantes ».

☕️ 127 organisations européennes s’insurgent de la volonté de la Commission d’alléger le RGPD

14 novembre 2025 à 08:58

Dans une lettre ouverte publiée ce jeudi 13 novembre [PDF], 127 organisations européennes dont noyb, EDRi, le Chaos Computer Club ou encore Ekō s’opposent à la loi « omnibus numérique » proposée par la Commission européenne. Pour rappel, celle-ci veut notamment alléger le RGPD au profit des entreprises d’IA.

« Ce qui est présenté comme une « rationalisation technique » des lois numériques de l’UE est en réalité une tentative de démanteler subrepticement les protections les plus solides de l’Europe contre les menaces numériques », écrivent-elles. Sans modifications significatives du texte, il deviendrait « le plus grand recul des droits fondamentaux numériques dans l’histoire de l’UE ».

IA Act

« En qualifiant de « bureaucratie » des lois essentielles telles que le RGPD, la directive ePrivacy, la loi sur l’IA, le DSA, le DMA, la réglementation sur l’internet ouvert (DNA), la directive sur le devoir de vigilance des entreprises en matière de durabilité et d’autres lois cruciales, l’UE cède aux puissants acteurs privés et publics qui s’opposent aux principes d’un paysage numérique équitable, sûr et démocratique et qui souhaitent abaisser le niveau des lois européennes à leur propre avantage » affirment-elles.

Enfin, elles ajoutent que « les règles récemment adoptées par l’Europe en matière d’IA risquent également d’être compromises, l’Omnibus étant sur le point de supprimer certaines des mesures de protection destinées à garantir que l’IA soit développée de manière sûre et sans discrimination ».

Ces 127 organisations demandent donc à la commission de « mettre immédiatement fin » à la relecture de textes comme le RGPD, l’ePrivacy ou l’AI act et de « réaffirmer l’engagement de l’UE en faveur d’une gouvernance numérique fondée sur les droits, y compris une application stricte des protections existantes ».

Reçu hier — 13 novembre 2025

COP 30 : alarme sur la propagation de la désinformation sur le climat

13 novembre 2025 à 15:53
This is fine.
COP 30 : alarme sur la propagation de la désinformation sur le climat

Un groupe d’une douzaine de pays présents à la COP 30 au Brésil, dont la France, annonce vouloir s’emparer activement de la lutte contre la désinformation sur le climat. En amont du sommet, des ONG avaient sonné l’alarme à propos de la forte propagation de la désinformation climatique sur internet, avec l’IA générative comme nouvel outil de superpropagation.

En marge de la COP 30 qui se déroule actuellement à Belém, au Brésil, 12 pays ont publié une déclaration sur l’intégrité de l’information en matière de changement climatique.

Déclaration de principe de 12 pays

La Belgique, le Brésil, le Canada, le Chili, le Danemark, la Finlande, la France, l’Allemagne, les Pays-Bas, l’Espagne, la Suède et l’Uruguay appellent [PDF] à lutter contre les contenus mensongers diffusés en ligne et à mettre fin aux attaques.

Ils s’y disent « préoccupés par l’impact croissant de la désinformation, de la mésinformation, du déni, des attaques délibérées contre les journalistes, les défenseurs, les scientifiques, les chercheurs et autres voix publiques spécialisées dans les questions environnementales, ainsi que par d’autres tactiques utilisées pour nuire à l’intégrité des informations sur le changement climatique, qui réduisent la compréhension du public, retardent les mesures urgentes et menacent la réponse mondiale au changement climatique et la stabilité sociale ».

Ces pays s’engagent notamment à soutenir l’initiative mondiale pour l’intégrité de l’information sur le changement climatique lancée par l’Unesco.

Des ONG alertent sur la propagation de la désinformation, notamment à propos de la COP 30 elle-même

Début novembre, juste avant l’ouverture de la COP30, une coalition d’ONG (dont QuotaClimat et Équiterre en France) nommée Climate Action Against Disinformation publiait un rapport titré « Nier, tromper, retarder : démystifié. Comment les grandes entreprises polluantes utilisent la désinformation pour saboter les mesures climatiques, et comment nous pouvons les en empêcher ». Le rapport se faisait notamment l’écho d’une énorme campagne de désinformation sur des inondations à Belém, la ville de la COP 30, documentée par la newsletter Oii.

Celle-ci dénombrait plus de 14 000 exemples de contenus de désinformation publiés entre juillet et septembre sur la COP 30 elle-même. Notamment, des vidéos en partie générées par IA qui faisaient croire à des inondations dans la ville.

« « Voici le Belém de la COP30 qu’ils veulent cacher au monde », déclare un journaliste debout dans les eaux qui inondent la capitale de l’État du Pará », décrit Oii. « Mais… rien de tout cela n’est réel ! Le journaliste n’existe pas, les gens n’existent pas, l’inondation n’existe pas et la ville n’existe pas. La seule chose qui existe, ce sont les nombreux commentaires indignés contre le politicien mentionné dans la vidéo et contre la conférence sur le climat à Belém, sur X (anciennement Twitter) et TikTok », déplore la newsletter.

« Des mesures telles que la loi européenne sur les services numériques (DSA), qui s’appliquent au niveau supranational, rendent les grandes entreprises technologiques plus transparentes et responsables des préjudices causés », affirme la Climate Action Against Disinformation. Et elle ajoute que « si certaines entreprises donnent une mauvaise image de tous les réseaux sociaux, des sites web tels que Wikipédia et Pinterest prouvent que les politiques de lutte contre la désinformation climatique et l’intégrité de l’information sont non seulement possibles, mais nécessaires ».

COP 30 : alarme sur la propagation de la désinformation sur le climat

13 novembre 2025 à 15:53
This is fine.
COP 30 : alarme sur la propagation de la désinformation sur le climat

Un groupe d’une douzaine de pays présents à la COP 30 au Brésil, dont la France, annonce vouloir s’emparer activement de la lutte contre la désinformation sur le climat. En amont du sommet, des ONG avaient sonné l’alarme à propos de la forte propagation de la désinformation climatique sur internet, avec l’IA générative comme nouvel outil de superpropagation.

En marge de la COP 30 qui se déroule actuellement à Belém, au Brésil, 12 pays ont publié une déclaration sur l’intégrité de l’information en matière de changement climatique.

Déclaration de principe de 12 pays

La Belgique, le Brésil, le Canada, le Chili, le Danemark, la Finlande, la France, l’Allemagne, les Pays-Bas, l’Espagne, la Suède et l’Uruguay appellent [PDF] à lutter contre les contenus mensongers diffusés en ligne et à mettre fin aux attaques.

Ils s’y disent « préoccupés par l’impact croissant de la désinformation, de la mésinformation, du déni, des attaques délibérées contre les journalistes, les défenseurs, les scientifiques, les chercheurs et autres voix publiques spécialisées dans les questions environnementales, ainsi que par d’autres tactiques utilisées pour nuire à l’intégrité des informations sur le changement climatique, qui réduisent la compréhension du public, retardent les mesures urgentes et menacent la réponse mondiale au changement climatique et la stabilité sociale ».

Ces pays s’engagent notamment à soutenir l’initiative mondiale pour l’intégrité de l’information sur le changement climatique lancée par l’Unesco.

Des ONG alertent sur la propagation de la désinformation, notamment à propos de la COP 30 elle-même

Début novembre, juste avant l’ouverture de la COP30, une coalition d’ONG (dont QuotaClimat et Équiterre en France) nommée Climate Action Against Disinformation publiait un rapport titré « Nier, tromper, retarder : démystifié. Comment les grandes entreprises polluantes utilisent la désinformation pour saboter les mesures climatiques, et comment nous pouvons les en empêcher ». Le rapport se faisait notamment l’écho d’une énorme campagne de désinformation sur des inondations à Belém, la ville de la COP 30, documentée par la newsletter Oii.

Celle-ci dénombrait plus de 14 000 exemples de contenus de désinformation publiés entre juillet et septembre sur la COP 30 elle-même. Notamment, des vidéos en partie générées par IA qui faisaient croire à des inondations dans la ville.

« « Voici le Belém de la COP30 qu’ils veulent cacher au monde », déclare un journaliste debout dans les eaux qui inondent la capitale de l’État du Pará », décrit Oii. « Mais… rien de tout cela n’est réel ! Le journaliste n’existe pas, les gens n’existent pas, l’inondation n’existe pas et la ville n’existe pas. La seule chose qui existe, ce sont les nombreux commentaires indignés contre le politicien mentionné dans la vidéo et contre la conférence sur le climat à Belém, sur X (anciennement Twitter) et TikTok », déplore la newsletter.

« Des mesures telles que la loi européenne sur les services numériques (DSA), qui s’appliquent au niveau supranational, rendent les grandes entreprises technologiques plus transparentes et responsables des préjudices causés », affirme la Climate Action Against Disinformation. Et elle ajoute que « si certaines entreprises donnent une mauvaise image de tous les réseaux sociaux, des sites web tels que Wikipédia et Pinterest prouvent que les politiques de lutte contre la désinformation climatique et l’intégrité de l’information sont non seulement possibles, mais nécessaires ».

La plupart des benchmarks de LLM ne s’appuient pas sur une méthode fiable

13 novembre 2025 à 11:41
Pseudoscience de la comparaison
La plupart des benchmarks de LLM ne s’appuient pas sur une méthode fiable

Les benchmarks de LLM pullulent mais aucun, ou presque, ne semble s’appuyer sur un travail réellement scientifique, analysent des chercheurs. Ils appellent à une plus grande rigueur.

À chaque publication d’un nouveau modèle pour l’IA générative, l’entreprise qui l’a conçu nous montre par des graphiques qu’il égale ou surpasse ses congénères, en s’appuyant sur des « benchmarks » qu’elle a soigneusement choisis.

Plusieurs études montraient déjà qu’en pratique, ces « bancs de comparaison » n’étaient pas très efficaces pour mesurer les différences entre les modèles, ce qui est pourtant leur raison d’être.

Un nouveau travail scientifique, mené par 23 experts, a évalué 445 benchmarks de LLM. Il a été mis en ligne sur la plateforme de preprints arXiv et sera présenté à la conférence scientifique NeurIPS 2025 début décembre.

Une faible majorité s’appuie sur une méthode théorique robuste

Déjà, une faible majorité (53,4 %) des articles présentant ces 445 benchmarks proposent des preuves de leur validité conceptuelle, expliquent les chercheurs. 35 % comparent le benchmark proposé à d’autres déjà existants, 32 % à une référence humaine et 31 % à un cadre plus réaliste, permettant de comprendre les similitudes et les différences.

Avant de mesurer un phénomène avec un benchmark, il faut le définir. Selon cette étude, 41 % des phénomènes étudiés par ces benchmarks sont bien définis, mais 37 % d’entre eux le sont de manière vague. Ainsi, quand un benchmark affirme mesurer l’ « innocuité » d’un modèle, il est difficile de savoir de quoi on parle exactement. Et même 22 % des phénomènes étudiés par ces benchmarks ne sont pas définis du tout.

16 % seulement utilisent des tests statistiques pour comparer les résultats

De plus, les chercheurs montrent que la plupart de ces benchmarks ne produisent pas des mesures valides statistiquement. Ainsi, 41 % testent exclusivement en vérifiant que les réponses d’un LLM correspondent exactement à ce qui est attendu sans regarder si elles s’en approchent plus ou moins. 81 % d’entre eux utilisent au moins partiellement ce genre de correspondance exacte de réponses. Mais surtout, seulement 16 % des benchmarks étudiés utilisent des estimations d’incertitude ou des tests statistiques pour comparer les résultats. « Cela signifie que les différences signalées entre les systèmes ou les affirmations de supériorité pourraient être dues au hasard plutôt qu’à une réelle amélioration », explique le communiqué d’Oxford présentant l’étude.

Enfin, les chercheurs expliquent qu’une bonne partie des benchmarks ne séparent pas bien les tâches qu’ils analysent. Ainsi, comme ils le spécifient dans le même communiqué, « un test peut demander à un modèle de résoudre un casse-tête logique simple, mais aussi lui demander de présenter la réponse dans un format très spécifique et compliqué. Si le modèle résout correctement le casse-tête, mais échoue au niveau du formatage, il semble moins performant qu’il ne l’est en réalité ».

« « Mesurer ce qui a de l’importance » exige un effort conscient et soutenu »

Dans leur étude, les chercheurs ne font pas seulement des constats. Ils ajoutent des recommandations. Ils demandent notamment à ceux qui établissent des benchmarks de définir clairement les phénomènes qu’ils étudient et de justifier la validité conceptuelle de leur travail.

Pour eux, les créateurs de benchmarks doivent s’assurer de « mesurer le phénomène et uniquement le phénomène » qu’ils étudient, de construire un jeu de données représentatif de la tâche testée et d’utiliser des méthodes statistiques pour comparer les modèles entre eux. Enfin, ils leur conseillent de mener, après avoir conçu leur benchmark, une analyse des erreurs « qui permet de révéler les types d’erreurs commises par les modèles », ce qui permet de comprendre en quoi le benchmark en question est réellement utile.

« En fin de compte, « mesurer ce qui a de l’importance » exige un effort conscient et soutenu de la part de la communauté scientifique pour donner la priorité à la validité conceptuelle, en favorisant un changement culturel vers une validation plus explicite et plus rigoureuse des méthodologies d’évaluation », concluent-ils.

« Les benchmarks sous-tendent presque toutes des affirmations concernant les progrès de l’IA », explique Andrew Bean, dans le communiqué, « mais sans définitions communes et sans mesures fiables, il devient difficile de savoir si les modèles s’améliorent réellement ou s’ils en donnent simplement l’impression ».

La plupart des benchmarks de LLM ne s’appuient pas sur une méthode fiable

13 novembre 2025 à 11:41
Pseudoscience de la comparaison
La plupart des benchmarks de LLM ne s’appuient pas sur une méthode fiable

Les benchmarks de LLM pullulent mais aucun, ou presque, ne semble s’appuyer sur un travail réellement scientifique, analysent des chercheurs. Ils appellent à une plus grande rigueur.

À chaque publication d’un nouveau modèle pour l’IA générative, l’entreprise qui l’a conçu nous montre par des graphiques qu’il égale ou surpasse ses congénères, en s’appuyant sur des « benchmarks » qu’elle a soigneusement choisis.

Plusieurs études montraient déjà qu’en pratique, ces « bancs de comparaison » n’étaient pas très efficaces pour mesurer les différences entre les modèles, ce qui est pourtant leur raison d’être.

Un nouveau travail scientifique, mené par 23 experts, a évalué 445 benchmarks de LLM. Il a été mis en ligne sur la plateforme de preprints arXiv et sera présenté à la conférence scientifique NeurIPS 2025 début décembre.

Une faible majorité s’appuie sur une méthode théorique robuste

Déjà, une faible majorité (53,4 %) des articles présentant ces 445 benchmarks proposent des preuves de leur validité conceptuelle, expliquent les chercheurs. 35 % comparent le benchmark proposé à d’autres déjà existants, 32 % à une référence humaine et 31 % à un cadre plus réaliste, permettant de comprendre les similitudes et les différences.

Avant de mesurer un phénomène avec un benchmark, il faut le définir. Selon cette étude, 41 % des phénomènes étudiés par ces benchmarks sont bien définis, mais 37 % d’entre eux le sont de manière vague. Ainsi, quand un benchmark affirme mesurer l’ « innocuité » d’un modèle, il est difficile de savoir de quoi on parle exactement. Et même 22 % des phénomènes étudiés par ces benchmarks ne sont pas définis du tout.

16 % seulement utilisent des tests statistiques pour comparer les résultats

De plus, les chercheurs montrent que la plupart de ces benchmarks ne produisent pas des mesures valides statistiquement. Ainsi, 41 % testent exclusivement en vérifiant que les réponses d’un LLM correspondent exactement à ce qui est attendu sans regarder si elles s’en approchent plus ou moins. 81 % d’entre eux utilisent au moins partiellement ce genre de correspondance exacte de réponses. Mais surtout, seulement 16 % des benchmarks étudiés utilisent des estimations d’incertitude ou des tests statistiques pour comparer les résultats. « Cela signifie que les différences signalées entre les systèmes ou les affirmations de supériorité pourraient être dues au hasard plutôt qu’à une réelle amélioration », explique le communiqué d’Oxford présentant l’étude.

Enfin, les chercheurs expliquent qu’une bonne partie des benchmarks ne séparent pas bien les tâches qu’ils analysent. Ainsi, comme ils le spécifient dans le même communiqué, « un test peut demander à un modèle de résoudre un casse-tête logique simple, mais aussi lui demander de présenter la réponse dans un format très spécifique et compliqué. Si le modèle résout correctement le casse-tête, mais échoue au niveau du formatage, il semble moins performant qu’il ne l’est en réalité ».

« « Mesurer ce qui a de l’importance » exige un effort conscient et soutenu »

Dans leur étude, les chercheurs ne font pas seulement des constats. Ils ajoutent des recommandations. Ils demandent notamment à ceux qui établissent des benchmarks de définir clairement les phénomènes qu’ils étudient et de justifier la validité conceptuelle de leur travail.

Pour eux, les créateurs de benchmarks doivent s’assurer de « mesurer le phénomène et uniquement le phénomène » qu’ils étudient, de construire un jeu de données représentatif de la tâche testée et d’utiliser des méthodes statistiques pour comparer les modèles entre eux. Enfin, ils leur conseillent de mener, après avoir conçu leur benchmark, une analyse des erreurs « qui permet de révéler les types d’erreurs commises par les modèles », ce qui permet de comprendre en quoi le benchmark en question est réellement utile.

« En fin de compte, « mesurer ce qui a de l’importance » exige un effort conscient et soutenu de la part de la communauté scientifique pour donner la priorité à la validité conceptuelle, en favorisant un changement culturel vers une validation plus explicite et plus rigoureuse des méthodologies d’évaluation », concluent-ils.

« Les benchmarks sous-tendent presque toutes des affirmations concernant les progrès de l’IA », explique Andrew Bean, dans le communiqué, « mais sans définitions communes et sans mesures fiables, il devient difficile de savoir si les modèles s’améliorent réellement ou s’ils en donnent simplement l’impression ».

☕️ Face au New York Times, OpenAI doit présenter 20 millions de logs anonymisés d’ici demain

13 novembre 2025 à 08:51

Dans le procès qui oppose le New York Times à OpenAI, le journal a demandé cet été de pouvoir analyser les logs de l’utilisation de ChatGPT afin de trouver d’éventuelles preuves de violation de copyright.

Ce vendredi 7 novembre, la juge Ona Wang a informé [PDF] les deux parties qu’ « OpenAI est tenu de fournir les 20 millions de logs de ChatGPT anonymisés aux plaignants avant le 14 novembre 2025 ou dans les 7 jours suivant la fin du processus d’anonymisation ».

Façade du bâtiment du New York Times
Photo de Jakayla Toney sur Unsplash

Comme le raconte Reuters, l’entreprise de Sam Altman a répondu [PDF] ce mercredi en se plaignant que « pour être clair : toute personne dans le monde ayant utilisé ChatGPT au cours des trois dernières années doit désormais faire face à la possibilité que ses conversations personnelles soient transmises au Times afin que celui-ci puisse les passer au crible à sa guise dans le cadre d’une enquête spéculative ».

De leur côté, les avocats du journal ont expliqué [PDF] qu’OpenAI a eu trois mois pour anonymiser les données, que l’un des représentants d’OpenAI a reconnu que le processus permettra « d’effacer du contenu les catégories d’informations personnelles identifiables et autres informations (par exemple, les mots de passe ou autres informations sensibles) comme les données utilisateur ». Le journal fait aussi remarquer qu’il doit respecter une ordonnance spéciale protégeant ces données lors de l’inspection de ces logs.

L’entreprise de Sam Altman fait aussi une comparaison avec des affaires ayant impliqué Google en affirmant que « les tribunaux n’autorisent pas les plaignants qui poursuivent Google à fouiller dans les emails privés de dizaines de millions d’utilisateurs Gmail, quelle que soit leur pertinence. Et ce n’est pas non plus ainsi que devrait fonctionner la divulgation dans le cas des outils d’IA générative »

Mais la juge a expliqué qu’ « OpenAI n’a pas expliqué pourquoi les droits à la vie privée de ses consommateurs ne sont pas suffisamment protégés par : (1) l’ordonnance de protection existante dans ce litige multidistrict ou (2) la dépersonnalisation exhaustive par OpenAI de l’ensemble des 20 millions de logs ChatGPT des consommateurs ». Elle semble estimer que les conversations des utilisateurs avec un chatbot ne peuvent pas être considérées comme des conversations privées au même titre que des échanges de courriers ou d’e-mails entre deux personnes réelles.

☕️ Face au New York Times, OpenAI doit présenter 20 millions de logs anonymisés d’ici demain

13 novembre 2025 à 08:51

Dans le procès qui oppose le New York Times à OpenAI, le journal a demandé cet été de pouvoir analyser les logs de l’utilisation de ChatGPT afin de trouver d’éventuelles preuves de violation de copyright.

Ce vendredi 7 novembre, la juge Ona Wang a informé [PDF] les deux parties qu’ « OpenAI est tenu de fournir les 20 millions de logs de ChatGPT anonymisés aux plaignants avant le 14 novembre 2025 ou dans les 7 jours suivant la fin du processus d’anonymisation ».

Façade du bâtiment du New York Times
Photo de Jakayla Toney sur Unsplash

Comme le raconte Reuters, l’entreprise de Sam Altman a répondu [PDF] ce mercredi en se plaignant que « pour être clair : toute personne dans le monde ayant utilisé ChatGPT au cours des trois dernières années doit désormais faire face à la possibilité que ses conversations personnelles soient transmises au Times afin que celui-ci puisse les passer au crible à sa guise dans le cadre d’une enquête spéculative ».

De leur côté, les avocats du journal ont expliqué [PDF] qu’OpenAI a eu trois mois pour anonymiser les données, que l’un des représentants d’OpenAI a reconnu que le processus permettra « d’effacer du contenu les catégories d’informations personnelles identifiables et autres informations (par exemple, les mots de passe ou autres informations sensibles) comme les données utilisateur ». Le journal fait aussi remarquer qu’il doit respecter une ordonnance spéciale protégeant ces données lors de l’inspection de ces logs.

L’entreprise de Sam Altman fait aussi une comparaison avec des affaires ayant impliqué Google en affirmant que « les tribunaux n’autorisent pas les plaignants qui poursuivent Google à fouiller dans les emails privés de dizaines de millions d’utilisateurs Gmail, quelle que soit leur pertinence. Et ce n’est pas non plus ainsi que devrait fonctionner la divulgation dans le cas des outils d’IA générative »

Mais la juge a expliqué qu’ « OpenAI n’a pas expliqué pourquoi les droits à la vie privée de ses consommateurs ne sont pas suffisamment protégés par : (1) l’ordonnance de protection existante dans ce litige multidistrict ou (2) la dépersonnalisation exhaustive par OpenAI de l’ensemble des 20 millions de logs ChatGPT des consommateurs ». Elle semble estimer que les conversations des utilisateurs avec un chatbot ne peuvent pas être considérées comme des conversations privées au même titre que des échanges de courriers ou d’e-mails entre deux personnes réelles.

Reçu avant avant-hier

☕️ OpenAI condamnée en Allemagne pour l’utilisation de paroles de chansons dans GPT-4 et 4o

12 novembre 2025 à 14:58

L’un des tribunaux régionaux de Munich s’est prononcé ce mardi 11 novembre en faveur du lobby de l’industrie musicale allemande GEMA dans une affaire l’opposant à OpenAI.

Le jugement concerne l’utilisation des paroles de chansons de neuf auteurs allemands connus, dont « Atemlos » de Kristina Bach et le fameux « Wie schön, dass du geboren bist » de Rolf Zuckowski.

La cour donne raison à la GEMA, autant sur « la mémorisation dans les modèles linguistiques » des paroles que leur reproduction dans les résultats du chatbot : les deux, selon elle, constituent des atteintes des droits d’exploitation du copyright. Ces utilisations « ne sont couvertes par aucune limitation [du copyright] et notamment pas par la limitation relative à la fouille de données et de textes », commente le tribunal dans son communiqué.

« La chambre estime que les paroles litigieuses sont reproduites dans les modèles linguistiques 4 et 4o », explique-t-il.

Le tribunal considère qu’une « perception indirecte » de la mémorisation dans les modèles linguistiques est un indice suffisant pour la démontrer en se fondant sur la jurisprudence de la Cour de justice de l’Union européenne (CJUE). En l’occurence, le fait que ChatGPT a « rendu accessibles au public les paroles des chansons » est considéré comme une preuve indirecte de cette mémorisation en plus d’être une preuve directe de leur reproduction dans ses résultats.

« Nous sommes en désaccord avec la décision, et nous étudions les prochaines démarches possibles », a déclaré OpenAI à l’AFP. L’entreprise souligne également que le jugement ne concernerait que les textes qui figurent dans la plainte de la GEMA.

C’est « une victoire historique pour la GEMA », selon le cabinet d’avocats qui l’accompagne. « C’est la première fois qu’un tribunal allemand confirme que les entreprises d’IA ne peuvent pas utiliser des contenus protégés par le copyright ». « Cette décision rendue à Munich apporte une sécurité juridique aux professionnels de la création, aux éditeurs de musique et aux plateformes dans toute l’Europe, et elle est susceptible de créer un précédent dont l’impact s’étendra bien au-delà des frontières allemandes », ajoutent les représentants du lobby musical allemand.

Le tribunal n’a pas donné les détails des dédommagements que devra verser OpenAI.

☕️ OpenAI condamnée en Allemagne pour l’utilisation de paroles de chansons dans GPT-4 et 4o

12 novembre 2025 à 14:58

L’un des tribunaux régionaux de Munich s’est prononcé ce mardi 11 novembre en faveur du lobby de l’industrie musicale allemande GEMA dans une affaire l’opposant à OpenAI.

Le jugement concerne l’utilisation des paroles de chansons de neuf auteurs allemands connus, dont « Atemlos » de Kristina Bach et le fameux « Wie schön, dass du geboren bist » de Rolf Zuckowski.

La cour donne raison à la GEMA, autant sur « la mémorisation dans les modèles linguistiques » des paroles que leur reproduction dans les résultats du chatbot : les deux, selon elle, constituent des atteintes des droits d’exploitation du copyright. Ces utilisations « ne sont couvertes par aucune limitation [du copyright] et notamment pas par la limitation relative à la fouille de données et de textes », commente le tribunal dans son communiqué.

« La chambre estime que les paroles litigieuses sont reproduites dans les modèles linguistiques 4 et 4o », explique-t-il.

Le tribunal considère qu’une « perception indirecte » de la mémorisation dans les modèles linguistiques est un indice suffisant pour la démontrer en se fondant sur la jurisprudence de la Cour de justice de l’Union européenne (CJUE). En l’occurence, le fait que ChatGPT a « rendu accessibles au public les paroles des chansons » est considéré comme une preuve indirecte de cette mémorisation en plus d’être une preuve directe de leur reproduction dans ses résultats.

« Nous sommes en désaccord avec la décision, et nous étudions les prochaines démarches possibles », a déclaré OpenAI à l’AFP. L’entreprise souligne également que le jugement ne concernerait que les textes qui figurent dans la plainte de la GEMA.

C’est « une victoire historique pour la GEMA », selon le cabinet d’avocats qui l’accompagne. « C’est la première fois qu’un tribunal allemand confirme que les entreprises d’IA ne peuvent pas utiliser des contenus protégés par le copyright ». « Cette décision rendue à Munich apporte une sécurité juridique aux professionnels de la création, aux éditeurs de musique et aux plateformes dans toute l’Europe, et elle est susceptible de créer un précédent dont l’impact s’étendra bien au-delà des frontières allemandes », ajoutent les représentants du lobby musical allemand.

Le tribunal n’a pas donné les détails des dédommagements que devra verser OpenAI.

Affaiblissement du RGPD : l’Allemagne l’inspire, la France y est opposée « à ce stade »

12 novembre 2025 à 13:08
Quick and dirty
Affaiblissement du RGPD : l’Allemagne l’inspire, la France y est opposée « à ce stade »

La Commission européenne a proposé d’affaiblir rapidement le RGPD au profit des entreprises d’IA. Les pays membres semblent vouloir une discussion plus longue sur le sujet, même si l’Allemagne inspire la proposition de la Commission.

Une petite bombe a été lâchée la semaine dernière avec la fuite d’un brouillon de la Commission européenne de la loi « omnibus numérique » prévoyant d’affaiblir le RGPD au profit des entreprises d’IA. Elle doit officiellement le présenter le 19 novembre prochain et le texte peut encore changer d’ici là.

L’association noyb de Max Schrems, qui y est totalement opposée, a publié [PDF] les positions de neuf pays sur la « simplification » du RGPD rendues avant la fuite du brouillon.

L’Allemagne pour des changements en profondeur… mais avec des discussions en amont

L’Allemagne plaidait pour une vaste révision du règlement mais sans que la loi « omnibus numérique » qui doit entrer en discussion d’ici peu en soit le vecteur le plus significatif. Berlin considère que les discussions autour du sujet méritent du temps.

« Afin d’ajuster l’équilibre entre les droits fondamentaux des personnes concernées et les droits fondamentaux des citoyens et des entreprises à traiter des données à caractère personnel (notamment la liberté d’information, la liberté des sciences, la liberté d’exercer une activité commerciale), toute modification du RGPD, tout en garantissant un niveau adéquat de protection des données et en préservant les principes fondamentaux du RGPD, devrait être examinée avec soin et mise en œuvre de manière ciblée, précise et fondée sur les risques », affirmait l’Allemagne.

Mais, pour noyb, « il semble que la Commission se soit simplement « emparée » » de cette position non-officielle de l’Allemagne pour établir sa proposition d’un affaiblissement du RGPD exprimée dans le brouillon de l’ « omnibus numérique » , « étant donné que de nombreux changements apportés au projet semblent être une copie conforme des demandes formulées dans la lettre allemande qui a fuité », affirme l’association de Max Schrems.

La France et sept autres pays de l’UE pour des changements à la marge

De leurs côtés, les huit autres pays qui se sont exprimés (la République tchèque, l’Estonie, l’Autriche, la Pologne, la Slovénie, la Finlande, la Suède et la France) ne pressent pas pour un changement majeur du texte. Si aucun d’entre eux ne nie le besoin de clarification de certains points dans le règlement européen, notamment pour faciliter la mise en conformité des entreprises, une bonne partie d’entre eux souligne, à l’instar de la République tchèque, la nécessité que cela reste « compatible avec la protection effective des droits fondamentaux ».

Prague voit surtout des modifications à la marge comme la possibilité pour les responsables du traitement de ne pas « déployer des efforts disproportionnés » pour fournir des informations lorsqu’une personne lui demande, comme l’article 15 du règlement le prévoit, si certaines de ses données à caractère personnel sont ou ne sont pas traitées. La Suède propose aussi des changements à la marge comme un relèvement du seuil pour lequel les entreprises doivent notifier la violation de données personnelles.

Quant à la France, elle jugeait qu’ « à ce stade, les retours des parties prenantes collectés par la Commission ont montré qu’elles ne souhaitaient pas d’une réouverture du RGPD » et que « les autorités françaises se sont également exprimées en ce sens et maintiennent cette position ». Comme les sept autres pays, elle estimait que « pour atteindre un équilibre optimal entre les enjeux d’innovation et la protection des libertés fondamentales, les efforts de mise en œuvre du texte doivent se poursuivre ». Par contre, Paris appelle « le CEPD [Contrôleur européen de la protection des données] et les autorités de protection des données à mener rapidement des consultations des acteurs sur les sujets prioritaires que sont l’articulation du RGPD avec le règlement sur l’intelligence artificielle (RIA), la pseudonymisation et l’anonymisation, dans les semaines qui viennent ». La France estime qu’ « il s’agit d’une attente très forte pour que les besoins concrets puissent être exprimés en amont de la finalisation du premier jet des lignes directrices sur ces sujets ».

De son côté, Max Schrems réitère ses critiques sur le projet : « Le brouillon n’est pas seulement extrême, il est également très mal rédigé. Il n’aide pas les « petites entreprises », comme promis, mais profite à nouveau principalement aux « grandes entreprises technologiques » ». noyb s’est joint à l’Edri et à l’organisation irlandaise Irish Council for Civil Liberties pour envoyer une lettre ouverte [PDF] à la Vice-présidente exécutive de la Commission européenne à la Souveraineté technologique, à la Sécurité et à la Démocratie, Henna Virkkunen. Dans ce texte, les trois associations affirment que les changements « considérables » prévus par le brouillon « priveraient non seulement les citoyens de leurs droits, mais compromettraient également la compétitivité européenne ».

Affaiblissement du RGPD : l’Allemagne l’inspire, la France y est opposée « à ce stade »

12 novembre 2025 à 13:08
Quick and dirty
Affaiblissement du RGPD : l’Allemagne l’inspire, la France y est opposée « à ce stade »

La Commission européenne a proposé d’affaiblir rapidement le RGPD au profit des entreprises d’IA. Les pays membres semblent vouloir une discussion plus longue sur le sujet, même si l’Allemagne inspire la proposition de la Commission.

Une petite bombe a été lâchée la semaine dernière avec la fuite d’un brouillon de la Commission européenne de la loi « omnibus numérique » prévoyant d’affaiblir le RGPD au profit des entreprises d’IA. Elle doit officiellement le présenter le 19 novembre prochain et le texte peut encore changer d’ici là.

L’association noyb de Max Schrems, qui y est totalement opposée, a publié [PDF] les positions de neuf pays sur la « simplification » du RGPD rendues avant la fuite du brouillon.

L’Allemagne pour des changements en profondeur… mais avec des discussions en amont

L’Allemagne plaidait pour une vaste révision du règlement mais sans que la loi « omnibus numérique » qui doit entrer en discussion d’ici peu en soit le vecteur le plus significatif. Berlin considère que les discussions autour du sujet méritent du temps.

« Afin d’ajuster l’équilibre entre les droits fondamentaux des personnes concernées et les droits fondamentaux des citoyens et des entreprises à traiter des données à caractère personnel (notamment la liberté d’information, la liberté des sciences, la liberté d’exercer une activité commerciale), toute modification du RGPD, tout en garantissant un niveau adéquat de protection des données et en préservant les principes fondamentaux du RGPD, devrait être examinée avec soin et mise en œuvre de manière ciblée, précise et fondée sur les risques », affirmait l’Allemagne.

Mais, pour noyb, « il semble que la Commission se soit simplement « emparée » » de cette position non-officielle de l’Allemagne pour établir sa proposition d’un affaiblissement du RGPD exprimée dans le brouillon de l’ « omnibus numérique » , « étant donné que de nombreux changements apportés au projet semblent être une copie conforme des demandes formulées dans la lettre allemande qui a fuité », affirme l’association de Max Schrems.

La France et sept autres pays de l’UE pour des changements à la marge

De leurs côtés, les huit autres pays qui se sont exprimés (la République tchèque, l’Estonie, l’Autriche, la Pologne, la Slovénie, la Finlande, la Suède et la France) ne pressent pas pour un changement majeur du texte. Si aucun d’entre eux ne nie le besoin de clarification de certains points dans le règlement européen, notamment pour faciliter la mise en conformité des entreprises, une bonne partie d’entre eux souligne, à l’instar de la République tchèque, la nécessité que cela reste « compatible avec la protection effective des droits fondamentaux ».

Prague voit surtout des modifications à la marge comme la possibilité pour les responsables du traitement de ne pas « déployer des efforts disproportionnés » pour fournir des informations lorsqu’une personne lui demande, comme l’article 15 du règlement le prévoit, si certaines de ses données à caractère personnel sont ou ne sont pas traitées. La Suède propose aussi des changements à la marge comme un relèvement du seuil pour lequel les entreprises doivent notifier la violation de données personnelles.

Quant à la France, elle jugeait qu’ « à ce stade, les retours des parties prenantes collectés par la Commission ont montré qu’elles ne souhaitaient pas d’une réouverture du RGPD » et que « les autorités françaises se sont également exprimées en ce sens et maintiennent cette position ». Comme les sept autres pays, elle estimait que « pour atteindre un équilibre optimal entre les enjeux d’innovation et la protection des libertés fondamentales, les efforts de mise en œuvre du texte doivent se poursuivre ». Par contre, Paris appelle « le CEPD [Contrôleur européen de la protection des données] et les autorités de protection des données à mener rapidement des consultations des acteurs sur les sujets prioritaires que sont l’articulation du RGPD avec le règlement sur l’intelligence artificielle (RIA), la pseudonymisation et l’anonymisation, dans les semaines qui viennent ». La France estime qu’ « il s’agit d’une attente très forte pour que les besoins concrets puissent être exprimés en amont de la finalisation du premier jet des lignes directrices sur ces sujets ».

De son côté, Max Schrems réitère ses critiques sur le projet : « Le brouillon n’est pas seulement extrême, il est également très mal rédigé. Il n’aide pas les « petites entreprises », comme promis, mais profite à nouveau principalement aux « grandes entreprises technologiques » ». noyb s’est joint à l’Edri et à l’organisation irlandaise Irish Council for Civil Liberties pour envoyer une lettre ouverte [PDF] à la Vice-présidente exécutive de la Commission européenne à la Souveraineté technologique, à la Sécurité et à la Démocratie, Henna Virkkunen. Dans ce texte, les trois associations affirment que les changements « considérables » prévus par le brouillon « priveraient non seulement les citoyens de leurs droits, mais compromettraient également la compétitivité européenne ».

☕️ Yann LeCun va quitter Meta en désaccord sur la stratégie de R&D de l’entreprise

12 novembre 2025 à 08:40

Douze ans après son arrivée au sein de ce qui s’appelait à l’époque Facebook, le chercheur français Yann LeCun s’apprête à quitter l’entreprise de Mark Zuckerberg, devenue depuis Meta.

Arrivé en 2013 pour créer et diriger le laboratoire de recherche et développement de l’entreprise Facebook Artificial Intelligence Research (FAIR), le chercheur a amené à Facebook puis Meta ses connaissances sur le deep learning dont il est l’un des pionniers. Ainsi, le FAIR a permis à Facebook d’être l’un des premiers réseaux sociaux à intégrer des systèmes d’intelligence artificielle, notamment pour la reconnaissance faciale.

Mais la récente reprise en main des recrutements sur l’IA par Mark Zuckerberg semble avoir donné une direction que le Français ne veut pas suivre. En effet, depuis cet été le CEO de Meta a redirigé toutes les forces de R&D dans la création d’un laboratoire dédié à la « superintelligence » en s’appuyant sur les modèles génératifs dérivés des LLM. Il a débauché des spécialistes chez Apple, Anthropic, OpenAI ou Scale AI et misé sur Alexandr Wang pour la direction de la R&D. Mark Zuckerberg veut pousser ses chercheurs à creuser cette voie et sortir plus de modèles qui doivent alimenter en IA plus rapidement les produits de Meta.

Ce choix, selon le Financial Times, aurait poussé Yann LeCun à quitter l’entreprise en vue de fonder sa propre startup. En effet, s’il soutient que les LLM sont « utiles », il pense qu’ils ne seront jamais capables ni de raisonner ni de planifier comme les humains. Il pousse donc, au sein du laboratoire de Meta, le travail sur ce que les chercheurs en IA appellent les « world models », des modèles capables de conceptualiser un monde, comme l’ont proposé en 2018 les chercheurs David Ha et Jürgen Schmidhuber. Ceci permettrait d’intégrer de véritables robots dans le monde réel.

Ainsi, Meta a travaillé sur plusieurs séries d’architectures : JEPA, V-JEPA, DINO-WM et PLDM. Mais ceux-ci en sont encore aux débuts de la recherche sur le sujet et subissent des critiques. Par exemple, tout en admettant que V-JEPA 2 « marque une avancée » sur des tâches de manipulation de bras robotiques, des chercheurs doutent de ses capacités sur « des tâches plus diverses (par exemple, préparer le petit-déjeuner) ou adaptées à des environnements plus complexes avec des dépendances à long terme (par exemple, l’alpinisme) ».

Le chercheur français semble vouloir continuer dans cette voie en montant sa propre startup.

☕️ Yann LeCun va quitter Meta en désaccord sur la stratégie de R&D de l’entreprise

12 novembre 2025 à 08:40

Douze ans après son arrivée au sein de ce qui s’appelait à l’époque Facebook, le chercheur français Yann LeCun s’apprête à quitter l’entreprise de Mark Zuckerberg, devenue depuis Meta.

Arrivé en 2013 pour créer et diriger le laboratoire de recherche et développement de l’entreprise Facebook Artificial Intelligence Research (FAIR), le chercheur a amené à Facebook puis Meta ses connaissances sur le deep learning dont il est l’un des pionniers. Ainsi, le FAIR a permis à Facebook d’être l’un des premiers réseaux sociaux à intégrer des systèmes d’intelligence artificielle, notamment pour la reconnaissance faciale.

Mais la récente reprise en main des recrutements sur l’IA par Mark Zuckerberg semble avoir donné une direction que le Français ne veut pas suivre. En effet, depuis cet été le CEO de Meta a redirigé toutes les forces de R&D dans la création d’un laboratoire dédié à la « superintelligence » en s’appuyant sur les modèles génératifs dérivés des LLM. Il a débauché des spécialistes chez Apple, Anthropic, OpenAI ou Scale AI et misé sur Alexandr Wang pour la direction de la R&D. Mark Zuckerberg veut pousser ses chercheurs à creuser cette voie et sortir plus de modèles qui doivent alimenter en IA plus rapidement les produits de Meta.

Ce choix, selon le Financial Times, aurait poussé Yann LeCun à quitter l’entreprise en vue de fonder sa propre startup. En effet, s’il soutient que les LLM sont « utiles », il pense qu’ils ne seront jamais capables ni de raisonner ni de planifier comme les humains. Il pousse donc, au sein du laboratoire de Meta, le travail sur ce que les chercheurs en IA appellent les « world models », des modèles capables de conceptualiser un monde, comme l’ont proposé en 2018 les chercheurs David Ha et Jürgen Schmidhuber. Ceci permettrait d’intégrer de véritables robots dans le monde réel.

Ainsi, Meta a travaillé sur plusieurs séries d’architectures : JEPA, V-JEPA, DINO-WM et PLDM. Mais ceux-ci en sont encore aux débuts de la recherche sur le sujet et subissent des critiques. Par exemple, tout en admettant que V-JEPA 2 « marque une avancée » sur des tâches de manipulation de bras robotiques, des chercheurs doutent de ses capacités sur « des tâches plus diverses (par exemple, préparer le petit-déjeuner) ou adaptées à des environnements plus complexes avec des dépendances à long terme (par exemple, l’alpinisme) ».

Le chercheur français semble vouloir continuer dans cette voie en montant sa propre startup.

La Commission européenne prévoit d’affaiblir le RGPD au profit des entreprises d’IA

10 novembre 2025 à 13:15
RGP quoi ?
La Commission européenne prévoit d’affaiblir le RGPD au profit des entreprises d’IA

Un brouillon de la loi « omnibus numérique » qui doit être présentée en décembre prochain révèle que Bruxelles veut modifier en profondeur le RGPD pour aider l’industrie de l’IA à se développer en Europe. Le texte prévoit aussi d’alléger la gestion des bannières de cookies et d’imposer un mécanisme à la « do not track », avec la possibilité pour les médias de passer outre.

En fin de semaine dernière, plusieurs médias européens ont obtenu un brouillon de la loi « omnibus numérique » que prévoit de présenter la Commission européenne dans les prochaines semaines. Alors qu’elle présentait son texte comme une « simplification » des textes, l’analyse de ce document montre que le projet va beaucoup plus loin et fait dire au responsable de l’association noyb, Max Schrems, que « ces changements sont extrêmes et ont des répercussions considérables ».

Comme l’indique le média allemand Netzpolitik, la Commission a en fait séparé sa proposition en deux textes : l’un sur la « simplification » de différents textes sur le numérique déjà en application [PDF], l’autre est plus spécifiquement sur l’IA et affiche la volonté de « simplifier » l’AI act [PDF], alors que celui-ci commence tout juste à s’appliquer progressivement jusqu’à devenir pleinement effectif à partir du 2 aout 2027.

Une volonté de laisser tranquille l’industrie de l’IA en Europe

La refonte prévue par ce texte des lois protégeant les données au sein de l’Union européenne est clairement prévue pour laisser la voie libre aux entreprises d’IA générative dans le but affiché de les aider à rester compétitives sur la scène internationale. Elle pourrait permettre aussi à des entreprises comme Meta de lancer sur le marché européen des produits comme ses lunettes connectées boostées à l’IA avec un peu moins de risques de se faire attraper par la patrouille.

Dans une réaction publiée sur LinkedIn, le responsable de l’association noyb, Max Schrems, a publié le texte de ce brouillon accompagné des commentaires de noyb [PDF].

L’entrainement des IA comme un « intérêt légitime »

En question dans ces « simplifications » du RGPD, notamment, la volonté de prendre en compte l’entrainement des IA comme un « intérêt légitime ». Ainsi le texte affirme qu’ « une IA fiable est essentielle pour assurer la croissance économique et soutenir l’innovation avec des résultats bénéfiques pour la société ».

La Commission fait le constat que « le développement et l’utilisation de systèmes d’IA et des modèles sous-jacents, tels que les grands modèles de langage et les modèles de génération de vidéo, reposent sur des données, y compris des données à caractère personnel, à différentes étapes du cycle de vie de l’IA, telles que les phases d’entrainement, de test et de validation, et peuvent dans certains cas être conservées dans le système ou le modèle d’IA ». Elle en conclut que « le traitement des données à caractère personnel dans ce contexte peut donc être effectué à des fins d’intérêt légitime au sens de l’article 6 » du RGPD.

Des critiques des fondateurs du RGPD

Sur ce sujet, noyb considère que la Commission s’engage dans une « pente glissante » : « si l’on estime qu’il existe un intérêt légitime à « scraper l’intégralité d’Internet » et toute autre donnée d’entraînement disponible, à quelque fin que ce soit, sans le consentement des utilisateurs, il n’y a guère d’autres traitements qui ne relèveraient pas d’un « intérêt légitime » », commente l’association.

« Celui qui a rédigé ce projet avait une vision étroite de la (prétendue) « course à l’IA » et a tout simplement « balayé » le RGPD de nombreuses façons qui porteront préjudice à des personnes dans des centaines d’autres domaines (minorités, suivi en ligne, personnes souffrant de problèmes de santé, etc.) », a réagi Max Schrems dans son post sur LinkedIn.

« Il ne restera plus rien de la protection des données, car l’IA est omniprésente », considère de la même façon Paul Nemitz, ancien directeur du département juridique de la Commission européenne et un des fondateurs du RGPD.

« Est-ce la fin de la protection des données et de la vie privée telles que nous les avons inscrites dans le traité de l’UE et la charte des droits fondamentaux ? », s’est interrogé un autre des artisans du règlement européen, l’ancien eurodéputé Jan Philipp Albrecht cité par Politico. « La Commission doit être pleinement consciente que cela porte gravement atteinte aux normes européennes », ajoute-t-il.

Le respect d’un « do not track » obligatoire, sauf pour les médias

Le brouillon de la loi « omnibus numérique » prévoit aussi de simplifier l’utilisation des bandeaux de consentement aux cookies. Comme nous l’avions évoqué en septembre dernier, la Commission veut réduire l’affichage des bandeaux qui inondent le web. Elle envisage de mettre en place une automatisation de la réponse, à la manière d’un « do not track » très peu pris en compte actuellement, que l’utilisateur pourrait paramétrer soit dans son navigateur soit dans son système d’exploitation.

Les responsables des sites internet auraient l’obligation de prendre en compte ce mécanisme. Mais les rédacteurs y mettent une exception pour les sites de médias, comme le relève le site Heise. Ainsi, le texte indique que « compte tenu de l’importance du journalisme indépendant dans une société démocratique et afin de ne pas compromettre sa base économique, les fournisseurs de services de médias ne devraient pas être tenus de respecter les indications lisibles par machine relatives aux choix des personnes concernées ».

Cela permettrait aux médias de passer outre le consentement des utilisateurs et leur garantir la pérennité de leurs revenus provenant des publicités ciblées.

La Commission européenne prévoit d’affaiblir le RGPD au profit des entreprises d’IA

10 novembre 2025 à 13:15
RGP quoi ?
La Commission européenne prévoit d’affaiblir le RGPD au profit des entreprises d’IA

Un brouillon de la loi « omnibus numérique » qui doit être présentée en décembre prochain révèle que Bruxelles veut modifier en profondeur le RGPD pour aider l’industrie de l’IA à se développer en Europe. Le texte prévoit aussi d’alléger la gestion des bannières de cookies et d’imposer un mécanisme à la « do not track », avec la possibilité pour les médias de passer outre.

En fin de semaine dernière, plusieurs médias européens ont obtenu un brouillon de la loi « omnibus numérique » que prévoit de présenter la Commission européenne dans les prochaines semaines. Alors qu’elle présentait son texte comme une « simplification » des textes, l’analyse de ce document montre que le projet va beaucoup plus loin et fait dire au responsable de l’association noyb, Max Schrems, que « ces changements sont extrêmes et ont des répercussions considérables ».

Comme l’indique le média allemand Netzpolitik, la Commission a en fait séparé sa proposition en deux textes : l’un sur la « simplification » de différents textes sur le numérique déjà en application [PDF], l’autre est plus spécifiquement sur l’IA et affiche la volonté de « simplifier » l’AI act [PDF], alors que celui-ci commence tout juste à s’appliquer progressivement jusqu’à devenir pleinement effectif à partir du 2 aout 2027.

Une volonté de laisser tranquille l’industrie de l’IA en Europe

La refonte prévue par ce texte des lois protégeant les données au sein de l’Union européenne est clairement prévue pour laisser la voie libre aux entreprises d’IA générative dans le but affiché de les aider à rester compétitives sur la scène internationale. Elle pourrait permettre aussi à des entreprises comme Meta de lancer sur le marché européen des produits comme ses lunettes connectées boostées à l’IA avec un peu moins de risques de se faire attraper par la patrouille.

Dans une réaction publiée sur LinkedIn, le responsable de l’association noyb, Max Schrems, a publié le texte de ce brouillon accompagné des commentaires de noyb [PDF].

L’entrainement des IA comme un « intérêt légitime »

En question dans ces « simplifications » du RGPD, notamment, la volonté de prendre en compte l’entrainement des IA comme un « intérêt légitime ». Ainsi le texte affirme qu’ « une IA fiable est essentielle pour assurer la croissance économique et soutenir l’innovation avec des résultats bénéfiques pour la société ».

La Commission fait le constat que « le développement et l’utilisation de systèmes d’IA et des modèles sous-jacents, tels que les grands modèles de langage et les modèles de génération de vidéo, reposent sur des données, y compris des données à caractère personnel, à différentes étapes du cycle de vie de l’IA, telles que les phases d’entrainement, de test et de validation, et peuvent dans certains cas être conservées dans le système ou le modèle d’IA ». Elle en conclut que « le traitement des données à caractère personnel dans ce contexte peut donc être effectué à des fins d’intérêt légitime au sens de l’article 6 » du RGPD.

Des critiques des fondateurs du RGPD

Sur ce sujet, noyb considère que la Commission s’engage dans une « pente glissante » : « si l’on estime qu’il existe un intérêt légitime à « scraper l’intégralité d’Internet » et toute autre donnée d’entraînement disponible, à quelque fin que ce soit, sans le consentement des utilisateurs, il n’y a guère d’autres traitements qui ne relèveraient pas d’un « intérêt légitime » », commente l’association.

« Celui qui a rédigé ce projet avait une vision étroite de la (prétendue) « course à l’IA » et a tout simplement « balayé » le RGPD de nombreuses façons qui porteront préjudice à des personnes dans des centaines d’autres domaines (minorités, suivi en ligne, personnes souffrant de problèmes de santé, etc.) », a réagi Max Schrems dans son post sur LinkedIn.

« Il ne restera plus rien de la protection des données, car l’IA est omniprésente », considère de la même façon Paul Nemitz, ancien directeur du département juridique de la Commission européenne et un des fondateurs du RGPD.

« Est-ce la fin de la protection des données et de la vie privée telles que nous les avons inscrites dans le traité de l’UE et la charte des droits fondamentaux ? », s’est interrogé un autre des artisans du règlement européen, l’ancien eurodéputé Jan Philipp Albrecht cité par Politico. « La Commission doit être pleinement consciente que cela porte gravement atteinte aux normes européennes », ajoute-t-il.

Le respect d’un « do not track » obligatoire, sauf pour les médias

Le brouillon de la loi « omnibus numérique » prévoit aussi de simplifier l’utilisation des bandeaux de consentement aux cookies. Comme nous l’avions évoqué en septembre dernier, la Commission veut réduire l’affichage des bandeaux qui inondent le web. Elle envisage de mettre en place une automatisation de la réponse, à la manière d’un « do not track » très peu pris en compte actuellement, que l’utilisateur pourrait paramétrer soit dans son navigateur soit dans son système d’exploitation.

Les responsables des sites internet auraient l’obligation de prendre en compte ce mécanisme. Mais les rédacteurs y mettent une exception pour les sites de médias, comme le relève le site Heise. Ainsi, le texte indique que « compte tenu de l’importance du journalisme indépendant dans une société démocratique et afin de ne pas compromettre sa base économique, les fournisseurs de services de médias ne devraient pas être tenus de respecter les indications lisibles par machine relatives aux choix des personnes concernées ».

Cela permettrait aux médias de passer outre le consentement des utilisateurs et leur garantir la pérennité de leurs revenus provenant des publicités ciblées.

Le FBI cherche à obtenir l’identité du responsable d’Archive.today

7 novembre 2025 à 16:21
Police de l'Internet : vous avez vos papiers ?
Le FBI cherche à obtenir l’identité du responsable d’Archive.today

Le service de renseignement états-unien est à la recherche de la personne responsable d’un des sites d’archivage en ligne les plus connus, Archive.today, aussi connu par son autre nom de domaine archive.is. Le FBI a envoyé une injonction au bureau d’enregistrement Tucows pour récupérer les données personnelles associées.

Le 31 octobre dernier, Archive.today a posté sur X un lien vers une injonction faite au bureau d’enregistrement de son nom de domaine Tucows. Celle-ci demande au registrar canadien (un des plus importants dans le monde) de transmettre toutes les données relatives au client qui détient archive.today.

Archive.today, connu aussi sous le domaine archive.is ou archive.ph, c’est l’un des sites d’archivage du web les plus connus. Il existe depuis 2012 et on peut y accéder via différents noms de domaine du même genre, avec même un .onion utilisable via le protocole Tor.

Mais, contrairement à Internet Archive, dont la Wayback Machine propose d’accéder aux archives du web depuis 2001, Archive.today n’est pas une organisation à but non lucratif ayant pignon sur rue.

Utilisé pour passer outre les Paywalls

Le site permet à un utilisateur d’archiver une page qui pourra ensuite être consultée par d’autres. Ce mécanisme est massivement utilisé par des internautes pour passer outre les paywalls des différents médias. Sur sa page de FAQ, on peut y lire qu’il utilise Apache Hadoop et Apache Accumulo et que « toutes les données sont stockées sur HDFS, le contenu textuel est dupliqué trois fois entre les serveurs de différents centres de données et les images sont dupliquées deux fois ». Et selon cette même page, « tous les datacenters sont situés en Europe » (peut-être chez OVH). Mais aucune mention légale n’apparait concernant le responsable du site.

Comme le remarque le média allemand Heise, les pages de l’injonction faite par le FBI à Tucows ne permettent pas de savoir pourquoi le service de renseignement états-unien cherche à connaître l’identité du responsable du site. Le tweet posté par le compte d’Archive.today sur X accompagne le lien d’un simple « canary », faisant référence à l’utilisation du petit oiseau jaune dans les mines pour détecter le coup de grisou avant qu’il n’effondre les fondations souterraines.

Un « outil fragile » qui est « condamné à mourir »

La connaissance d’une telle injonction est le signal que le FBI enquête. Mais il n’en dit pas beaucoup plus sur le sujet. Est-ce l’enjeu de la sauvegarde massive de contenus d’éditeurs de médias états-uniens ? Est-ce celle de contenus problématiques ? Le FBI enquête-t-il sur les sources de financement du site ? Il est difficile de savoir quelle est la raison exacte.

Si personne n’a jamais revendiqué la responsabilité du site, en 2023, le blogueur Janni Patokallio a publié un billet sur le site dans lequel il cite le nom de la première personne ayant enregistré le domaine archive.is en 2012. « Même si nous ne connaissons ni son visage ni son nom, nous avons désormais une assez bonne idée du fonctionnement du site : il s’agit d’une œuvre passionnée menée par une seule personne, un Russe doté d’un talent considérable et d’un accès à l’Europe », concluait-il de ses recherches.

Comme le faisait remarquer Janni Patokallio, le créateur d’Archive Today est pleinement conscient que le site est un « outil fragile » qui est « condamné à mourir » un jour.

Le FBI cherche à obtenir l’identité du responsable d’Archive.today

7 novembre 2025 à 16:21
Police de l'Internet : vous avez vos papiers ?
Le FBI cherche à obtenir l’identité du responsable d’Archive.today

Le service de renseignement états-unien est à la recherche de la personne responsable d’un des sites d’archivage en ligne les plus connus, Archive.today, aussi connu par son autre nom de domaine archive.is. Le FBI a envoyé une injonction au bureau d’enregistrement Tucows pour récupérer les données personnelles associées.

Le 31 octobre dernier, Archive.today a posté sur X un lien vers une injonction faite au bureau d’enregistrement de son nom de domaine Tucows. Celle-ci demande au registrar canadien (un des plus importants dans le monde) de transmettre toutes les données relatives au client qui détient archive.today.

Archive.today, connu aussi sous le domaine archive.is ou archive.ph, c’est l’un des sites d’archivage du web les plus connus. Il existe depuis 2012 et on peut y accéder via différents noms de domaine du même genre, avec même un .onion utilisable via le protocole Tor.

Mais, contrairement à Internet Archive, dont la Wayback Machine propose d’accéder aux archives du web depuis 2001, Archive.today n’est pas une organisation à but non lucratif ayant pignon sur rue.

Utilisé pour passer outre les Paywalls

Le site permet à un utilisateur d’archiver une page qui pourra ensuite être consultée par d’autres. Ce mécanisme est massivement utilisé par des internautes pour passer outre les paywalls des différents médias. Sur sa page de FAQ, on peut y lire qu’il utilise Apache Hadoop et Apache Accumulo et que « toutes les données sont stockées sur HDFS, le contenu textuel est dupliqué trois fois entre les serveurs de différents centres de données et les images sont dupliquées deux fois ». Et selon cette même page, « tous les datacenters sont situés en Europe » (peut-être chez OVH). Mais aucune mention légale n’apparait concernant le responsable du site.

Comme le remarque le média allemand Heise, les pages de l’injonction faite par le FBI à Tucows ne permettent pas de savoir pourquoi le service de renseignement états-unien cherche à connaître l’identité du responsable du site. Le tweet posté par le compte d’Archive.today sur X accompagne le lien d’un simple « canary », faisant référence à l’utilisation du petit oiseau jaune dans les mines pour détecter le coup de grisou avant qu’il n’effondre les fondations souterraines.

Un « outil fragile » qui est « condamné à mourir »

La connaissance d’une telle injonction est le signal que le FBI enquête. Mais il n’en dit pas beaucoup plus sur le sujet. Est-ce l’enjeu de la sauvegarde massive de contenus d’éditeurs de médias états-uniens ? Est-ce celle de contenus problématiques ? Le FBI enquête-t-il sur les sources de financement du site ? Il est difficile de savoir quelle est la raison exacte.

Si personne n’a jamais revendiqué la responsabilité du site, en 2023, le blogueur Janni Patokallio a publié un billet sur le site dans lequel il cite le nom de la première personne ayant enregistré le domaine archive.is en 2012. « Même si nous ne connaissons ni son visage ni son nom, nous avons désormais une assez bonne idée du fonctionnement du site : il s’agit d’une œuvre passionnée menée par une seule personne, un Russe doté d’un talent considérable et d’un accès à l’Europe », concluait-il de ses recherches.

Comme le faisait remarquer Janni Patokallio, le créateur d’Archive Today est pleinement conscient que le site est un « outil fragile » qui est « condamné à mourir » un jour.

❌