Vue normale

À partir d’avant-hierNext.ink

L’usage « inconséquent » du « style Ghibli » généré par OpenAI par les politiques

31 mars 2025 à 15:03
« Le vent se lève, il faut tenter de vivre »
L’usage « inconséquent » du « style Ghibli » généré par OpenAI par les politiques

Des politiques ont surfé sur la vague d’images générées par IA au style très proche de celui de Hayao Miyazaki, utilisé par OpenAI pour faire la promotion de son nouveau modèle. Du RN à Renaissance en passant par LFI, plusieurs s’en sont aussi servi pour leur propre promotion, celle d’autres personnalités de leurs mouvements ou d’actions politiques.

Des personnalités politiques ont diffusé en fin de semaine dernière des portraits d’eux-mêmes ou des illustrations de communication politique surfant sur la vague d’images générées par le modèle 4o Image Generation d’OpenAI. Elles reprenaient le style de Hayao Miyazaki et de ses collègues du studio Ghibli.

L’incarnation de la Protection Civile par une image générée par une IA

Ainsi, Emmanuel Macron a publié samedi soir sur Twitter, un message sur la Protection Civile. Mais, pour illustrer les 32 000 bénévoles qui « veillent, secourent, forment et protègent » et à qui il adresse la phrase « vous incarnez le faire Nation et la Fraternité », le président de la République a préféré illustrer cette « incarnation » par une image générée par IA reprenant un style manga.

Gabriel Attal avec un mouton, Manon Aubry le poing levé ou Marine Le Pen sur le perron de l’Élysée

D’autres personnalités politiques ont, en fin de semaine, publié sur leurs réseaux sociaux des images de ce style : l’ancienne porte-parole du gouvernement et députée Renaissance Prisca Thevenot, et le Secrétaire général du même parti, Gabriel Attal, n’ont pas résisté à l’autopromotion.

Manon Aubry a, elle aussi, publié sur son compte Instagram des images la mettant en scène, dont l’une avec le leader de son mouvement, Jean-Luc Mélenchon. Mais finalement, la députée européenne LFI a peu de temps après supprimé ces images de son compte, alors que des utilisateurs du réseau social critiquaient cette utilisation. Le même week-end, le think tank Institut La Boétie de LFI proposait un colloque intitulé « L’intelligence artificielle, un nouveau champ de batailles ».

Du côté du RN, le député Alexandre Sabatou, qui se présente sur son compte X « pour une IA française et souveraine », a publié mardi 26 sur Twitter une image du même style mettant en scène Marine Le Pen montant les marches du perron de l’Élysée. C’était avant que Marine Le Pen soit condamnée pour détournement de fonds publics à deux ans de prison ferme et cinq ans d’inéligibilité avec application immédiate dans l’affaire des assistants européens du FN.

« Inconséquence des politiques »

Pour la correspondante au Japon de Libération, Karyn Nishimura, cette vague de communication exprime une « étrange inconséquence des politiques français postant des pseudo-images Ghibli générées via OpenAI ». Karyn Nishimura a, elle, bel et bien été l’héroïne du manga « Ivre du Japon », publié par son mari et auteur de mangas J.P. Nishi.

Pour Karyn Nishimura, « la question est éthique plus que juridique ». Elle dénonce le fait qu’OpenAI « ne voit aucun problème moral à entraîner sans vergogne son IA avec des œuvres de renom pour mieux commercialiser sa technique » mais aussi « que des personnalités politiques trahissent leur devoir en adressant aux artistes déjà démoralisés le pire des messages : « On peut se passer de vous, qui plus est avec des outils qui pillent votre travail. » ».

Finalement, après avoir laissé entendre que son entreprise maitrisait très bien la communication autour de cette vague d’images, Sam Altman a encore joué sur le storytelling d’un usage dépassant ses attentes. Après avoir tweeté un message demandant aux utilisateurs de se calmer, il a restreint la génération d’images aux comptes payants de son chatbot. Il a ainsi fait baisser, par la même occasion, la vague d’images au style Ghibli qui aura déferlé sur les réseaux sociaux pendant une semaine.

IA, consentement et pixels espion : la CNIL veut renforcer son « droit souple »

31 mars 2025 à 08:05
Souplesse avec nos données
IA, consentement et pixels espion : la CNIL veut renforcer son « droit souple »

L’autorité de protection des données revendique promouvoir « un juste équilibre entre la voie répressive et l’accompagnement ». En ce sens, elle indique qu’elle publiera en 2025 des documents destinés à aider les professionnels dans leur mise en conformité au RGPD concernant notamment l’IA, la santé, le consentement multi terminaux et les pixels espion.

La CNIL l’a déjà dit, elle veut une « innovation responsable » et n’envisage pas son rôle comme une autorité de répression : elle le martèle depuis longtemps, elle veut promouvoir « un juste équilibre entre la voie répressive et l’accompagnement ».

Pour cela, elle crée régulièrement des documents dits « de droit souple » : des référentiels, des recommandations, des lignes directrices, des guides pratiques, etc. Pour 2025, l’autorité annonce concentrer ces contenus « de droit souple » sur quelques thématiques connues à l’avance « pour que les professionnels concernés puissent se préparer aux concertations ou aux consultations à venir », explique-t-elle.

Encore et toujours l’IA

D’abord, et ça n’étonnera que les personnes qui ne se sont pas connectées à Internet depuis trois ans, elle veut poursuivre ses travaux « de clarification afin d’aider les professionnels à concilier innovation et respect des droits des personnes pour un développement innovant et responsable de leurs systèmes d’IA ». Bref, l’autorité va proposer des fiches sur la bonne façon de citer l’intérêt légitime dans les CGU des modèles d’IA pour être en règle avec le RGPD. Elle proposera aussi des fiches sur leur sécurisation et leur annotation.

Elle va aussi publier des conseils concernant le déploiement des IA dans le secteur de l’éducation, du travail et des collectivités locales.

Sous-traitants, assouplir l’utilisation des données de santé et clarification sur l’octroi de crédit

Pour aider les entreprises à faire respecter le RGPD par leurs sous-traitants, l’autorité construit plusieurs référentiels. La CNIL espère que les entreprises s’en saisiront et qu’elle n’aura donc pas à enquêter puis sanctionner ensuite. C’est pourtant un sujet déjà ancien et l’autorité a déjà dû infliger des amendes à des entreprises comme Darty, Infogreffe ou encore Pap.fr pour négligence auprès de leurs sous-traitants. Elle a mis en place une consultation publique sur le sujet qu’elle a clôturée fin février et va maintenant construire la version définitive de son référentiel.

La CNIL veut aussi mettre à jour ses référentiels sur les traitements de données de santé. Alors qu’elle exige actuellement une demande d’autorisation préalable auprès d’elle, l’autorité affirme vouloir modifier son parcours concernant le traitement de ces données en s’appuyant sur la base d’une déclaration de conformité. Elle explique vouloir s’adapter aux demandes des acteurs et aux pratiques professionnelles dans le secteur de la recherche en santé exprimées lors de la consultation publique qu’elle a menée en 2024.

L’autorité planifie aussi de publier un référentiel sur l’octroi de crédit par les banques, alors que celles-ci s’appuient de plus en plus sur des algorithmes utilisant les données de leurs (futurs) clients pour prendre leurs décisions.

Enfin deux référentiels sur la conservation des données sont au planning de cette année pour les activités commerciales et marketing et pour celles des ressources humaines.

Le consentement se fait-il pour tous les terminaux utilisés ?

L’autorité affiche sa volonté de renforcer ses textes de recommandation sur le consentement multi terminaux. En effet, la multiplication des appareils pour chaque utilisateur fait qu’on peut très régulièrement être connecté avec un même compte sur différents appareils. Mais, est-ce qu’en acceptant des conditions sur l’un d’eux (comme le dépôt de cookies), on les accepte sur tous ? Est-ce qu’en me logguant sur mon téléphone personnel, je donne le même consentement qu’en le faisant sur mon ordinateur professionnel ? Questions intéressantes auxquelles l’autorité veut s’atteler.

La CNIL veut aussi profiter de l’année 2025 pour publier un projet de recommandation concernant l’utilisation des pixels dans les courriels « dont l’usage est en forte croissance ». « L’objectif est de préciser les cas dans lesquels le consentement est nécessaire et guider les acteurs sur les modalités de son recueil », indique-t-elle.

Protéger les séniors et se pencher sur les dashcams

Elle veut aussi cibler le champ de l’économie des séniors, marché très « porteur » mais qui demande attention car le public peut être plus vulnérable. « La nature des données traitées et le ciblage en fonction de l’âge, notamment, soulèvent d’importants enjeux en matière de protection des données », affirme l’autorité.

Enfin, la CNIL veut se pencher sur les dashcams, les caméras embarquées dans les véhicules mis en place par certains automobilistes pour constituer des preuves en cas d’accident, lutter contre le vol ou diffuser des images spectaculaires sur les réseaux sociaux. Le « club conformité » mis en place par l’autorité et dédié aux acteurs du véhicule connecté et de la mobilité doit proposer des recommandations sur l’utilisation des ces caméras.

L’IA générative au renfort de la censure chinoise

28 mars 2025 à 14:02
Censure hyper moderne
L’IA générative au renfort de la censure chinoise

Une fuite de données montre qu’un système entraîné sur 133 000 exemples de messages étiquetés renforce le système de censure chinois, lui permettant d’aller bien au-delà d’une censure des principaux filtres mis en place au fil des années.

Le régime chinois censure depuis longtemps l’accès à Internet de toute personne se trouvant sur son territoire. Encore récemment, on apprenait que Facebook aurait créé un outil de censure pour pouvoir entrer dans ce marché, ou encore que des chercheurs chinois se servaient de Llama pour des usages militaires. Les modèles de langage peuvent aussi permettre au pays dirigé par Xi Jinping d’aller encore plus loin dans la surveillance des communications.

Un serveur non sécurisé

Sur Substack, une personne sous le pseudonyme de NetAskari expliquait en janvier avoir récupéré un jeu de données « fascinant » d’une taille d’environ 300 Go de fichiers JSON. Ceux-ci provenaient d’une base de données Elasticsearch stockée sur un serveur Baidu non sécurisé, précise TechCrunch qui a pu avoir accès aux fichiers. Le média américain ajoute que cela ne prouve pas l’implication de Baidu dans le projet, puisque la base peut provenir de n’importe quel client de l’entreprise.

« Chaque fichier comprend un prompt de classification ainsi qu’une chaîne de contenu correspondante, que j’appellerai la « cible de contenu ». L’entrée la plus récente de cette base de données est datée de décembre 2024 », ajoutait NetAskari.

Nos confrères expliquent que celle-ci « révèle que la Chine a mis au point un système d’intelligence artificielle qui renforce sa machine de censure déjà redoutable, allant bien au-delà des tabous traditionnels comme le massacre de la place Tian’anmen ».

133 000 exemples pour entrainer la censure

L’un de ces fichiers contient un prompt avec la définition d’un rôle du LLM lui donnant comme instruction : « en tant qu’analyste méticuleux des données d’opinion publique, tu dois analyser de manière exhaustive le contenu des articles et déterminer la catégorie à laquelle ils appartiennent. L’objectif final est de filtrer l’information pour le travail sur l’opinion publique, les informations importantes étant classées en trois catégories principales : « Dynamique sociale », « Dynamique politique » et « Dynamique militaire » ».

Ces catégories sont définies comme relatives à l’opinion publique et classées en priorités les plus hautes. D’autres catégories sont ensuite définies.

Il est accompagné par une collection de 133 000 exemples de contenus à trier. TechCrunch a publié un extrait de 10 que le média considère comme représentatif. On peut y voir un message déplorant la pauvreté rurale en Chine, un autre de la corruption systémique de la police, un autre soulignant la sévérité des restrictions militaires dans les mers de Chine orientale et méridionale, ou encore la volonté de la Chine d’intercepter les navires revendiquant la « liberté de navigation » dans le détroit de Taïwan.

« Les « contenus cibles » englobent un large éventail de sujets, y compris des titres d’actualité, des commentaires de type médias sociaux, des déclarations gouvernementales et des articles sur les voyages et les loisirs », précise NetAskari.

Peu d’informations ont été trouvées sur les origines de cette base de données. Mais le « travail sur l’opinion publique » fait référence à la propagande et à la censure et est supervisé par l’Administration du cyberespace de Chine, explique à TechCrunch le responsable du programme Asie de l’organisation de défense des droits Article 19, Michael Caster.

Pour la promotion de ses modèles, OpenAI se sert du style du réalisateur anti-IA Miyazaki

28 mars 2025 à 13:13
« Nous, les humains, perdons la foi en nous-mêmes »
Pour la promotion de ses modèles, OpenAI se sert du style du réalisateur anti-IA Miyazaki

Une vague d’images générées par IA au style très proches de celui de Hayao Miyazaki, ayant pourtant clairement exprimé son aversion pour l’intelligence artificielle dans la création artistique, a déferlé sur les réseaux sociaux ces derniers jours. En cause, la sortie du modèle 4o Image Generation d’OpenAI qui permet de créer facilement ce genre d’images. Le CEO de l’entreprise Sam Altman en joue sur les réseaux sociaux et s’enorgueillit d’avoir bien choisi les exemples initiaux pour présenter le modèle.

OpenAI a mis un coup de fouet à sa génération d’images en rendant GPT-4o multimodal. Celui-ci peut donc créer des images à la volée, comme beaucoup de ceux de ses concurrents, dont Grok qui est très utilisé pour ça, puisqu’il n’a aucun garde-fou.

Des mèmes et des scènes de films en anime

Pour lancer la promo et l’utilisation massive de son nouveau générateur, le CEO d’OpenAI, Sam Altman a, entre autres, twitté une image au style manga le représentant, posant avec deux de ses collègues comme des start-upeurs heureux de présenter leur nouveau projet :

Tweet de @sama :
this was a real labor of love from @gabeeegoooh
. congrats gabe; excellent work!

here is what we generated during the livestream:

Suivi d'une image générée par IA représentant dans un style manga 3 personnes reprenant les codes de manga et titrée « Feel the AGI ». La pause des trois reprend par contre les codes des startupers contents d'eux-mêmes se prenant en selfie.

On peut remarquer que la main de Gabriel Goh, au centre de l’image, est composée de quatre doigts seulement et celle de Sam Altman de six.

Depuis, de nombreuses personnes ont essayé la nouvelle fonctionnalité du modèle, devenu le générateur d’image par défaut dans ChatGPT pour les utilisateurs gratuits. Ils ont notamment essaimé les réseaux sociaux d’innombrables images dans le style du Studio Ghibli et de son co-créateur Hayao Miyazaki. Certains reproduisant des mèmes, d’autres des scènes iconiques de la culture populaire :

Storytelling bien ficelé

Surfant sur cette vague, le CEO d’OpenAI a repris la balle au bond. Il a rajouté une couche de storytelling en se peignant, dans un tweet, en ingénieur incompris qui, depuis une décennie, essaye « d’aider à créer une superintelligence pour guérir le cancer ou ce genre de chose » dont presque personne se soucie pendant des années puis qui est détesté par tout le monde « pour n’importe quoi », et qui se réveille un jour avec des centaines de messages lui montrant ce genre d’images utilisant le style du studio d’animation. L’homme d’affaires a même généré son propre avatar dans le style de Ghibli.

Miyazaki, connu pour son opposition à l’utilisation de l’IA dans l’animation

Si Sam Altman est autant fan du Studio Ghibli, il doit connaitre l’extrait du documentaire dans lequel Hayao Miyazaki exprime son opposition à l’utilisation d’une IA (non générative) pour faire de l’animation de modèles en 3D :

Le réalisateur s’exprimait sur les résultats d’une expérimentation particulière qui lui était montrée en la qualifiant d’ « insulte à la vie elle-même », mais il en concluait néanmoins de façon plus générale : « J’ai l’impression que nous approchons de la fin des temps. Nous, les humains, perdons la foi en nous-mêmes ». Le studio et le réalisateur n’ont, semble-t-il, pas encore réagi à cette vague de reproduction de leur style.

OpenAI assume ouvrir les vannes de la reproduction des styles de studio

À la réaction d’un utilisateur de X affirmant « honnêtement, openai est incroyablement chanceux que les vibrations positives de ghibli aient été la première utilisation virale de leur modèle et non une horrible absurdité deepfake », Sam Altman a laissé entendre que son entreprise maitrisait très bien la communication autour de cette vague de générations d’images reprenant le style du Studio Ghibli :

« Croyez-le ou non, nous réfléchissons beaucoup aux premiers exemples que nous montrons lorsque nous introduisons une nouvelle technologie ».

« Notre objectif est de donner aux utilisateurs autant de liberté créative que possible », a répondu OpenAI interrogé par 404 Media, ajoutant « Nous continuons à empêcher les générations dans le style des artistes vivants, mais nous autorisons des styles de studio plus larges que les gens ont utilisés pour générer et partager des créations originales de fans vraiment délicieuses et inspirées. Nous apprenons toujours de l’utilisation réelle et des commentaires, et nous continuerons à affiner nos politiques au fur et à mesure ». Et, en effet, les générations qui circulent ne mentionnent pas d’auteur mais bien le « style Ghibli ».

Rappelons qu’OpenAI n’en est pas à son premier coup concernant la reproduction de contenus de la culture populaire sans le consentement des artistes pour faire la promotion de son modèle GPT4-o : en mai 2024, l’entreprise avait utilisé une voix proche de celle de Scarlett Johansson qui avait interprété la voix de l’IA dans le film « Her ».

D’autres outils d’IA générative génèrent aussi des images d’œuvres protégées. En janvier 2024, Midjourney recrachait, entre autres, des images Pixar et parfois même sans qu’on le lui demande. L’artiste C215 expliquait que la copie, l’imitation, le plagiat, « c’est un débat vieux comme l’antiquité, dans le monde artistique ».

L’avocat Matthieu Quiniou affirmait : « si, en sortie, le résultat est reconnaissable, quand on fait « à la manière de » sans avoir demandé les droits à l’auteur, on produit de la contrefaçon ».

Perte d’attractivité au CNRS malgré sa réputation d’excellence scientifique

27 mars 2025 à 12:59
- 152 titulaires, + 939 contractuels
Perte d’attractivité au CNRS malgré sa réputation d’excellence scientifique

La Cour des comptes a publié un rapport sur le plus grand organisme public français de recherche scientifique. Elle y pointe un manque de crédits de base proposés aux chercheurs qui le rejoignent ainsi qu’un « fardeau administratif » qui s’est accru.

Le CNRS est un des centres de recherche les plus reconnus dans le monde. Il dispose « d’une réputation d’excellence scientifique solidement établie », affirme la Cour des comptes dans un rapport publié ce 25 mars qui lui est consacré.

« Le CNRS est le premier organisme de recherche en Europe (4,1 Md€ de budget,34 289 agents et 1 130 unités de recherche en 2023) et le deuxième opérateur de l’État en termes d’effectifs, derrière France Travail », remet en contexte la Cour.

Côté bons points, la gestion financière de l’organisation, dont l’évaluation est l’objectif principal de la Cour. Celle-ci relève qu’ « il fait preuve d’une maturité dans le domaine de la gestion digne d’être relevée dans le monde de l’enseignement supérieur et de la recherche ». Les universités et les autres institutions de recherche apprécieront.

Mais elle fait aussi remarquer que « celle-ci s’illustre, il est vrai, par un plus grand nombre de gestionnaires présents dans les unités de recherche par rapport à ce qui existe dans le monde universitaire et par une aptitude à gérer une organisation matricielle complexe, structurée autour de 10 instituts et de 17 délégations régionales ».

Centraliser la gestion des ressources propres

La Cour estime que « le CNRS dispose d’une situation financière florissante qui appelle une meilleure utilisation de ses ressources financières ». Elle remarque que « la trésorerie du CNRS s’élevait à 1,4 Md€ fin 2023, soit une croissance de 900 M€ en 11 ans, et a poursuivi sa croissance depuis ».


Il reste 84% de l'article à découvrir.
Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

Parcoursup et Mon Master : le Comité éthique regrette des « interprétations simplistes »

25 mars 2025 à 16:29
Arlésienne
Parcoursup et Mon Master : le Comité éthique regrette des « interprétations simplistes »

Le Comité éthique et scientifique de Parcoursup et Mon Master revient encore, dans son rapport annuel, sur les algorithmes de ses plateformes. Il balaye les critiques sur le manque de transparence, sur la sélection associées et sur l’amplification des inégalités qu’ils engendreraient.

La phase pour formuler des vœux sur Parcoursup s’est achevée le 13 mars. Pour Mon Master, les étudiants avaient jusqu’au lundi 24 au soir.

Ces plateformes utilisées pour sélectionner des (futurs) étudiants dans des formations de l’enseignement supérieur français sont souvent critiquées. En effet, l’orientation dans le supérieur est un moment stressant, surtout quand on vous dit que vous ne pourrez peut-être pas accéder à la formation que vous voulez faire. Ça peut devenir anxiogène quand on a l’impression qu’on est face à une machine peu transparente. Depuis APB, l’ancêtre de Parcoursup comme nous le rappelions récemment, les plateformes qui ont servi à organiser la sélection et gérer la pénurie de places ont subi ces critiques.

Le Comité éthique et scientifique de Parcoursup, qui a également pris sous son aile la plateforme Mon Master, a publié son septième rapport annuel adressé au Parlement. Dans le précédent, il voulait déjà clore le débat sur les « algorithmes ». Le résultat ne semble pas encore à la hauteur de ses espérances puisqu’il revient une nouvelle fois sur le sujet dans celui publié cette année.

Comme l’année dernière, ce comité explique le fonctionnement de l’appariement, notamment avec l’utilisation de l’algorithme de Gales et Shaple. Il précise cette année que c’est la même chose pour la plateforme Mon Master en plus simple, puisque « l’ordre d’appel des candidats » est « dans le cas de Mon Master, où il n’y a pas de quotas », basé sur le classement de la formation.

Pas de classement mais un « ordre d’appel »

Cet « ordre d’appel » n’est pas un classement, insiste le comité : « l’algorithme d’appariement de Parcoursup ou de Mon Master ne classe donc pas les candidats entre eux, il se contente de gérer l’appel des candidats en fonction de leurs vœux et des ordres d’appel issus des classements réalisés par les formations ».

Le comité scientifique fustige toute possibilité de faire autrement que d’utiliser ce genre d’outil : « évidemment, on pourrait aussi imaginer que toutes les formations aient des capacités illimitées afin que chacun puisse faire les études qu’il veut, là où il veut, ce qu’aucun pays au monde ne pratique, car ce serait impossible à organiser pour les établissements, insoutenable économiquement, et dommageable socialement pour certains étudiants que l’on laisserait aller droit à l’échec ou au chômage ».

Cette affirmation, qui pourrait paraitre sensée, ne s’appuie hélas sur aucun travail scientifique. Pourtant, avant APB, l’enseignement supérieur français n’utilisait pas ce genre de système. On peut imaginer qu’une comparaison entre la situation actuelle et celle avant APB serait possible, mais le comité ne semble pas l’avoir envisagée.

Parcoursup, opaque ?

Aux questions « L’algorithme d’appariement est-il manipulable ? » et « L’algorithme d’appariement est-il opaque ? », le comité répond « Non ». Il ajoute sur la question de sa possible manipulation qu’ « il est prouvé qu’il permet l’affectation équitable optimale des candidats (voir les rapports précédents du Comité) ».

En ce qui concerne l’opacité, il affirme que : « son code est publié, mais la confiance que lui accordent les candidats et leurs parents est chaque année à conquérir. Cette accusation d’opacité, qui circule en permanence, résulte d’une confusion entre l’algorithme d’appariement et les critères de classement des candidats par les commissions d’examen des dossiers de chaque formation ».

Pourtant, comme nous le rappelions récemment, de nombreux rapports soulignent l’opacité de Parcoursup. Le Tribunal administratif de Paris a aussi rejeté la demande de l’association Ouvre-boîte qui voulait accéder au code source complet de Parcoursup.

« L’incompréhension et le sentiment d’opacité proviennent aussi parfois dans Parcoursup de l’effet des quotas de mobilité et de boursiers », affirme le comité.

Néanmoins, il reconnait encore qu’il faut « améliorer l’ergonomie par retour d’expérience des usagers », « améliorer l’affichage des caractéristiques et des critères de classement des formations », « accompagner et aider à l’orientation, une boussole indispensable face à l’immensité des possibles ».

Sur les « algorithmes locaux », le comité considère qu’ils sont « improprement dénommés » ainsi et préfère les appeler « classements des candidats par les formations ». Et pour cause, à la question « Est-ce que des algorithmes classent les candidats à la place des commissions d’examen des dossiers ? », le comité s’empresse de répondre « Non. Ce sont les commissions d’examen des dossiers qui définissent les critères et qui fonctionnent comme un jury ».

Dans le même temps, il est bien obligé d’expliquer que « dans le cadre de Parcoursup, les formations qui doivent classer plusieurs centaines, voire milliers, de candidats sont en effet obligées d’avoir recours à des tableurs, ne serait-ce que pour éviter les erreurs de manipulation ». Il ajoute que « ces tableurs se fondent logiquement sur des critères décidés par les équipes pédagogiques des formations en fonction des compétences et connaissances attendues pour le diplôme visé et permettent un préclassement des dossiers ; cela facilite ensuite le travail délibératif des commissions qui doivent finaliser les classements par un examen personnalisé de certains dossiers ». C’est aussi le cas pour Mon Master.

Il affirme que « c’est dans la transparence de cette pratique que se situe le débat et c’est sur elle que portent les recommandations du Comité au fil des ans. Le Comité a toujours recommandé que ces clés de classement et leur quantification soient publiées de la façon la plus précise possible par les établissements ».

Le comité reconnait aussi un « manque de clarté et d’informations sur les formations privée » alors qu’ « en 2025, 40 % des formations offertes sur Parcoursup sont privées, dont la moitié sont hors contrat ».

Le problème de l’anonymat

Le comité reconnait qu’une question se pose lors de l’examen des candidatures sur Parcoursup : l’anonymat des candidats. Celui-ci est en principe de mise, « cependant, cet anonymat n’existe pas pour les CPGE avec internat (la grande majorité) ».

Du côté de l’anonymat des lycées d’origine, il indique que celui-ci « serait souhaitable, mais il nécessiterait une harmonisation préalable des notations par les lycées, ce pour quoi le Comité milite ». Il conseille « en attendant […] d’augmenter la transparence, notamment sur la prise en compte du lycée d’origine dans les barèmes de points conduisant au classement dans certaines formations ».

Il note que « concernant Mon Master, les candidatures sont nominatives et personne ne réclame l’anonymat ». Le contact entre les différentes formations, enseignants et étudiants « est heureux pour la vie scientifique et fait que les communautés se connaissent ». Il ajoute que « beaucoup de masters organisent des entretiens lors du classement de leurs candidats », ce qui rend impossible, de fait, un anonymat. On peut ajouter que certaines formations conseillent de les contacter avant de candidater pour montrer sa motivation.

Les vidéos générées avec Sora sont pleines de biais

25 mars 2025 à 12:53
Move fast and break things ?
Les vidéos générées avec Sora sont pleines de biais

L’outil de génération de vidéos par IA d’OpenAI, Sora, annoncé il y a un an et lancé en décembre dernier, n’échappe pas aux problèmes de biais existants dans les outils s’appuyant sur des modèles de langage. Comme le montrent des chercheurs et des journalistes, il perpétue et amplifie certains stéréotypes sexistes, racistes et validistes.

Depuis un an, OpenAI a introduit dans sa panoplie l’édition de vidéos à ses outils d’IA générative. En février 2024, lorsqu’elle présentait Sora, l’entreprise expliquait qu’elle ne l’avait pas rendue publique et affirmait qu’elle prendrait « plusieurs mesures de sécurité importantes avant de rendre Sora disponible ». Elle ajoutait travailler avec des « experts dans des domaines tels que la désinformation, les contenus haineux et les biaisqui testeront le modèle de manière contradictoire ».

Concernant les tests avec les artistes, Sora a connu des tensions début décembre, mais l’entreprise a finalement sorti une offre disponible au grand public quelques jours après, avec des gardes-fous techniques pour la protection de l’enfance, éviter les générations de deepfakes pornographiques et les vidéos de désinformation. L’entreprise admettait toutefois que l’efficacité ne pouvait pas être garantie à 100%.

Le problème des biais négligé

Mais l’entreprise a, semble-t-il, négligé le problème des biais de son modèle. Ils sont pourtant pointés du doigt depuis 2020, par des chercheuses comme Emily Bender, Timnit Gebru, Angelina McMillan-Major et Margaret Mitchell. « Dans le monde de Sora, tout le monde a une belle apparence », affirment ironiquement les journalistes Victoria Turk et Reece Rogers dans leur enquête publiée dans Wired, « les pilotes, les CEO et les profs d’université sont des hommes, tandis que les personnels navigants, les réceptionnistes et les personnes qui s’occupent des bébés sont des femmes ».

Précisons que ce travail a été effectué en anglais, langue dans laquelle le neutre existe et est massivement utilisé. Dans cette phrase, par exemple, les journalistes utilisent « flight attendants » et « childcare workers », termes qui sont couramment traduits en français par « hôtes/hôtesses de l’air » et « puériculteurs/puéricultrices » et très souvent utilisés au féminin.

Pas de femme pilote, pas d’infirmier

Les deux journalistes ont testé 25 prompts en générant à chaque fois 10 vidéos. Aucun résultat du prompt demandant la vidéo d’un ou une pilote ( « a pilot ») ne comportait de femme alors qu’au contraire tous ceux pour « flight attendants » génèrent la vidéo d’une femme. Les profs, les CEO et les leaders politiques et religieux sont toujours des hommes alors que Sora ne génère que des vidéos d’infirmières, de puéricultrices et de réceptionnistes femmes.

Pour « une personne qui sourit » (« a person smiling »), Sora a proposé 9 vidéos sur 10 avec un personnage féminin clairement identifiable. Le genre de la dixième personne n’était pas clairement identifiable. Dans les vidéos générées à partir de professions évoquées ci-dessus, la moitié des femmes souriait alors que ce n’était le cas pour aucun homme. La chercheuse de l’université de Cambridge, Amy Gaeta, explique à Wired que ce résultat reflète les attentes émotionnelles en matière de genre.

Des chercheurs ont aussi mis en ligne en janvier, sur la plateforme de preprint arXiv, une étude faisant le même genre de constat concernant les biais de genre dans les résultats de Sora. Une personne attractive était beaucoup plus souvent une femme (8 sur 10) alors que la ventilation des résultats sur une « personne laide » était égalitaire. La vidéo d’une personne musclée était forcément celle d’un homme alors que celle d’une personne fragile était plus souvent une femme (8 sur 10). Les stéréotypes selon les professions étaient aussi repris de façon flagrante :

Les journalistes expliquent que la plupart des personnes générées par Sora paraissent avoir entre 18 et 40 ans, sauf pour les leaders politiques et religieux.

Des blocages déroutants

Du côté de la couleur de peau, Wired explique avoir obtenu des résultats avec plus de diversité, même si les profs, les stewards et les pilotes semblent avoir une peau plus claire. Une chose étonnante se produit, par contre, quand on spécifie la couleur d’une personne : alors que le prompt « a Black person running » (« une personne noire qui court ») renvoie bien ce qu’il doit renvoyer, « a white person running », donne dans 4 vidéos sur 10 une personne noire courant avec des vêtements blancs.

Les journalistes de Wired ont remarqué que, par défaut, les personnes générées sont « fines et athlétiques, attractives au sens conventionnel et sans handicap visible. Même quand le prompt spécifie « a fat person running » (« une personne grosse court »), dans 7 résultats sur 10, les personnes n’étaient « clairement pas grosses ».

Les couples hétérosexuels sont, la plupart du temps (9 fois sur 10), dépeints dans des univers extérieurs alors que les couples gays sont dans des scènes d’intérieurs domestiques (8 fois sur 10).

Plusieurs chercheurs interrogés par Wired ont remarqué que les vidéos générées avaient un côté « stock image », indiquant soit un entrainement sur des données de ce type soit un affinage volontaire d’OpenAI pour obtenir ce genre d’images.

Comme le pointe Wired, ce genre d’outils est essentiellement utilisé actuellement dans des publicités et des contenus de marketing. Et l’utilisation de Sora va sans doute exacerber les stéréotypes qui existent déjà largement dans ces contenus.

« Entre connexion intensive et désir de déconnexion », une ambivalence des français

24 mars 2025 à 07:33
Lâche ce portable !
« Entre connexion intensive et désir de déconnexion », une ambivalence des français

Le baromètre du numérique 2025, commandé par l’Arcep et l’Arcom, décrit des français toujours plus connectés à l’Internet. Et pourtant, la même enquête rapporte une volonté d’accomplir les activités de leur vie quotidienne en se déplaçant, de manière physique, plutôt qu’en ligne.

Le Crédoc, le Centre de recherche pour l’étude et l’observation des conditions de vie, vient de publier le « baromètre du numérique » de cette année [PDF]. Comme depuis 25 ans, cette enquête, commandée par l’Arcep et l’Arcom, décrit et analyse notamment le niveau d’équipement des français, mais aussi les usages d’internet et leur rapport au numérique.

L’enquête a été menée, du 5 juillet au 6 août 2024, auprès de 4 066 personnes résidant en France métropolitaine, réparties en trois populations cibles distinctes (12 à 17 ans, 18 ans et plus, 18 ans et plus éloignés du numérique).

94 % des Français connectés quotidiennement

Le Crédoc explique que « les internautes, quel que soit le mode de connexion, n’ont jamais été aussi nombreux : 94 % des 12 ans et plus se connectent désormais à internet (+ 3 points par rapport à 2023)  ». La part des personnes connectées tous les jours dans la population est de 84 %. En 2015, ce chiffre rassemblait la part des internautes (qui se connectaient quotidiennement, une à deux fois par semaine ou plus rarement) en France.

Le Crédoc explique que « le smartphone est l’équipement numérique le plus répandu : 91 % de la population en possède un, devant l’ordinateur (89 %) ou la tablette (54 %) ». Mais chez les 12 - 17 ans, son adoption est « presque systématique avec 96 % d’équipés ». Et chez les plus de 70 ans, son utilisation augmente très fortement à 70 % d’utilisateurs et utilisatrices, avec une augmentation de 8 points en un an.

44 % de la population possède maintenant un smartphone compatible 5G, une augmentation de 13 points en un an.

En 2020, le Covid et les confinements avaient poussé à une baisse de l’utilisation quotidienne des téléphones mobiles et smartphones au profit d’un retour vers les ordinateurs. Mais les chiffres de 2024 dessinent un retour vers la tendance pré-covid : 80 % utilisent leur smartphone ou téléphone portable tous les jours alors que l’utilisation quotidienne de l’ordinateur passe de 66 % en 2020 à 55 % en 2024.

75 % des connexions fixes via la fibre

Du côté des connexions fixes, le croisement des courbes entre la fibre (ou le câble) et l’ADSL s’est fait en 2021. En 2024, 75 % des personnes de 12 ans et plus disposant d’un accès à internet à domicile déclarent que celui-ci se fait via la fibre (ou le câble).

Une détention du smartphone plus durable

Côté mobile, on constate dans les chiffres du Crédoc une augmentation de la durée de détention du smartphone : 48 % des utilisateurs possédaient un smartphone de deux ans ou moins en 2024 alors qu’ils étaient 63 % en 2020.

Et l’achat se fait de plus en plus de façon « contrainte » plutôt que par « plaisir » : en 2024, 70 % ont acheté leur dernier smartphone car celui d’avant ne fonctionnait plus correctement, n’était plus utilisable, était perdu/volé ou son système d’exploitation n’était plus à jour, une hausse de 8 points par rapport à 2020 :

Des tâches du quotidien de plus en plus en ligne

Du fait d’être particulièrement connectés, les Français, selon cette enquête du Crédoc, font de plus en plus d’activités en ligne : « 75 % des Français y recherchent des itinéraires pour se déplacer, 67 % y prennent leurs rendez-vous médicaux, 31 % y défendent des causes, par exemple sous forme de pétition, 29 % y cherchent un logement à louer ou à acheter et tout autant (29 %), y cherchent un emploi ».

L’organisme ajoute que « les démarches administratives en ligne sont devenues une pratique courante pour une large majorité de la population française. En 2024, 73 % des Français ont effectué une démarche administrative sur Internet au cours des douze derniers mois, marquant une hausse de 2 points par rapport à 2022 ».

De même, « après un recul en 2023, les achats en ligne de biens non alimentaires, progressent à nouveau en 2024 et renouent avec les niveaux observés en 2022. 77 % de la population française en a réalisé un (+ 4 points en un an) ». La fréquentation quotidienne des réseaux sociaux s’accroit aussi avec 75 % des internautes français qui consultent au moins une fois par jour un réseau social, une augmentation de 3 points en un an.

42 % pensent passer trop de temps en ligne pour leur usage personnel

Pour leur usage personnel, 20 % considèrent passer plus de 35 heures par semaine devant les écrans et 38 % entre 15 et 35 heures par semaine.

Mais le Crédoc pointe qu’une bonne partie d’entre eux trouve qu’ils passent personnellement trop de temps sur leurs appareils pour leur propre usage : 42 % pensent qu’ils y consacrent « trop » ou « beaucoup trop » de temps.

Quand on regarde plus en détail, 57 % des personnes passant plus de 35 heures sur leurs appareils considèrent qu’ils y consacrent trop de temps :

« De façon générale, 65 % de la population préfère accomplir une activité de leur vie quotidienne en se déplaçant, de manière physique, plutôt qu’en ligne. 82 % privilégient par exemple le déplacement en magasin pour leurs courses alimentaires et 64 % pour leurs vêtements », explique le Crédoc.

Selon l’étude, « 85 % des Français préfèrent faire des rencontres en personne dans des lieux de leur vie quotidienne plutôt que sur internet, qui paraît devenir un espace à la sociabilité plus ciblée que par le passé ». La pratique est, de fait, en baisse puisque 39 % l’ont utilisé pour retrouver d’anciennes connaissances, c’est 11 points de moins qu’en 2019. De même, 34 % ont été sur internet pour nouer de liens avec de nouvelles personnes, 10 points de moins qu’il y a cinq ans. « Seule exception, la sociabilité à des fins de rencontre amoureuse a progressé, de 15 % en 2019 à 19 % en 2024 », explique le Crédoc.

Une inquiétude pour le manque de protection des données personnelles

L’organisme explique aussi que « l’inquiétude pour le manque de protection des données personnelles, qui avait considérablement reculé depuis 2019, a progressé de 13 points en l’espace d’un an (33 %) ».

C’est d’ailleurs la première crainte de l’usage d’internet et des outils numériques : 28 % de la population craint que ses données personnelles soient utilisées de manière inappropriée ou sans son autorisation :

Plainte contre OpenAI : ChatGPT a accusé à tort un Norvégien d’avoir tué ses enfants

21 mars 2025 à 11:10
« Tu es un meurtrier » (ou pas, déso)
Plainte contre OpenAI : ChatGPT a accusé à tort un Norvégien d’avoir tué ses enfants

ChatGPT a affirmé que le Norvégien Arve Hjalmar Holmen avait tué deux de ses enfants, ce qui est faux. Celui-ci, accompagné de l’association noyb, attaque OpenAI devant l’autorité norvégienne de protection des données, la Datatilsynet, pour violation du RGPD.

Comme de nombreuses personnes, le Norvégien Arve Hjalmar Holmen a cherché à savoir ce que ChatGPT pouvait générer sur lui en lui posant une simple question. Mais il a été choqué de voir s’afficher à tort en réponse qu’il était le meurtrier de deux de ses enfants et qu’il aurait tenté de tuer le troisième.

Le citoyen, épaulé par l’association de Max Schrems, noyb, a déposé une plainte [PDF] auprès de la Datatilsynet, la CNIL locale pour violation du RGPD.

« Hallucination » d’infanticides et d’une condamnation

Le document explique qu’à la question posée en anglais « Qui est Arve Hjal-mar Holmen ? », le chatbot d’OpenAI a « halluciné » des événements horribles après avoir affirmé qu’il avait « attiré l’attention à la suite d’un événement tragique ». ChatGPT a généré un paragraphe de cinq phrases, dont une disait qu’il avait « été accusé puis condamné pour le meurtre de ses deux fils, ainsi que pour la tentative de meurtre de son troisième fils ».

L’outil d’OpenAI affirmait que « l’affaire [avait] choqué la communauté locale et la nation, et a été largement couverte par les médias en raison de sa nature tragique ». Enfin, le chatbot a généré une phrase affirmant qu’il avait été « condamné à 21 ans de prison, la peine maximale en Norvège ». ChatGPT finissait sa présentation en une phrase de commentaire : « L’incident a mis en lumière les problèmes de santé mentale et la complexité des dynamiques familiales  ». Or, affirme la plainte, Arve Hjalmar Holmen n’a jamais a été accusé ni condamné pour aucun crime.

Mélange problématique avec des données personnelles

Mais Arve Hjalmar Holmen et noyb expliquent que ces affirmations mensongères sont mélangées à des informations personnelles qui sont, elles, exactes : sa ville d’origine, le nombre de ses enfants et leur genre ainsi que l’écart d’âge entre deux d’entre eux, ce qui rend l’affirmation erronée plus crédible par des personnes qui le connaissent.

En conséquence, ils ont porté plainte contre OpenAI pour traitement de données à caractère personnel donnant à des résultats inexacts, y compris par le responsable du traitement, en violation de l’article 5, paragraphe 1, point d), du RGPD.

Pour rappel, celui-ci impose que « les données à caractère personnel doivent être exactes et, si nécessaire, tenues à jour ; toutes les mesures raisonnables doivent être prises pour que les données à caractère personnel qui sont inexactes, eu égard aux finalités pour lesquelles elles sont traitées, soient effacées ou rectifiées sans tarder (exactitude) ».

Dans la plainte, les avocats précisent que depuis que les modèles d’OpenAI utilisent des données publiées sur le web, « il est moins probable que ChatGPT reproduise les résultats  ». Mais ils font remarquer que la conversation est toujours disponible (via un lien enlevé de la plainte diffusée publiquement).

« Pour Arve Hjalmar Holmen, cela signifie heureusement que ChatGPT a cessé de raconter des mensonges sur le fait qu’il est un meurtrier. Toutefois, les données incorrectes peuvent encore faire partie de l’ensemble de données du LLM », affirme noyb dans son communiqué de presse.

Les modèles de langage non conformes au RGPD

Dans la plainte, les avocats pointent aussi qu’ « OpenAI admet ouvertement que « les résultats ne sont pas toujours exacts » et que « compte tenu de la nature probabiliste de l’apprentissage automatique, l’utilisation de nos services peut, dans certaines situations, donner lieu à des résultats qui ne reflètent pas fidèlement des personnes, des lieux ou des faits réels » » dans ses conditions d’utilisation pour l’Europe. « En substance, OpenAI déclare que son LLM ne peut pas être conforme au principe d’exactitude en vertu de l’article 5, paragraphe 1, point d), du RGPD », commentent les avocats de noyb et d’Arve Hjalmar Holmen.

« L’ajout d’une clause de non-responsabilité indiquant que vous ne respectez pas la loi ne fait pas disparaître la loi. Les entreprises d’IA ne peuvent pas non plus se contenter de « cacher » de fausses informations aux utilisateurs alors qu’elles traitent encore de fausses informations en interne », affirme Kleanthi Sardeli, avocate chez noyb. Elle ajoute : « les entreprises d’IA devraient cesser d’agir comme si le RGPD ne s’appliquait pas à elles, alors que c’est clairement le cas. Si l’on ne met pas fin aux hallucinations, des gens souffriront d’atteintes à leur réputation ».

« Certains pensent qu’il n’y a pas de fumée sans feu. Ce qui me fait le plus peur, c’est que quelqu’un puisse lire cette réponse et la croire vraie », explique de son côté le principal intéressé, Arve Hjalmar Holmen.

Contactée par Next, OpenAI n’a pas répondu. Nous mettrons à jour cette actualité le cas échéant.

Salaires de la tech : une stagnation, voire une contraction

21 mars 2025 à 08:02
Pas la joie
Salaires de la tech : une stagnation, voire une contraction

Les salaires dans les métiers du numérique stagneraient selon une enquête du cabinet de recrutement « The Product Crew ».

The Product Crew est un cabinet de recrutement basé sur Paris spécialisé sur les emplois de « tech » et « produits » en France. Tous les ans, l’entreprise envoie un questionnaire à sa base de données pour sonder les employés de ces secteurs sur leurs salaires. Elle diffuse ensuite ses résultats via un formulaire. Nous avons donné notre email.

En comparant ses résultats de l’année dernière aux 5 804 réponses de cette année, le cabinet explique que les salaires n’ont pas augmenté cette année dans les métiers Tech, design et data.

Elle explique qu’on peut même « parler d’une stagnation, voire d’une contraction sur tous les métiers en tenant compte de l’inflation ».

Le cabinet note des « écarts globalement homogènes entre l’Île-de-France et les autres régions » avec quand même - 16 % dans le nord quand les personnes interrogées dans la région de Bordeaux déclarent un écart de 8 % avec Paris.

Un quart de satisfaits seulement

En fait, la moitié des répondants n’a pas eu d’augmentation cette année, un tiers d’entre eux ont vu leur salaire augmenter de 1 à 5 %, 11 % ont obtenu une augmentation comprise entre 5 et 10 % et enfin 5 % ont été augmentés de plus de 10 %.

Seulement 26 % des personnes interrogées par le cabinet de recrutement se sont déclarées satisfaites de leur rémunération. Elles étaient 55 % à être satisfaites l’année dernière.

Des inégalités femmes-hommes d’autant plus fortes que l’ancienneté augmente

Lorsque l’entreprise compare les réponses des hommes et des femmes, elle constate toujours de fortes inégalités qui se creusent au fil de l’expérience. Ainsi, dans les deux premières années, les femmes gagnent 6,3 % moins que les hommes, mais, après 10 ans d’expérience, l’écart atteint presque 15 % (sans préciser si c’est en comparant à temps plein et à poste équivalent).

En détail, côté produit, 44 % des personnes qui ont répondu sont des femmes. Un product manager commence, par exemple, dans les deux premières années, à 51 000 euros (en moyenne, brut annuel, fixe + variable) et atteint en moyenne à plus de dix ans d’ancienneté 74 000 euros. Un chef de produit est en moyenne à 78 000 euros par an (dans les 3 à 5 premières années de sa carrière) à 93 000 euros par ans après plus de dix ans.

Python et Ruby boostent ton salaire

Pour les profils « tech », c’est-à-dire développeurs et ingénieurs, le taux de femmes tombe à 15 %. Les développeurs « fullstack » sont rémunérés, en moyenne 41 000 euros par an dans leurs deux premières années et 66 000 euros après 10 ans d’ancienneté.

Selon les chiffres du cabinet de recrutement, les langages Python et Ruby permettent d’obtenir, en moyenne, des salaires plus élevés :

Chez les profils Design qui ont répondu à l’enquête, les femmes sont plus nombreuses (57 %). Les product designers commencent avec un salaire moyen de 43 000 euros les deux premières années et sont à 67 000 euros par an après plus de 10 ans. Pour les UI designers, ces chiffres sont respectivement de 38 000 et 55 000 euros par an et chez les UX designer de 44 000 à 62 000 euros par an. Chez les chercheurs UX, ont passe de 42 000 euros en début de carrière à 72 000 euros après 10 ans.

Côté « data » (analystes, ingénieurs, scientists), 76 % des personnes qui répondent sont des hommes. Pour les data scientists, le salaire est de 45 000 euros en début de carrière et 80 000 après 10 ans (en moyenne toujours). Les analystes sont à 46 000 euros dans les deux premières années et ont un salaire moyen de 64 000 après 10 ans. Les ingénieurs « data » commencent à 44 000 euros leurs deux premières années et sont à 64 000 euros avec entre 6 et 9 ans d’ancienneté.

L’hybride est la norme

La plupart (93 %) des personnes qui ont répondu au questionnaire de l’entreprise de recrutement sont au moins une journée par semaine en télétravail, « l’hybride comme une nouvelle norme » affirme The Product Crew. Pour plus d’un tiers des employés interrogés, ce sont deux journées qui se passent en dehors du bureau. 94 % des employés en « full remote » (c’est-à-dire en télétravail toute la semaine, comme chez Next) sont satisfaits.

Si leurs conditions vis-à-vis du télétravail les satisfont, la moitié des employés de la tech qui ont répondu à l’enquête veut changer d’emploi dans les 12 prochains mois, avec 43 % d’entre eux l’insatisfaction sur la rémunération comme levier numéro un. « C’est trois fois plus que l’an dernier », signale le cabinet de recrutement. Pour 18 %, ils ont besoin « de nouveaux challenges » et pour 14 %, ils ne sont pas en phase avec le management.

Les principales raisons qui font rester les personnes en postes sont le fait de développer de nouvelles compétences (à 22 %), de bonnes perspectives d’évolution pour 17 % et se sentir « challengé au quotidien » à 15 %.

Paragon : le Canada, l’Australie et le Danemark, probables clients du logiciel espion

20 mars 2025 à 14:00
Pas parangon de vertu
Paragon : le Canada, l’Australie et le Danemark, probables clients du logiciel espion

Les chercheurs et chercheuses du Citizen Lab de l’Université de Toronto ont pu cartographier l’infrastructure serveur du logiciel espion Graphite de l’entreprise israélienne Paragon, et identifié des indices de son déploiement en Australie, au Canada, à Chypre, au Danemark, en Israël et à Singapour.

Le Citizen Lab, laboratoire de recherche réputé pour ses travaux sur les logiciels espion, a publié sur son site un décorticage de l’infrastructure serveur de l’outil d’espionnage Graphite vendu par l’entreprise Paragon.

Rappelons que WhatsApp a accusé récemment l’entreprise israélienne d’avoir ciblé environ 90 de ses utilisateurs, dont des journalistes et d’autres membres de la société civile. La messagerie expliquait qu’elle avait réussi à interrompre cette campagne de piratage en décembre 2024.

Au cours de leur travail, les chercheurs sont tombés sur des adresses IP en Australie, au Canada, à Chypre, au Danemark, en Israël et à Singapour. Ils soupçonnent qu’elles soient utilisées pour le déploiement du logiciel chez les clients de l’entreprise.

Départ à partir d’un « tuyau d’un collaborateur »

Ils expliquent avoir mené leur recherche à la suite d’un « tuyau d’un collaborateur concernant un seul élément d’infrastructure : un nom de domaine pointant vers un serveur qui a également renvoyé plusieurs certificats TLS auto-signés distincts ».

« Les certificats présentaient de nombreux éléments curieux, notamment plusieurs informations manquantes et un système de dénomination particulier », ajoutent-ils.

Dès lors, les chercheurs ont pu identifier plusieurs « empreintes digitales » permettant d’identifier les serveurs et certificats TLS liés à Paragon. L’un des certificats, « apparemment créé en novembre 2019 », a été enregistré avec, comme nom d’organisation, « Graphite », le nom du logiciel espion de l’entreprise.

« En résumé, de solides preuves circonstancielles confirment l’existence d’un lien entre Paragon et l’infrastructure que nous avons décrite », estiment les chercheurs du Citizen Lab.

Des IP venant de FAI locaux et non de fournisseurs de solution de cloud

Mais en analysant l’infrastructure de Paragon, ils sont aussi tombés sur « d’autres adresses IP intéressantes ». Celles-ci ont « apparemment [été] obtenues auprès d’entreprises de télécommunications locales » et non à des entreprises de cloud. Les chercheurs du Citizen Lab soupçonnent donc « qu’elles appartiennent aux déploiements des clients de Paragon », ajoutant qu’une lettre utilisée comme « nom de code » pour chaque IP correspond à la première lettre du pays associé (sauf pour Israël) : Australie, Canada, Chypre, Danemark et Singapour.

Les certificats utilisés leur ont permis de remonter à un datacenter de Digital Reality en Allemagne. Les divers noms de code utilisés par ces certificats sont encore autant d’indices qui amènent les chercheurs « à penser que le client de Digital Realty pourrait être Paragon ».

Les chercheurs canadiens se sont plus particulièrement intéressés aux adresses IP situées dans leurs pays. L’une d’elles correspondrait selon eux à la Police provinciale de l’Ontario (OPP), mais « les autres adresses de clients comprennent ce qui semble être un entrepôt partagé, un centre commercial, une brasserie et un appartement ». Plusieurs éléments suggèrent que l’OPP est un client potentiel de Paragon, avance Citizen Lab.

Interrogée par TechCrunch, l’OPP ne nie pas et déclare : « la divulgation d’informations sur des techniques et technologies d’enquête spécifiques pourrait compromettre des enquêtes en cours et menacer la sécurité du public et des agents ». Aucune des autorités des autres pays n’ont répondu à nos confrères.

Le porte-parole de Paragon précise que le Citizen Lab lui a donné « une quantité très limitée d’informations, dont certaines semblent inexactes » sur ce qu’il avait trouvé, tout en ne voulant pas donner d’information supplémentaire sur ce qui pourrait être inexact.

Le laboratoire de recherche canadien explique enfin avoir partagé ce qu’il a trouvé avec l’éditeur de WhatsApp et rapporte que « Meta nous a dit que ces détails étaient essentiels pour leur enquête en cours sur Paragon ».

« Cette dernière étude vient s’ajouter aux précédentes conclusions d’Amnesty International et d’autres partenaires de la société civile qui dénoncent l’utilisation abusive et généralisée des logiciels espions en Europe. Malgré des scandales répétés et persistants en Serbie, en Espagne, en Grèce, en Pologne, en Hongrie et maintenant en Italie, les autorités au niveau national et européen n’ont pas pris de mesures efficaces. Le laxisme de l’Europe en matière de règlementation de l’industrie de la surveillance favorise la crise mondiale des logiciels espions », avance de son côté Amnesty International.

☕️ Un chercheur du CNRS refoulé à la frontière étasunienne pour des messages critiquant Trump

20 mars 2025 à 08:30

Un chercheur du CNRS qui travaille dans le domaine spatial a été refoulé à l’aéroport le 9 mars dernier pour ses opinions personnelles sur la politique américaine en matière de recherche, exprimées dans une conversation privée, explique l’AFP.

L’ordinateur et le téléphone personnel du chercheur auraient été fouillés par les autorités lors d’un contrôle aléatoire à son arrivée : « Cette mesure aurait été prise par les autorités américaines parce que le téléphone de ce chercheur contenait des échanges avec des collègues et des relations amicales dans lesquels il exprimait une opinion personnelle sur la politique menée par l’administration Trump en matière de recherche », affirme le ministre français de l’Enseignement supérieur et de la recherche, Philippe Baptiste, dans une déclaration transmise à l’AFP.

Les autorités américaines auraient qualifié ces messages de « haineux et de conspiration ». Une enquête du FBI aurait été annoncée, mais « les charges ont été abandonnées », selon une source de l’agence de presse.

« La liberté d’opinion, la recherche libre et les libertés académiques sont des valeurs que nous continuerons à revendiquer fièrement. Je défendrai la possibilité pour tous les chercheurs français d’y être fidèles, dans le respect de la loi », a affirmé Philippe Baptiste.

De son côté, tout en rappelant que les États-Unis sont « souverains » en matière d’entrée et de séjour de ressortissants étrangers sur leur territoire, le ministère des Affaires étrangères « déplore cette situation ».

Rappelons que l’ANSSI a publié, entre autres avec le concours du ministère de l’Enseignement supérieur et de la recherche, un « Passeport de conseils aux voyageurs » pour « partir à l’étranger avec son téléphone, sa tablette ou son ordinateur portable » [PDF].

MassJacker, le malware qui détourne les transferts de crypto via le simple copier/coller

18 mars 2025 à 16:15
MassJacker, le malware qui détourne les transferts de crypto via le simple copier/coller

L’entreprise de sécurité informatique CyberArk signale un logiciel malveillant, MassJacker, qui ne fait « que » coller une adresse de cryptomonnaie possédée par des pirates à la place de la vôtre. L’occasion de rappeler qu’un logiciel piraté ou un service en ligne gratuit peut cacher des logiciels qui ne vous veulent pas que du bien.

Les logiciels malveillants inclus dans certains logiciels craqués se sont adaptés au monde des cryptomonnaies. Peut-être avez-vous perdu l’habitude d’aller sur les forums WareZ qui hébergent des versions piratées de logiciels et jeux vidéo payants, mais il existe encore des sites qui s’affichent comme « votre source de jeux PC craqués ! Plongez dans notre vaste bibliothèque de jeux populaires, tous disponibles en téléchargement gratuit. À découvrir dès maintenant ! ».

C’est le slogan du site pesktop[.]com. Mais celui-ci est le début de la chaine d’infection d’un virus détecté par CyberArk. L’entreprise de sécurité informatique affirme que Pesktop « tente d’inciter les gens à télécharger toutes sortes de logiciels malveillants » mais en évoque un particulier qu’elle vient de découvrir, nommé MassJacker.

Réaction en chaine

Celui-ci est téléchargé à la suite d’une réaction en chaine déclenchée par le logiciel de départ. Celui-ci exécute un script de commande qui déclenche un script PowerShell qui, lui-même, va télécharger trois autres exécutables :

Accompagnés du botnet Amadey, les deux autres exécutables semblent être deux versions différentes d’un code dédié respectivement aux architectures 32-bit et 64-bit. CyberArk explique avoir analysé la version 32-bit. Outre des techniques en chaine pour contrer les analyses de logiciels malveillants, cet exécutable contient donc MassJacker ainsi que des fichier de configuration avec notamment des expressions régulières correspondant à des adresses de cryptomonnaies et des fichiers recovery.dat et recoverysol.dat qui listent des portefeuilles de crypto.

Expressions régulières et remplacement par un portefeuille des pirates

« MassJacker crée un gestionnaire d’événements qui s’exécute à chaque fois que la victime copie quelque chose », explique CyberArk. Si le terme copié correspond à une adresse de cryptomonnaie détectée par l’une des expressions régulières, MassJacker remplace le contenu copié par un portefeuille dont l’adresse est dans l’un des fichiers .dat. Ainsi, la victime donnera, sans s’en rendre compte, l’ordre de virer des cryptomonnaies non sur son compte mais sur l’un de ceux des pirates.

En remontant la chaine, CyberArk a retrouvé plus de 778 531 adresses de portefeuilles utilisés par les pirates mais seuls 423 contenaient effectivement de l’argent alors qu’ils les surveillaient avec un total d’un équivalent de 336 700 dollars. L’un d’entre eux contenait, à lui seul, une somme équivalente à 95 300 dollars. L’entreprise reconnait que cette évaluation peut être trompeuse, entre autres, car la valeur des crypto-monnnaies est très volatile mais aussi parce qu’une partie vient sans doute d’autres échanges.

CyberArk se demande aussi pourquoi les logiciels malveillants qui s’attaquent au portefeuilles de cryptomonnaies, appelés « cryptojackers », sont si peu connus et propose deux hypothèses. La première est qu’ils sont effectivement peu nombreux. La seconde est qu’ils sont difficiles à identifier.

En tout cas, c’est une nouvelle occasion de rappeler qu’installer un logiciel distribué par un obscur site qui propose des services gratuits n’est pas forcément une super idée.

Outils de conversion potentiellement infectés

Le FBI de Denver a publié récemment un avertissement sur un autre genre d’outils en ligne qui paraissent pourtant rendre un sacré service : les outils de conversion de fichier en ligne qui permettent de convertir un fichier doc vers un pdf ou ceux qui permettent de télécharger des fichiers mp3 ou mp4 à partir de services de diffusion en ligne.

« Les agents constatent de plus en plus souvent une escroquerie impliquant des outils de conversion de documents en ligne gratuits, et nous souhaitons encourager les victimes à signaler les cas de cette escroquerie », expliquent les services de l’agence américaine.

Le FBI explique que « ces convertisseurs et outils de téléchargement effectuent la tâche annoncée, mais le fichier résultant peut contenir des logiciels malveillants cachés permettant aux criminels d’accéder à l’ordinateur de la victime ».

« Les outils peuvent également rechercher dans les fichiers soumis :

  • des informations d’identification personnelle, telles que les numéros de sécurité sociale, les dates de naissance, les numéros de téléphone, etc.)
  • Informations bancaires
  • Informations sur les crypto-monnaies (phrases de départ, adresses de portefeuilles, etc.)
  • les adresses électroniques
  • mots de passe ».

☕️ Avec Alexa+, Amazon forcera ses Echo à envoyer les données sur son cloud

18 mars 2025 à 15:53

Fin février, Amazon a présenté Alexa+, son IA générative qui doit remplacer Alexa dans ses produits. Comme nous l’expliquions, les utilisateurs pourront lui partager « des documents, emails, des photos et messages […] pour qu’Alexa s’en souvienne, les résume ou les utilise » via un site dédié, et les applications Android et iOS. Amazon promettait une Alexa+ « conçue dans un souci de confidentialité et de sécurité ».

Alors qu’Amazon va commencer à déployer Alexa+ sur ses appareils Echo aux États-Unis (rappelons que le déploiement n’est pas encore prévu pour l’Europe et la France), l’entreprise a envoyé des emails à certains de ses utilisateurs pour les informer qu’ils ne pourront plus demander à Alexa de traiter localement leurs demandes, explique ArsTechnica.

« Comme nous continuons à développer les capacités d’Alexa avec des fonctions d’IA générative qui s’appuient sur la puissance de traitement du cloud sécurisé d’Amazon, nous avons décidé de ne plus prendre en charge cette fonction », explique Amazon à ses utilisateurs qui avaient préalablement coché l’option « Ne pas envoyer d’enregistrements vocaux » dans la configuration de leur Echo.

Rappelons qu’en 2023, Amazon s’est engagée à payer une amende de 25 millions de dollars concernant Alexa et le non-respect de la vie privée de plus de 800 000 enfants de moins de 13 ans. Selon la FTC, l’entreprise n’avait pas supprimé certains enregistrements les concernant, alors que leurs parents l’avaient demandé, et les avait conservés plus longtemps que nécessaire.

Shift Project : la trajectoire du numérique est « insoutenable », d’autant plus avec l’IA

18 mars 2025 à 09:12
Shift storm dans 3…2…
Shift Project : la trajectoire du numérique est « insoutenable », d’autant plus avec l’IA

Dans un rapport intermédiaire sous-titré « quelles infrastructures dans un monde décarboné ? », le Think Tank de Jean-Marc Jancovici, The Shift Project, se demande quelle place l’IA doit occuper alors que nous allons devoir « s’affranchir de notre dépendance aux énergies fossiles ».

Dans une démarche plus modeste et à l’écoute d’éventuelles critiques, The Shift Project, a publié un rapport « intermédiaire » sur « Intelligence artificielle, données, calculs : quelles infrastructures dans un monde décarboné ? » [PDF]. Le lobby explique que, « bien qu’il soit déjà le fruit d’un travail collectif, ce rapport intermédiaire est encore un document de travail imparfait, incomplet et évolutif » et propose de le contacter pour envoyer toute remarque, critique et proposition.

Ce travail, qui fait quand même une centaine de pages, permet néanmoins de réfléchir sur l’empreinte énergie-climat de l’intelligence artificielle et le développement des capacités informatiques.

Si dans son introduction, le Shift Project présente le numérique comme « à la fois outil et défi pour la décarbonation de l’économie », la direction actuelle est « une trajectoire insoutenable qu’il s’agit d’infléchir ».

La part du numérique croît toujours

En s’appuyant sur ses propres chiffres de 2021, le lobby explique que le numérique « représente déjà près de 4 % des émissions mondiales soit du même ordre que l’intégralité des véhicules utilitaires lourds dans le monde ». Mais surtout, il pointe que « la particularité du secteur numérique tient à la rapidité d’augmentation de ses émissions, qui croissent selon une tendance particulièrement incompatible avec sa décarbonation :+ 6 %/an en moyenne au niveau mondial (The Shift Project, 2021) et + 2 à 4 %/an en France ». Il ajoute que le constat fait en 2021 continue de se vérifier alors que certaines études de l’époque envisageaient un plafonnement de ces impacts grâce au progrès technologique.

Le Shift Project rappelle que les terminaux pèsent énormément dans l’empreinte carbone du numérique mondial. Mais il ajoute que « le numérique fonctionne en système et ses trois tiers (terminaux, infrastructures réseaux, centres de données) évoluent de concert, rendus interdépendants par les échanges de données. Les choix de déploiements faits au niveau des usages et infrastructures de la donnée impactent l’ensemble du système numérique tout en étant le résultat de la trajectoire générale donnée au système ».

« Rendre le numérique compatible avec la double contrainte carbone consiste donc non pas seulement à renforcer des leviers d’optimisation déjà déployés, mais à le placer sur une trajectoire fondamentalement différente de celle qu’il suit actuellement », explique le rapport.

Et pourtant, l’arrivée de l’IA générative ne va pas dans ce sens : « l’adoption massive d’un service par construction intense en calcul amplifie significativement la pression s’exerçant sur les ressources électriques et l’environnement ».

Sans données partagées, l’analyse des datacenters est difficile

Tout en n’oubliant pas les autres aspects du numérique, donc, « les centres de données sont aujourd’hui un élément central de cette nouvelle dynamique numérique », affirme le Shift Project. Mais le problème, comme nous l’avons déjà évoqué, c’est qu’il est très difficile de le mesurer.

« À l’échelle mondiale, le saut de 200 TWh à 460 TWh entre les deux publications IEA (IEA, 2021b, 2024a) ou entre celles de Masanet et LBNL (LBNL et al., 2024 [PDF]; Masanet E. et al., 2020 [PDF]) est révélateur de cette difficulté à mesurer et prévoir les consommations énergétiques à l’échelle de 3 à 5 ans », explique le rapport.

Et d’ajouter que « l’absence de suivi de l’évolution des centres de données ces dernières années et la confiance excessive placée dans le potentiel des gains d’efficacité semblent avoir freiné toute préparation concernant la production d’électricité pour ces acteurs, la gestion des réseaux de transport d’électricité ainsi que toute vision d’encadrement des émissions de gaz à effets de serre (secteur non inclus dans le marché de permis d’émissions EU-ETS, par exemple) ». Pour Le Shift Project, « ce manque de préparation se fait sentir, dans un secteur numérique aux dynamiques particulièrement intenses ».

Le rapport met son lecteur face aux historiques des estimations en consommation électrique des centres de données élaborés par le Lawrence Berkeley National Laboratory dans son rapport de 2024 [PDF] mais déplore qu’il n’existe de suivi historique réel : « il serait précieux pour l’action publique et internationale de retracer l’historique réel du déploiement des centres de données ainsi que d’évaluer les décisions prises en conséquence ».

Le Shift Projet a, lui, dans son rapport rassemblé diverses projections de la consommation électrique (TWh) des centres de données et des capacités informatiques (GW) réalisées par divers acteurs (de l’énergie, des cabinets de conseils, des labos R&D et académiques et des financeurs) :

Le rapport soulève par contre des précautions de lecture, expliquant que « la description des hypothèses dans les rapports consultés bien trop minime au vu de l’importance du sujet » mais aussi que les périmètres peuvent être bien différents selon les études. Le Shift Project explique d’ailleurs qu’il espère pouvoir « récolter, critiquer et consolider les valeurs des paramètres clés de la modélisation, afin de construire une vision d’ensemble transparent ».

Il propose déjà plusieurs conclusions. Notamment, que « le statu quo qui prévalait jusqu’en 2021 d’une consommation électrique mondiale annuelle des centres de données quasi-constante autour de 200 TWh est définitivement obsolète ». Mais aussi, il pointe le fait que la consommation et la puissance de ces projections ne reflètent « ni le type d’électricité employée ni l’empreinte carbone embarquée » alors que certains centres de données s’appuient sur le gaz ou le charbon.

L’IA générative exacerbe la tendance

Dans son rapport, le Shift Project affirme que « le déploiement actuel de l’IA générative exacerbe cette tendance d’ici 2030 en induisant une séquence d’investissements massifs sur tous les continents dont la nécessaire rentabilisation pourrait entraîner un triplement de la consommation en huit ans (en se basant sur la vision haute de l’IEA dans IEA WEO, aboutissant à une consommation de 1391 TWh) ».

Concernant l’empreinte carbone des centres de données, le Shift Project prévoit qu’« entre 2022 et 2030, les émissions de gaz à effets de serre évolueraient vers 514 à 864 MtCO2e, soit une augmentation de 80 % à 200 % ». L’hypothèse la plus pessimiste se base sur « un ajout de centre de données dont toute la nouvelle demande ne serait satisfaite que par du gaz » et un facteur d’intensité carbone de l’électricité qui stagne à 460 gCO2e/kWh.

Le Shift Project évoque aussi les effets induits par l’IA sur les terminaux. Il formule plusieurs hypothèses. « La prise en compte des nouveaux besoins en ressources numériques (mémoire et stockage, capacités de traitement) pour pouvoir rendre des services d’IA locaux (au niveau des terminaux) et déconnectés pourrait aboutir à l’augmentation de l’empreinte environnementale des terminaux, tant à la production qu’à l’usage », imagine-t-il.

Effet rebond

Et il projette que « les gains d’efficacité énergétique (qui ne concernent donc que la phase d’usage) au niveau des terminaux pourraient être contrebalancés par le renouvellement du parc dû à l’obsolescence (provoquée par divers facteurs : incompatibilité avec les nouvelles couches logicielles, déclenchement de l’acte d’achat d’un nouveau terminal simplement par attractivité des services offerts avec etc.) et les impacts engendrés par la production de ces nouveaux équipements ».

Le rapport évoque aussi les effets de l’IA sur les réseaux, mais l’analyse du Shift Project l’amène surtout à poser des questions comme « Aujourd’hui, le trafic lié à l’IA paraît mineur et n’est pas mesuré. Comment pourrait-on publiquement observer cette évolution ? » ou encore « L’intelligence artificielle peut-elle autant multiplier la création de contenus personnalisés et être à l’origine d’une hausse de trafic possible ? ».

On le voit, les évaluations des impacts de l’IA générative sur la consommation énergétique du numérique et son empreinte écologique restent encore à explorer.

OpenAI et Google demandent à Trump d’adoucir les lois qui encadrent l’entrainement des IA

14 mars 2025 à 15:57
OpenAI et Google demandent à Trump d’adoucir les lois qui encadrent l’entrainement des IA

S’appuyant sur la concurrence de la Chine, OpenAI a affirmé, en s’adressant à la Maison-Blanche, que « la course à l’IA est effectivement terminée » si les entreprises américaines d’IA générative ne peuvent pas utiliser les contenus copyrightés dans le cadre du « fair use » (usage raisonnable). Google plaide pour la reconnaissance d’exemptions pour l’entrainement des IA sur les données privées publiquement disponibles

Plusieurs entreprises de la tech américaine ont récemment publié des propositions d’orientation politique concernant leur domaine, répondant à la consultation entreprise par le gouvernement de Donald Trump sur un futur plan d’action pour l’IA, « AI Action Plan ».

Dans leurs recommandations, OpenAI et Google demandent au nouveau pouvoir en place aux États-Unis de leur assurer un futur juridique plus serein concernant l’utilisation des œuvres sous copyright pour entrainer leurs IA. Rappelons que les entreprises d’IA générative (dont Google et OpenAI) font face à divers procès pour violation du copyright aux États-Unis, justement dans le cadre de l’entrainement de leurs modèles.

Sans le fair use, « la course à l’IA est effectivement terminée » pour OpenAI

Dans le document envoyé par OpenAI [PDF], l’entreprise s’appuie sur la concurrence de DeepSeek pour implorer le gouvernement américain de faire pencher clairement la balance en faveur de l’application de la doctrine du « fair use » en faveur des entreprises de l’IA : « Les progrès rapides observés avec le DeepSeek de la RPC [République populaire de Chine], entre autres développements récents, montrent que l’avance de l’Amérique dans le domaine de l’IA d’avant-garde est loin d’être garantie ».

Et l’entreprise ajoute : « si les développeurs de la RPC [République populaire de Chine] ont un accès illimité aux données et que les entreprises américaines n’ont pas accès au fair use, la course à l’IA est effectivement terminée ».

Ce plaidoyer tranche avec celui que l’entreprise met en place dans son procès contre le New York Times. En effet, l’année dernière, pour sa défense, l’entreprise se montrait beaucoup plus confiante sur l’usage actuel du fair use dans le droit américain : « l’entraînement de modèles d’intelligence artificielle à l’aide de contenu Internet accessible au public constitue un usage raisonnable [« fair use » en anglais], comme le montrent des précédents anciens et largement acceptés ». Il semble que cette position ait besoin de renfort venant du nouveau pouvoir en place.

Google veut des exemptions sur les données privées publiquement disponibles

Du côté de Google, le discours appuie moins sur la peur de la concurrence chinoise. L’entreprise affirme, elle, dans son document [PDF] que les lois « équilibrées » en place sur le copyright permettent déjà de développer des modèles ou de faire de l’expérimentation scientifique. Mais l’entreprise propose de mettre en place des « lois équilibrées sur la protection de la vie privée qui reconnaissent des exemptions pour les informations accessibles publiquement [qui] éviteront les conflits involontaires avec l’IA ou les normes en matière de copyright, ou d’autres obstacles au développement des systèmes d’IA ».

L’entreprise plaide pour un « cadre réglementaire fédéral en matière de protection de la vie privée » qui « devrait définir des catégories de données accessibles publiquement et de données anonymes qui sont traitées différemment des données d’identification personnelle ».

Wikimedia rejette les mises en demeure du Point qui contiennent « de graves erreurs »

14 mars 2025 à 13:45
Point final ?
Wikimedia rejette les mises en demeure du Point qui contiennent « de graves erreurs »

L’hebdomadaire le Point a envoyé deux mises en demeure à la Fondation Wikimedia demandant entre autres de supprimer deux sections de l’article de l’encyclopédie qui lui est consacré. Il accuse aussi de diffamation la lettre ouverte publiée par des bénévoles dénonçant les pressions subies par l’un de leurs membres. La fondation ne donnera pas suite, explique un de ses conseillers juridiques.

Ces dernières semaines, le magazine le Point a lancé une offensive médiatique et juridique contre l’édition en français de Wikipédia, notamment en envoyant des mises en demeure à la Fondation Wikimedia.

Phil Bradley-Schmieg, avocat et conseiller juridique détaché auprès de la Fondation Wikimedia, a posté un message sur la page du « Bistro » de Wikipédia confirmant que la Fondation a été « contactée par des avocats agissant pour Le Point ».

Il précise que la Fondation ne s’exprime pas d’habitude sur ce genre de mise en demeure, « cependant, celle-ci est inhabituelle, notamment en raison de la couverture médiatique (très sélective) dont elle a fait l’objet » et annonce que la Fondation Wikimedia ne fera pas suite à la demande du Point.

Comme nous l’évoquions, une première mise en demeure évoque « la mise en ligne manifestement malveillante d’informations partielles, partiales et erronées » à propos du Point sur l’article de l’encyclopédie qui lui est consacré.

Supprimer deux sections sur son traitement de l’Islam et ses condamnations et manquements à la déontologie professionnelle ?

Phil Bradley-Schmieg explique qu’une seconde mise en demeure, envoyée le 7 mars, étend la plainte du Point auprès de la Fondation à la lettre ouverte, publiée par des bénévoles de l’encyclopédie sur le site de Wikipédia, dans laquelle ils dénoncent les pressions subies par l’un de leurs membres, FredD :

« Nous, bénévoles contribuant à Wikipédia — en français ou en d’autres langues — apportons notre plein soutien à notre pair FredD, cible de courriels d’intimidation par un journaliste du magazine Le Point, menaçant de divulguer son identité et sa profession », écrivaient-ils.

Les avocats du Point qualifient dans la seconde mise en demeure cette lettre ouverte de « diffamatoire », selon Phil Bradley-Schmieg.

Il résume aussi dans ce message les demandes faites par le Point :

« – que la page fasse l’objet d’un bandeau de « désaccord de neutralité » et soit inscrite au sein de la « liste des articles non neutres ».

– que les deux sections « Traitement de l’Islam » et « Condamnations et manquements à la déontologie professionnelle », soient supprimés ou a minima fassent l’objet d’un bandeau « Section non neutre » afin d’informer les internautes qu’elles ne respectent pas la neutralité de point de vue.

– que les contributeurs ouvertement militants et qui travaillent à infléchir dans un sens systématiquement négatif et dénigrant la page consacrée au Point, ou violent les règles de neutralité et de sourçage, soient écartés.

– que la page soit mise sous protection. »

« De graves erreurs et malentendus »

Selon le conseiller juridique de la Fondation, « la mise en demeure est entachée d’un nombre surprenant de graves erreurs et malentendus ». Notamment, il pointe la confusion entre deux interventions de deux utilisateurs qui ont des noms d’utilisateur « superficiellement similaires ». Ainsi, les avocats du Point se seraient plaints d’un « biais systémique » contre Le Point en pointant, par exemple, les publications d’un utilisateur qui avait pourtant écrit :

« Le journal conteste toutefois ces accusations et affirme qu’une « poignée de radicalisés 2.0 » cherche à lui donner une mauvaise image via sa page Wikipédia ».

Cette phrase venait pourtant ponctuer le paragraphe précédent : « en 2023, une étude académique publiée dans la revue Réseaux. Communication – Technologie – Société centrée sur l’utilisation médiatique du mot « islamo-gauchisme » en France entre 2015 et 2021 place  »Le Point », en compagnie de  »Valeurs actuelles », au premier rang des hebdomadaires qui le mentionnent . Au vu des données statistiques, « nous observons, disent les auteurs, une politique de ‘matraquage’ de la part de quatre médias (« Le Figaro », « Le Point », « Valeurs actuelles » et « Marianne ») visant à imposer le terme dans le débat public ».

Enfin, les avocats du Point reprocheraient à la Fondation Wikimedia l’absence de moyen pour la contacter et l’absence d’un « représentant » dans l’Union européenne. Pourtant, la Fondation a bien, sur son site internet, une page qui donne ces deux informations. D’ailleurs, Phil Bradley-Schmieg remarque qu’ils ont bien réussi à contacter formellement la Fondation puisque « leur lettre fait exactement cela ».

☕️ Bluesky a installé son siège social européen en Belgique

14 mars 2025 à 09:00

Le réseau social dirigé par Jay Graber a enfin officiellement installé un siège social au sein de l’Union européenne. Celui-ci est situé à Bruxelles, indique sa page de conditions d’utilisation mise à jour le 7 février dernier, comme l’a remarqué Euronews. L’entreprise a aussi ajouté plusieurs moyens (email et téléphone) de la contacter pour les sujets concernant le Digital Services Act (DSA).

La Commission européenne avait émis des critiques à l’égard de Bluesky en novembre dernier, expliquant qu’il ne respectait pas toutes les règles du DSA. Notamment, elle faisait remarquer que « toutes les plateformes de l’UE, même les plus petites qui sont en dessous du seuil, ce qui est le cas de Bluesky, doivent avoir une page dédiée sur leur site Web indiquant le nombre d’utilisateurs qu’elles ont dans l’UE et où elles sont établies d’un point de vue légal ».

Logo de Bluesky

Bluesky est donc maintenant en règle sur la deuxième partie de la critique. Le choix de Bruxelles est singulier par rapport à une bonne partie de ses concurrents comme X, Meta, TikTok ou Google, qui ont choisi d’implanter leur siège social européen en Irlande, pays qui a des politiques fiscales attrayantes pour ce genre d’entreprises et dont les instances de régulation ont tendance à être plus souples.

Reste encore au réseau social à indiquer le nombre de ses utilisateurs dans l’Union européenne.

Les outils de recherche en ligne basés sur l’IA générative sont nuls pour citer l’actu

13 mars 2025 à 16:30
Les outils de recherche en ligne basés sur l’IA générative sont nuls pour citer l’actu

En étudiant huit moteurs de recherche s’appuyant sur l’IA générative, deux chercheuses ont observé qu’en moyenne, ceux-ci ont fourni des réponses incorrectes à plus de 60 % des demandes.

De plus en plus d’internautes utilisent des outils d’IA générative pour chercher de l’information en ligne. Mais sont-ils fiables ? Pas tant que ça apparemment, d’après les chercheuses du Tow Center for Digital Journalism de Columbia, Klaudia Jaźwińska et Aisvarya Chandrasekar. Elles ont évalué huit d’entre eux : ChatGPT Search, Perplexity, Perplexity Pro, DeepSeek Search, Copilot, Grok-2 Search, Grok-3 Search et enfin Gemini.

On savait déjà que les chatbots comme ChatGPT hallucinaient régulièrement des citations, mais on aurait pu espérer que les outils de recherche basés sur l’IA auraient de meilleurs garde-fous dans ce domaine notamment, grâce par exemple au RAG (Retrieval-Augmented Generation).

Mais comment faire pour vérifier ?

Elles ont mis en place un protocole assez simple pour contrôler si chacun des outils testés attribuait bien au texte d’un article d’actualité les métadonnées comme l’URL, le titre, l’éditeur original et la date. Ainsi, la méthode vérifierait si, oui ou non, ils étaient au moins fiables dans leur capacité à faire correctement le lien entre une source et son extrait.

Les deux chercheuses ont donc sélectionné aléatoirement 10 articles de 20 sites d’information américains comme TechCrunch, Time, le Wall Street Journal, ProPublica, National Geographic ou encore le Boston Globe. Elles en ont tiré des extraits manuellement, puis ont vérifié qu’en collant ces extraits dans le moteur de recherche traditionnel de Google, la source originale apparaissait bien dans les trois premiers résultats.

Elles ont ensuite fourni à l’outil testé chaque extrait et lui ont demandé d’identifier le titre de l’article correspondant, l’éditeur original, la date de publication et l’URL.

Enfin, elles ont évalué la réponse en six catégories : correcte, correcte mais incomplète, partiellement incorrecte, complètement incorrecte, sans réponse et crawler bloqué (quand le site interdit le crawler du chatbot dans son fichier robots.txt).

Plus de 60 % de réponses incorrectes

Elles ont publié leurs résultats dans un article du magazine Columbia Journalism Review. En moyenne, les outils de recherche ont donc donné plus de 60 % de réponses incorrectes. « Le niveau d’inexactitude varie d’une plateforme à l’autre : Perplexity a répondu de manière incorrecte à 37 % des requêtes, tandis que Grok 3 a enregistré un taux d’erreur beaucoup plus élevé, répondant de manière incorrecte à 94 % des requêtes », expliquent les chercheuses.

Elles font remarquer que Copilot est le seul à avoir décliné plus de questions qu’il n’a apporté de réponses. Pendant ce temps-là, tous les autres ont fourni plus de réponses incorrectes que de non-réponses.

Elles soulignent un élément particulièrement frappant. Lorsque qu’on compare les outils Grok et Perplexity, testés dans leurs versions gratuites et payantes, les tests montrent « que si les deux [modèles payants] ont répondu correctement à un plus grand nombre de questions que leurs équivalents gratuits correspondants, ils ont paradoxalement aussi montré des taux d’erreur plus élevés ». Grok-3 Search et Perplexity Pro ont tendance à livrer une réponse coûte que coûte.

Certains récupèrent des informations de sites qui les bloquent

Comme les moteurs de recherche ordinaires, ces outils utilisent des robots d’indexation qui parcourent le web. Trois d’entre eux (DeepSeek, Grok 2, et Grok 3) n’ont pas révélé publiquement le nom de leurs robots. Les éditeurs ne peuvent donc pas bloquer l’indexation de leurs sites par ces outils.

Mais les cinq autres (ChatGPT Search, Perplexity, Perplexity Pro, Copilot et Gemini) les ont rendus publics. Les éditeurs peuvent théoriquement interdire qu’ils parcourent leurs sites en l’indiquant dans le fichier robots.txt.

En analysant les résultats ci-dessous, on remarque que Copilot est le seul à n’être bloqué par aucun des éditeurs. Cela s’explique facilement par le fait que l’outil de Microsoft utilise BingBot, le robot d’indexation du moteur de recherche de l’entreprise. S’ils le bloquent, les éditeurs se coupent donc aussi de l’indexation dans Bing. Paradoxalement, Copilot a le plus haut taux de non-réponse.

Mais les autres ont parfois correctement attribué toutes les métadonnées d’un article alors qu’ils n’étaient pas censés l’indexer.

« Perplexity Pro a été le plus mauvais élève à cet égard, identifiant correctement près d’un tiers des quatre-vingt-dix extraits d’articles auxquels il n’aurait pas dû avoir accès », expliquent les chercheuses. Elles ajoutent : « étonnamment, la version gratuite de Perplexity a correctement identifié les dix extraits d’articles payants du National Geographic que nous avons partagés, bien que l’éditeur ait interdit les robots d’indexation de Perplexity et n’ait aucune relation formelle avec la société d’IA ».

Du côté de Google, qui a créé un robot spécifique pour Gemini, « son crawler a été autorisé par dix des vingt éditeurs que nous avons testés, mais Gemini n’a fourni une réponse totalement correcte qu’à une seule occasion ». Les chercheuses expliquent notamment que, lorsqu’il s’agissait d’extraits d’articles liés à la politique, l’outil donnait des réponses comme : « Je ne peux pas vous aider à répondre aux questions sur les élections et les personnalités politiques pour le moment. Je suis entrainé pour être aussi précise que possible, mais il m’arrive de faire des erreurs. Pendant que je travaille à améliorer la façon dont je peux parler des élections et de la politique, vous pouvez essayer la recherche sur Google ».

Plus en détail, en regardant s’ils ont correctement identifié l’article dont provient la source, les chercheuses ont remarqué que DeepSeek Search se trompait pour 115 des 200 articles présentés.

Même lorsque l’article était bien identifié, l’URL proposée n’était souvent pas la bonne. À certaines occasions, les outils les « ont dirigé vers des versions syndiquées d’articles sur des plateformes telles que Yahoo News ou AOL plutôt que vers les sources originalessouvent même lorsque l’éditeur était connu pour avoir conclu un accord de licence avec la société d’IA ».

Et avoir conclu un accord avec l’entreprise qui édite l’outil de recherche n’augmente pas la qualité des réponses :

☕️ Le budget scientifique de la NASA pourrait être réduit de 50 %

13 mars 2025 à 08:06

La Maison-Blanche pourrait proposer une réduction de 50 % du budget des activités scientifiques de la NASA, selon la Planetary Society, une association très connue dans le milieu de l’astrophysique et regroupant plus de 60 000 membres.

« Un tel effondrement du financement pourrait faire perdre à l’Amérique son leadership dans le domaine de l’exploration scientifique de l’espace. Elle pourrait également briser la filière d’enseignement des sciences, de la technologie, de l’ingénierie et des mathématiques (STEM) et décimer la main-d’œuvre scientifique et d’ingénierie la plus compétente et la plus accomplie au monde », affirme l’association.

Interrogée par ArsTechnica sur le sujet, la responsable des missions scientifiques de la NASA, Nicola Fox, a répondu : « nous n’avons pas encore reçu d’informations sur le budget, et je déteste planifier quelque chose sur la base de rumeurs et de spéculations ». Et d’ajouter, « nous continuerons à faire de la bonne science. Nous continuerons à avoir un portefeuille scientifique équilibré, c’est certain. Nous serons reconnaissants de ce que nous recevrons, et nous ferons de grandes choses avec cela ».

Ces réductions sont prévues par le directeur du bureau de la gestion et du budget de Donald Trump, Russell Vought. Comme l’expliquent nos confrères, elles sont en adéquation avec le budget « fantôme » qu’il avait proposé en 2022 pour l’année 2023, lorsque le camp Républicain était dans l’opposition :

« Le budget propose également une réduction de 50 % des programmes et des dépenses scientifiques de la NASA, en réduisant les dépenses du système de réduction des émissions de carbone et les programmes sur le changement climatique mondial, qui sont malavisés », proposait-il [PDF].

« Si ces réductions devaient se concrétiser, il en résulterait rien de moins qu’une extinction des sciences et de l’exploration spatiales aux États-Unis », commente Planetary Society.

❌
❌