Numerama.com - Magazine
Un data center ne puisant pas plus d’eau qu’un restaurant : l’audacieuse promesse de Microsoft face à la soif de l’IA 3 juin 2026 à 15:07

Un data center ne puisant pas plus d’eau qu’un restaurant : l’audacieuse promesse de Microsoft face à la soif de l’IA

3 juin 2026 à 15:07

À la conférence Build 2026, Satya Nadella a frappé fort en affirmant que ses futurs data centers IA ne consommeraient pas plus d'eau à l'année qu'un simple restaurant de quartier. Une promesse de circuit fermé qui cherche à rassurer face à la « soif » de l'IA générative.

Numerama.com - Magazine
« Ne pas dépendre des autres » : l’Europe dévoile son nouveau plan d’urgence pour les puces IA 3 juin 2026 à 14:50

« Ne pas dépendre des autres » : l’Europe dévoile son nouveau plan d’urgence pour les puces IA

Numerama.com - Magazine

Par : Julien Lausson

3 juin 2026 à 14:50

puces chips act 2

Face à l'explosion de l'IA et aux coups de pression géopolitiques mondiaux, l'Europe accélère sa mue industrielle. La Commission a dévoilé le Chips Act 2.0 : une mise à jour stratégique taillée pour libérer la production de puces souveraines, connecter les usines et briser les dépendances technologiques.

Un data center consomme autant d’eau qu’un restaurant ? L’audacieuse promesse de Microsoft pour calmer la soif de l’IA

Numerama.com - Magazine

Par : Julien Lausson

3 juin 2026 à 10:38

À la conférence Build 2026, Satya Nadella a frappé fort en affirmant que ses futurs data centers IA ne consommeraient pas plus d'eau à l'année qu'un simple restaurant de quartier. Une promesse de circuit fermé qui cherche à rassurer face à la « soif » de l'IA générative.

Numerama.com - Magazine
Stop Killing Games : un projet de loi historique est adopté en Californie 2 juin 2026 à 15:46

Stop Killing Games : un projet de loi historique est adopté en Californie

Numerama.com - Magazine

Par : Matthieu Fabris

2 juin 2026 à 15:46

Alors que le mouvement de défense des droits des joueuses et des joueurs et de la préservation des jeux vidéo Stop Killing Games bat son plein, un texte de loi visant à empêcher la disparition totale des jeux achetés progresse en Californie.

Vent de panique chez Dashlane ? Voici ce qu’il s’est réellement passé chez le gestionnaire de mots de passe français

Numerama.com - Magazine

Par : Amine Baba Aissa

2 juin 2026 à 14:27

Le 31 mai 2026, des milliers d'utilisateurs de Dashlane ont reçu des mails de vérification qu'ils n'avaient jamais demandés. Certains se sont retrouvés bloqués hors de leur compte. L'entreprise française a depuis confirmé avoir subi une attaque par force brute, et reconnu que les coffres-forts chiffrés d'une vingtaine d'utilisateurs ont été copiés.

Numerama.com - Magazine
Ils ont poliment demandé à Meta AI de pirater Instagram. Le chatbot a obéi 2 juin 2026 à 13:21

Ils ont poliment demandé à Meta AI de pirater Instagram. Le chatbot a obéi

Numerama.com - Magazine

Par : Amine Baba Aissa

2 juin 2026 à 13:21

D'après le site américain Media 404, des hackers seraient parvenus à détourner le chatbot d’assistance de Meta pour prendre le contrôle de comptes Instagram. Une faille simple, basée sur la fragilité des gardes-fous de l'IA.

Numerama.com - Magazine
800 000 euros d’amende : le coup terrible de Netflix et Disney contre Spliiit 1 juin 2026 à 08:40

800 000 euros d’amende : le coup terrible de Netflix et Disney contre Spliiit

Numerama.com - Magazine

Par : Julien Lausson

1 juin 2026 à 08:40

Saisi par Netflix, Disney et Apple, le Tribunal judiciaire de Paris a lourdement condamné la plateforme française de co-abonnement Spliiit à près de 800 000 euros d'amendes. Alors que l'industrie de la SVOD verrouille le partage de comptes, ce verdict sonne-t-il le glas du service ?

Numerama.com - Magazine
Riches, mais pas que : pourquoi les fans de F1 sont-ils des cibles parfaites pour les hackers ? 31 mai 2026 à 18:15

Riches, mais pas que : pourquoi les fans de F1 sont-ils des cibles parfaites pour les hackers ?

Numerama.com - Magazine

Par : Amine Baba Aissa

31 mai 2026 à 18:15

La popularité de la Formule 1 ne profite pas qu'aux écuries et aux diffuseurs. Dans l'ombre, une autre industrie tourne à plein régime : la cybercriminalité. Rencontre avec Bogdan Botezatu, directeur de la recherche sur les menaces chez Bitdefender, qui a cartographié les risques cyber auxquels s'exposent les fans du sport automobile.

Numerama.com - Magazine
Lutte contre le piratage : le but contre son camp paradoxal de Canal+ devant la justice 29 mai 2026 à 14:09

Lutte contre le piratage : le but contre son camp paradoxal de Canal+ devant la justice

Numerama.com - Magazine

Par : Julien Lausson

29 mai 2026 à 14:09

canal+ piratage

En voulant forcer Google et Cisco à bloquer des sites de streaming illégal, Canal+ a utilisé un argument technique redoutable devant la Cour d'appel de Paris. Problème : cette déclaration vient saborder ses propres négociations anti-piratage en cours.

LinuxFr.org : les dépêches
SelfRecover — protocole AGPL de récupération de compte sans email 29 mai 2026 à 13:23

SelfRecover — protocole AGPL de récupération de compte sans email

LinuxFr.org : les dépêches

Par : pierroons · Pierre Jarillon · Julien Jorge

29 mai 2026 à 13:23

Je suis agriculteur en Creuse et je code sur mon temps libre. J'ai commencé à m'intéresser à la question de la récupération de compte en développant ARC PVE Hub, un site destiné à fédérer une communauté de joueurs. Je n'ai jamais compris pourquoi il fallait transmettre son email pour régénérer un mot de passe — ça déplace la sécurité du compte vers un fournisseur SMTP tiers, qui n'est pas contrôlé par l'utilisateur.

J'ai donc imaginé un protocole de récupération sans email, sans SMS et sans tiers. Le travail s'est étoffé en partenariat avec un assistant IA (Claude), comme outil de réflexion et de mise en forme — j'y reviens en fin de dépêche dans une note de transparence.

L'incident de sécurité ANTS du 15 avril 2026 a publiquement illustré le problème. J'en ai eu connaissance après avoir développé SelfRecover, ce qui m'a confirmé la pertinence d'un protocole sans dépendance à l'email. SelfRecover est publié sous AGPL-3.0-or-later sur GitHub.

Cette dépêche présente le protocole, ses choix de conception, ses limites assumées, et la comparaison avec les approches existantes (Keycloak Recovery Codes en particulier, qui m'a été suggéré en relecture). Audit communautaire bienvenu.

lien nᵒ 1 : Démo live
lien nᵒ 2 : Code source
lien nᵒ 3 : Whitepaper FR

Sommaire

Le contexte

Depuis l'essor du web, la réponse standard à « l'utilisateur a oublié son mot de passe » est « on lui envoie un lien de réinitialisation par email ». C'est devenu si universel qu'on oublie ce que ça implique :

La sécurité du compte est déléguée au fournisseur de la boîte mail (Gmail, Outlook, ProtonMail). Si la boîte mail tombe, le compte aussi.
Le canal email est régulièrement exploité par phishing : campagnes imitant des mails de réinitialisation légitimes pour capturer les mots de passe.
Les bases de données qui stockent les emails des utilisateurs deviennent une cible massive : leur fuite expose à la fois l'identité et les vecteurs de récupération.

L'incident de sécurité ANTS illustre une autre facette du problème de gestion des données d'authentification dans les services en ligne. Détecté le 15 avril 2026 et rendu public le 20 avril, il a touché 11,7 millions de comptes selon les communiqués officiels. La cause technique identifiée est une faille d'énumération de type IDOR (Insecure Direct Object Reference) : il était possible d'accéder aux données d'un autre compte en modifiant un identifiant dans une URL. La fuite ne concerne ni les mots de passe, ni les pièces justificatives, mais les données personnelles associées aux demandes de titres.

Devant ces limites structurelles autour de l'authentification web, SelfRecover propose une inversion : conserver le secret de récupération chez l'utilisateur, et utiliser le navigateur pour faire les calculs cryptographiques nécessaires à la vérification. Le serveur ne détient plus que des dérivés, jamais les secrets bruts.

Le protocole en deux phrases

Côté navigateur, on calcule HMAC-SHA256(secret, domaine) : une fonction cryptographique standard qui combine le secret de l'utilisateur avec le nom de domaine du site, et produit une empreinte impossible à inverser. Côté serveur, on ne stocke que cette empreinte, en plus protégée par un hash adaptatif et memory-hard : Argon2id, qui est le standard moderne recommandé contre les attaques par brute force.

Deux propriétés découlent de cette construction :

Le secret brut ne quitte jamais le poste de l'utilisateur.
Un secret capturé sur un site A (par exemple via phishing) est mathématiquement inutilisable sur un site B : la dérivation HMAC produit des empreintes différentes pour des domaines différents. C'est de l'anti-phishing par construction, pas par convention.

Note conceptuelle : l'inspiration vient des machines à rotors historiques type Enigma. Le principe partagé est qu'une même configuration secrète, présente des deux côtés (émetteur et récepteur), permet de produire et vérifier un message dérivé. La cryptographie moderne (HMAC-SHA256 ici) repose sur des fondations mathématiques différentes, mais ce principe de dérivation contrôlée par un secret commun est resté.

Deux modes d'adoption

SelfRecover propose deux modes selon le contexte de déploiement.

Mode Full — Sans email

L'application abandonne entièrement le flow de réinitialisation par email. L'utilisateur génère une passphrase diceware à l'inscription (liste EFF de 7 776 mots, 4 à 7 mots par défaut), qu'il mémorise ou stocke dans son gestionnaire de mots de passe. Cette passphrase, combinée au nom de domaine du site via HMAC-SHA256, permet de réinitialiser le mot de passe sans aucune dépendance externe.

Pour qui : nouveaux projets qui veulent s'affranchir de SMTP dès la conception, ou services qui adoptent un modèle de menace post-fuite (l'email n'est plus considéré comme un canal de confiance).

Mode Lite — Avec email + mot mémorisé

L'application conserve le flow de réinitialisation par email habituel, mais y ajoute une étape supplémentaire : l'utilisateur saisit un mot mémorisé (choisi à l'inscription) qui est dérivé HMAC-SHA256 côté navigateur. Le mot brut n'est jamais transmis au serveur. La validation combine donc deux facteurs :

La possession de la boîte mail (lien reset reçu)
La connaissance du mot mémorisé (dérivé HMAC côté client)

Pour qui : applications existantes qui ne peuvent abandonner SMTP du jour au lendemain, mais veulent durcir progressivement leur flow de récupération. Conséquence : un email intercepté seul ne suffit plus à compromettre un compte — il faut aussi connaître le mot mémorisé.

Synthèse

Mode	Canal email	Crypto utilisateur	Cible
Full	Aucun	Passphrase diceware EFF + HMAC	Nouveaux projets
Lite	Conservé	Mot mémorisé + HMAC	Applications existantes

SelfRecover vs Keycloak Recovery Codes

Lors de la relecture de cette dépêche, devnewton a soulevé une question importante : quelle est la différence avec les Recovery Codes de Keycloak ?

Keycloak est l'IAM (Identity and Access Management) open-source de référence, maintenu par Red Hat sous licence Apache 2.0, déployé dans de nombreuses organisations depuis plus d'une décennie. Son mécanisme de Recovery Codes est un fallback d'authentification à deux facteurs : si l'utilisateur perd son téléphone TOTP, il peut saisir un code de secours préalablement généré côté serveur.

Note importante de positionnement : les Recovery Codes Keycloak adressent le cas « j'ai perdu mon 2FA mais je connais toujours mon mot de passe principal ». Le password reset principal de Keycloak utilise, lui, le canal email standard (configuration SMTP dans l'onglet Email de l'admin console).

SelfRecover s'attaque à un cas différent : « j'ai oublié mon mot de passe principal et je ne veux pas dépendre de l'email pour le récupérer ». Concrètement :

Aspect	Keycloak Recovery Codes	SelfRecover
Cible	Fallback 2FA	Password recovery sans email
Architecture	Serveur IAM standalone (Java + BDD + admin)	Bibliothèque à intégrer dans le code de l'application
Source du secret	Serveur génère, utilisateur sauvegarde	Utilisateur génère/mémorise (diceware ou mot mémorisé)
Stockage utilisateur	Codes à sauvegarder physiquement	Passphrase mémorisable (mode Full) ou mot mémorisé (mode Lite)
Email reset principal	Reste nécessaire (SMTP configuré dans l'admin)	Aucun (mode Full) ou en complément (mode Lite)
Anti-phishing crypto	Pas spécifique au mécanisme	Dérivation HMAC par domaine : un secret capturé sur un site est mathématiquement inutilisable ailleurs
Licence	Apache 2.0	AGPL-3.0-or-later
Maturité	10+ ans, audité, déployé largement	Récent, audit communautaire bienvenu

Pour la majorité des projets qui acceptent l'email comme canal de récupération, Keycloak (et son écosystème) reste le bon choix. SelfRecover s'adresse aux applications qui veulent réduire ou supprimer leur dépendance à SMTP, et qui n'ont pas besoin de la richesse d'un IAM complet (multi-realm, OIDC/SAML, fédération d'identité, etc.).

Que se passe-t-il si l'utilisateur perd son secret ?

C'est la question critique d'un protocole de récupération. SelfRecover y répond par escalade progressive sur trois niveaux, complétée par un système de litiges et un chat administrateur pour les cas extrêmes.

Niveau 1 — Passphrase oubliée

L'utilisateur saisit son username + sa passphrase diceware (match exact). Sur succès, un nouveau mot de passe est généré et affiché une seule fois. Anti-brute force : 3 tentatives par 15 minutes, 3 blocages successifs → éjection vers L2.

Niveau 2 — Passphrase perdue, mais identifiant + mot de récupération retenus

L'utilisateur saisit son identifiant public (numéro client, identifiant métier — fourni par le site) et son mot de récupération dérivé HMAC-SHA256 côté navigateur. 3 tentatives maximum avec compteur visible. Sur 3 échecs → redirection vers L3. Un litige est automatiquement créé (LIT-XXXX), tracé en base, admin notifié. Les litiges auto-résolus sont purgés après 24 heures.

Niveau 3 — Accès complètement perdu

Entrée par un lien discret « accès perdu » sur la page de connexion. L'utilisateur saisit son identifiant public en premier (anti-timing : délai forcé de 2 à 3 secondes), puis remplit un formulaire de scoring multi-facteur :

Catégorie	Champs	Points
Identifiant public	4	20
Mot de récupération (dérivé HMAC)	5	25
Username	3	30
Passphrase (fragments)	3	25

Bonus passifs : IP connue (+5), fingerprint connu (+5).

Score ≥ 60/100 → compte récupéré, nouveau mot de passe généré
Score < 60/100 après 3 tentatives → le compte passe en mode restreint : l'utilisateur n'a plus accès qu'au chat administrateur, le compte n'est ni utilisable ni écrasable tant que l'admin n'a pas validé
Cooldown : 1 heure entre tentatives

Chat administrateur humain en mode restreint — état actuel

Dans l'implémentation actuelle (déployée en production sur ARC PVE Hub), le chat L3 est un canal direct entre l'utilisateur en mode restreint et un administrateur humain du site. Pas d'intermédiaire automatisé, pas de bot.

Le canal de chat est bidirectionnel et fonctionne en polling (pas WebSocket temps réel, pour rester simple). L'admin vérifie l'identité par l'échange et décide manuellement :

Accorder la récupération : mot de passe régénéré, compteurs réinitialisés, litige clôturé, mode restreint levé.

Refuser la récupération : ban temporaire de 24 heures, pas de nouveau litige possible pendant cette fenêtre, compteur de refus incrémenté (1/3, 2/3, 3/3). À chaque clic, l'interface admin rappelle explicitement les conséquences via une modale de confirmation (ban 24h aux refus 1 et 2, suppression définitive au 3e refus).

Au 3e refus, le compte est définitivement supprimé : décision exclusivement humaine, prise en pleine connaissance de cause par l'admin via la modale d'avertissement explicite. La suppression libère l'identifiant public pour une nouvelle inscription.

Principe de design MySelf : aucune destruction de données utilisateur n'est déclenchée sans validation humaine consciente. L'interface admin explicite systématiquement les conséquences avant chaque action irréversible. Une IA peut se tromper ou être manipulée ; lui déléguer la décision de supprimer un compte créerait une surface d'attaque.

Ce mécanisme empêche un attaquant de spammer les litiges indéfiniment : chaque refus lui coûte 24 h, et trois échecs effacent toute trace. Un propriétaire légitime bloqué par erreur peut retenter après chaque fenêtre de ban, ou se réinscrire depuis zéro si totalement verrouillé.

Évolution prévue (en réflexion) : pré-traitement optionnel par chatbot LLM local

En complément du chat admin humain (qui resterait toujours disponible), une couche de pré-traitement par un agent conversationnel local (Ollama auto-hébergé) est en cours de design. Le chatbot poserait les questions initiales de vérification d'identité et estimerait si la demande est légitime. Sur estimation positive, le mot de passe serait régénéré directement ; sur doute, l'admin humain reprendrait la main.

Cette option serait configurable par site qui déploie (activable ou non), et le chatbot ne se substituerait jamais à l'admin pour les décisions destructives (suppression de compte) — ces décisions resteraient exclusivement humaines, conformément au principe MySelf énoncé plus haut.

L'enjeu principal en cours de réflexion : calibrer le seuil de confiance du chatbot pour ne pas créer un nouveau vecteur d'attaque par social engineering (un attaquant pourrait essayer de manipuler le LLM par prompts).

Démo standalone vs implémentation de référence

La démo publique (bi-self.my-self.fr/selfrecover/) ne couvre que les niveaux L1 et L2, car L3 nécessite une interface admin, un système de disputes et un dashboard — trop pour une démo à page unique.

L'implémentation de référence en production se trouve sur ARC PVE Hub, un site communautaire de joueurs ARC RAIDERS qui sert de terrain de test à l'écosystème MySelf. L1 + L2 + L3 + mode restreint + chat admin + dispute system y sont fonctionnels.

Pourquoi assumer cette friction

Dans la vie réelle, si l'on perd sa carte bancaire, son code, sa pièce d'identité, son adresse et sa date de naissance, on ne récupère pas son compte bancaire par email. On passe en agence avec preuve d'identité.

SelfRecover applique la même logique en ligne : la sécurité réelle nécessite parfois un passage par l'humain ou un processus d'identification rigoureux. Cette friction est assumée comme un trade-off conscient, pas comme une limitation à compenser.

Pour quel public

Adapté :
- Applications avec un administrateur actif et disponible pour traiter les litiges (forum communautaire, association, e-commerce indépendant, boutique en ligne militante)
- Sites où la sécurité prime sur la fluidité de récupération (services manipulant des données sensibles)
- Communautés à taille humaine (du forum de 50 membres au service de quelques milliers d'utilisateurs)

Non adapté :
- Plateformes à très grande échelle sans admin individuel (réseaux sociaux massifs, services publics avec millions d'utilisateurs) — le volume de litiges dépasse les capacités d'un humain réactif
- Services où une friction de récupération est inacceptable (gaming compétitif, services temps-réel)
- Projets sans maintenance active (l'admin doit pouvoir répondre aux litiges dans des délais raisonnables)

Pour ces cas, un IAM mature comme Keycloak avec ses mécanismes éprouvés reste plus adapté.

Modèle de menace assumé

Pour la transparence, voici les classes d'adversaires explicitement hors périmètre du protocole :

Compromission du poste utilisateur (logiciels malveillants, RAT, keyloggers) — un attaquant qui contrôle le poste peut capturer la passphrase à la saisie, indépendamment du protocole.
Compromission du navigateur (extensions malveillantes, exploits 0-day) — même cause, même effet : si le moteur JS qui calcule HMAC est compromis, la sortie l'est aussi.
Coercition physique — SelfRecover n'offre pas de plausible deniability (pas de second compte caché ou décoy).
Cryptanalyse théorique de SHA-256 / HMAC / Argon2id — un cassage mathématique de ces primitives mettrait à mal la quasi-totalité des systèmes cryptographiques modernes, pas seulement SelfRecover.

Ces limitations sont le périmètre normal d'un protocole côté navigateur. Pour les usages à plus haute exigence (cérémonies cryptographiques sensibles, génération initiale de clé maître), MySelf-Live est annoncé dans la roadmap V0.2 : une distribution Linux Live USB minimale, RAM-only, signée GPG, qui isolerait les opérations sensibles du système hôte. Pour les usages courants à fort enjeu, Tails ou Qubes OS offrent déjà ce niveau d'isolation et sont recommandés.

Démos en ligne

Mode Full (sans email) : https://bi-self.my-self.fr/selfrecover/
Mode Lite (email + mot mémorisé) : https://bi-self.my-self.fr/selfrecover/lite.html
Comparatif sécurité 8 adversaires × 3 modèles : https://bi-self.my-self.fr/selfrecover/comparison.html

Aucune inscription préalable n'est requise. Les données sont éphémères côté serveur.

Code et image Docker

Repo : https://github.com/Pierroons/my-self/tree/main/bi-self/selfrecover
Whitepaper FR : https://github.com/Pierroons/my-self/blob/main/bi-self/selfrecover/docs/whitepaper-fr.md
Threat model : https://github.com/Pierroons/my-self/blob/main/bi-self/selfrecover/docs/threat-model.md
Image Docker multi-arch (amd64 + arm64) :

docker run -p 8080:8080 ghcr.io/pierroons/selfrecover:v0.1.1

La démo de référence tourne sur PHP 8.0+ et SQLite (~600 lignes auditables, zéro dépendance externe). Tag GPG-signé v0.1.1, release datée du 5 mai 2026.

Licence et philosophie

AGPL-3.0-or-later. Toute version déployée publiquement doit publier ses modifications sous la même licence. Pas de capture SaaS possible.

SelfRecover est une brique du méta-projet MySelf, un écosystème de modules auto-hébergés qui couvre l'identité, la modération communautaire, le droit, et l'agriculture.

Un module complémentaire répond de manière directe à la problématique illustrée par l'incident ANTS : SelfDataGuard chiffre les données utilisateur côté client de telle sorte qu'une fuite de base de données ne livre que des blobs inexploitables. Le code est public, AGPL, en v0.1.0-beta — une dépêche dédiée pourra suivre quand le module aura plus de maturité (audit communautaire, retours d'intégration).

Note de transparence

Conception en partenariat avec un assistant IA

Ce protocole a été conçu et codé en partenariat avec un assistant IA (Claude), comme outil de réflexion, de revue critique, et d'écriture de code.

Pour être totalement transparent : je ne suis pas développeur de formation. Mon expérience technique vient du dev web amateur (ARC PVE Hub, un site destiné à fédérer une communauté de joueurs ; un outil de gestion de stock pour mon entreprise ; quelques sites perso). Pour SelfRecover, l'écriture des primitives cryptographiques et la mise en œuvre du protocole ont été largement assistées par l'IA, sur la base de mes choix architecturaux et de ma vision.

Ce qui vient de moi (humain) :
- La vision (souveraineté numérique, refus du SMTP comme canal de récupération)
- Les choix philosophiques (AGPL-3.0-or-later, fallback humain assumé, aucune destruction de données sans validation humaine consciente)
- Le contexte initial (besoin né en développant ARC PVE Hub)
- Chaque décision de trade-off d'architecture
- La responsabilité juridique et morale du code publié sous mon nom et signé GPG

Ce qui vient de l'IA :
- L'écriture des primitives cryptographiques (HMAC, dérivations, vérifications)
- L'agencement du code, la structure des fichiers
- La formalisation des paragraphes du whitepaper et de cette dépêche
- La génération de tests unitaires
- La vérification de cohérence interne

Plan d'audit

Auto-audit interne : en cours et continu (chaque modification est relue critiquement)
Audit communautaire : ouvert dès maintenant, je réponds aux remarques techniques avec sérieux (cette dépêche en est l'illustration directe)
Audit tiers certifié : envisagé à moyen terme via un cabinet agréé CESTI ANSSI (Synacktiv, Quarkslab, Wavestone, ou équivalent), sous réserve de financement

Statut du projet

SelfRecover en est à la version 0.1.1, taguée GPG et signée. C'est un état PoC fonctionnel + déployé en production sur un site réel (ARC PVE Hub), mais pas encore mature pour une adoption massive dans des contextes à fort enjeu. La roadmap V0.2 (MySelf-Live, finalisation du chatbot L3, audit tiers) précisera ce périmètre.

Engagement communauté LinuxFr et culture du libre

Mon compte LinuxFr est récent, mais mon ancrage dans la culture du libre ne l'est pas : utilisateur exclusif de distributions Linux depuis quinze ans (principalement Debian), j'ai aidé plusieurs proches à migrer des PC anciens vers Debian pour leur donner une seconde vie au lieu de la déchèterie. J'arrive sur LinuxFr depuis le monde agricole/permaculture et le jeu vidéo (ARC PVE Hub), pas du milieu dev historique.

Je suis salarié couvreur dans une PME et installé en agriculture à temps partiel — mon temps libre pour le développement et la participation communautaire est compté. Je m'engage à répondre aux retours techniques sur cette dépêche et à suivre les disputes sur l'état du projet. Pour le reste (commentaires réguliers, dépêches futures sur d'autres modules MySelf — en particulier SelfDataGuard quand il sera plus mature), ce sera au gré du temps disponible, sans promesse.

Toute critique technique constructive est bienvenue. Pour les critiques sur la légitimité du projet ou la nature humain/IA de la collaboration, j'invite à juger sur les choix concrets, le code public, et la qualité des réponses à vos questions.

Pour aller plus loin

SelfRecover est un module de l'écosystème MySelf, expérimentation citoyenne sur la souveraineté numérique sous licence AGPL-3.0-or-later.

Les retours techniques, audits communautaires, propositions d'intégration et questions de fond sont les bienvenus — en commentaire de cette dépêche ou en issue sur le repo GitHub.

Si une administration ou une organisation souhaite tester le protocole en environnement isolé, l'image Docker et le Dockerfile sont à disposition. Aucune démarche commerciale n'est associée à cette publication.

Merci aux modérateurs et contributeurs de LinuxFr — Pierre Jarillon, devnewton, Florent Zara, bobble bubble — dont les retours pendant la phase de rédaction ont substantiellement amélioré cette dépêche.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Next - Articles gratuits
La Maison-Blanche lance un site dédié aux aliens pour appeler à dénoncer les immigrants 29 mai 2026 à 12:04

La Maison-Blanche lance un site dédié aux aliens pour appeler à dénoncer les immigrants

Next - Articles gratuits

Par : Alexandre Laurent

29 mai 2026 à 12:04

Pendant une triste nuit, le long d'une route solitaire de campagne...

La Maison-Blanche lance un site dédié aux aliens pour appeler à dénoncer les immigrants

La Maison-Blanche exploite le nom de domaine « aliens.gov » pour renvoyer vers une page qui comptabilise le nombre d’arrestations réalisées par sa police de l’immigration. Sur fond de codes visuels inspirés de la pop culture SF, elle compare les immigrants arrêtés à des envahisseurs face auxquels un seul homme a eu le courage de se dresser.

La communication décomplexée – et xénophobe – de l’administration Trump a franchi un nouveau palier. Jeudi, la Maison-Blanche a commencé à exploiter le nom de domaine aliens.gov, qu’elle fait pointer sur une page de son site Web (whitehouse.gov/aliens/), dédié aux performances de sa police anti-immigration, l’ICE.

Particularité de ce site ? Il joue à fond la carte des codes issus de la science-fiction et des séries populaires type X-Files, en exploitant la double signification du terme aliens, qui en anglais peut aussi bien désigner les extra-terrestres que les étrangers (souvenez-vous de la chanson de Sting).

« Ils sont parmi nous »

« Ils sont parmi nous », attaque le site, qui charge ensuite au fur et à mesure un texte dont la graphie, le défilement et la narration rappelle délibérément l’introduction des films de la saga Star Wars, ou l’introduction de certaines séries SF comme les Envahisseurs :

« Des extraterrestres vivent parmi nous — dans nos quartiers, interagissant avec nous au quotidien. Ils fréquentent les mêmes magasins, partagent les mêmes salles de classe que nos enfants, et mènent des existences en apparence parfaitement humaines. À une exception près : ils n’ont rien à faire ici ».

La suite décrit comment tout le monde a protégé ce secret jusqu’à ce qu’un homme ait finalement « le courage de dire la vérité ». La chute rend hommage au héros de l’histoire :

« Le président Trump a été le premier à dénoncer le danger réel que représentent les aliens pour chaque famille américaine, chaque communauté et l’avenir de notre nation. La vérité n’est plus ailleurs. Elle est ici et maintenant. »

« Ils » sont parmi nous mais heureusement, Donald Trump les a vus – capture d’écran

Des chiffres en vrac et sans contexte

Le site embraie ensuite sur une carte « live » des arrestations d’étrangers réalisées aux États-Unis par la police anti-immigration, surmontée d’un décompte qui affichait, le 29 mai vers midi, quelque 3,130 millions de « rencontres » (le terme file lui aussi la métaphore extraterrestre, comme dans Rencontres du troisième type), et s’incrémente d’environ une arrestation par seconde.

La page dispense ensuite un tableau qui comptabilise le nombre d’arrestations réalisées dans les principales villes des États-Unis. Deux colonnes très denses listent pour chacune les « charges criminelles » retenues contre ces immigrants, et leur pays d’origine.

Le tableau ne donne aucun détail sur la répartition exacte des charges ou des pays concernés : son objectif n’est manifestement pas de donner des éléments d’analyse, mais simplement de souligner l’importance des volumes.

« Si vous avez été témoin d’un enlèvement extraterrestre, ne vous inquiétez pas. L’extraterrestre est entre de bonnes mains. Nous allons nous en occuper… et le ramener sain et sauf d’où il vient », plaisante le texte, avant d’afficher un énorme bouton rouge incitant à la délation.

« *Signalez les aliens suspects* », propose un gros bouton rouge

Un rebond opportuniste

Plusieurs internautes avaient remarqué ces derniers jours que la Maison-Blanche avait déposé les noms de domaine alien.gov et aliens.gov. Certains imaginaient que les sites associés pourraient servir à de nouvelles révélations, dans la lignée des images déclassifiées publiées début mai par le Pentagone. Hébergés à l’adresse war.gov/ufo, ces documents avaient alors été présentés par Donald Trump comme une réponse à l’opacité entretenue par les administrations précédentes sur des informations relevant de l’intérêt public.

L’exploitation du site aliens.gov à des fins de propagande anti-immigration apparait dans ce contexte comme un rebond opportuniste, de la part d’une Maison-Blanche qui n’hésite pas à utiliser les mèmes, la pop culture, le jeu vidéo et bien sûr l’intelligence artificielle générative pour servir son propos.

« Le président Trump a dit la vérité. Le camouflage est terminé. Sécurisez la frontière. Expulsez-les tous », conclut le site aliens.gov, avec une ultime référence issue de la saga Pokemon.

https://next.ink/232334/flock-ils-sont-parmi-nous/

Next.ink
La Maison-Blanche lance un site dédié aux aliens pour appeler à dénoncer les immigrants 29 mai 2026 à 12:04

La Maison-Blanche lance un site dédié aux aliens pour appeler à dénoncer les immigrants

Next.ink

Par : Alexandre Laurent

29 mai 2026 à 12:04

Pendant une triste nuit, le long d'une route solitaire de campagne...

La Maison-Blanche exploite le nom de domaine « aliens.gov » pour renvoyer vers une page qui comptabilise le nombre d’arrestations réalisées par sa police de l’immigration. Sur fond de codes visuels inspirés de la pop culture SF, elle compare les immigrants arrêtés à des envahisseurs face auxquels un seul homme a eu le courage de se dresser.

La communication décomplexée – et xénophobe – de l’administration Trump a franchi un nouveau palier. Jeudi, la Maison-Blanche a commencé à exploiter le nom de domaine aliens.gov, qu’elle fait pointer sur une page de son site Web (whitehouse.gov/aliens/), dédié aux performances de sa police anti-immigration, l’ICE.

Particularité de ce site ? Il joue à fond la carte des codes issus de la science-fiction et des séries populaires type X-Files, en exploitant la double signification du terme aliens, qui en anglais peut aussi bien désigner les extra-terrestres que les étrangers (souvenez-vous de la chanson de Sting).

« Ils sont parmi nous »

« Ils sont parmi nous », attaque le site, qui charge ensuite au fur et à mesure un texte dont la graphie, le défilement et la narration rappelle délibérément l’introduction des films de la saga Star Wars, ou l’introduction de certaines séries SF comme les Envahisseurs :

« Des extraterrestres vivent parmi nous — dans nos quartiers, interagissant avec nous au quotidien. Ils fréquentent les mêmes magasins, partagent les mêmes salles de classe que nos enfants, et mènent des existences en apparence parfaitement humaines. À une exception près : ils n’ont rien à faire ici ».

La suite décrit comment tout le monde a protégé ce secret jusqu’à ce qu’un homme ait finalement « le courage de dire la vérité ». La chute rend hommage au héros de l’histoire :

« Le président Trump a été le premier à dénoncer le danger réel que représentent les aliens pour chaque famille américaine, chaque communauté et l’avenir de notre nation. La vérité n’est plus ailleurs. Elle est ici et maintenant. »

Des chiffres en vrac et sans contexte

Le site embraie ensuite sur une carte « live » des arrestations d’étrangers réalisées aux États-Unis par la police anti-immigration, surmontée d’un décompte qui affichait, le 29 mai vers midi, quelque 3,130 millions de « rencontres » (le terme file lui aussi la métaphore extraterrestre, comme dans Rencontres du troisième type), et s’incrémente d’environ une arrestation par seconde.

La page dispense ensuite un tableau qui comptabilise le nombre d’arrestations réalisées dans les principales villes des États-Unis. Deux colonnes très denses listent pour chacune les « charges criminelles » retenues contre ces immigrants, et leur pays d’origine.

Le tableau ne donne aucun détail sur la répartition exacte des charges ou des pays concernés : son objectif n’est manifestement pas de donner des éléments d’analyse, mais simplement de souligner l’importance des volumes.

« Si vous avez été témoin d’un enlèvement extraterrestre, ne vous inquiétez pas. L’extraterrestre est entre de bonnes mains. Nous allons nous en occuper… et le ramener sain et sauf d’où il vient », plaisante le texte, avant d’afficher un énorme bouton rouge incitant à la délation.

Un rebond opportuniste

Plusieurs internautes avaient remarqué ces derniers jours que la Maison-Blanche avait déposé les noms de domaine alien.gov et aliens.gov. Certains imaginaient que les sites associés pourraient servir à de nouvelles révélations, dans la lignée des images déclassifiées publiées début mai par le Pentagone. Hébergés à l’adresse war.gov/ufo, ces documents avaient alors été présentés par Donald Trump comme une réponse à l’opacité entretenue par les administrations précédentes sur des informations relevant de l’intérêt public.

L’exploitation du site aliens.gov à des fins de propagande anti-immigration apparait dans ce contexte comme un rebond opportuniste, de la part d’une Maison-Blanche qui n’hésite pas à utiliser les mèmes, la pop culture, le jeu vidéo et bien sûr l’intelligence artificielle générative pour servir son propos.

« Le président Trump a dit la vérité. Le camouflage est terminé. Sécurisez la frontière. Expulsez-les tous », conclut le site aliens.gov, avec une ultime référence issue de la saga Pokemon.

https://next.ink/232334/flock-ils-sont-parmi-nous/

Numerama.com - Magazine
Shift, cette start-up qui veut nettoyer votre appartement gratuitement, en échange de données précieuses 29 mai 2026 à 08:27

Shift, cette start-up qui veut nettoyer votre appartement gratuitement, en échange de données précieuses

Numerama.com - Magazine

Par : Amine Baba Aissa

29 mai 2026 à 08:27

Une start-up new-yorkaise propose des ménages offerts contre le droit de filmer votre intérieur pour entraîner des robots. L'annonce a enflammé les réseaux sociaux entre fascination et inquiétudes sur la vie privée.

Next - Articles gratuits
☕️ Produits dangereux ou illicites : Temu condamné à 200 millions d’euros 28 mai 2026 à 13:50

☕️ Produits dangereux ou illicites : Temu condamné à 200 millions d’euros

Next - Articles gratuits

Par : Mickael Bazoge

28 mai 2026 à 13:50

Temu a enfreint le règlement européen sur les services numériques : en conséquence, la plateforme chinoise écope d’une amende de 200 millions d’euros. Et la douloureuse pourrait être encore plus salée.

Bruxelles infl i ge une amende de 200 millions d’euros à Temu, qui n’a pas su correctement évaluer les risques liés à la vente de produits illégaux ou dangereux. La Commission estime aussi que les consommateurs européens ont « très probablement » été exposés à ces produits. « Les évaluations des risques ne sont pas de simples exercices administratifs à cocher sur une liste : elles constituent l’épine dorsale du DSA », rappelle Henna Virkkunen, vice-présidente en charge de la Souveraineté technologique.

Le règlement européen impose aux très grandes plateformes d’analyser les risques systémiques liés à leurs services, de documenter ces risques et de mettre en place des mesures adaptées pour réduire ces risques. L’évaluation effectuée par Temu en 2024 a échoué sur plusieurs points importants, d’après l’enquête du régulateur. Elle reposait en effet sur des informations générales du secteur du commerce en ligne, pas sur des données spécifiques à Temu.

La plateforme aurait aussi fortement sous-estimé la fréquence à laquelle les utilisateurs européens tombent sur des produits illégaux. Enfin, Temu n’aurait pas suffisamment étudié l’impact de ses algorithmes de recommandation sur la distribution de ses produits. Bruxelles évoque également un exercice de « shopping mystère » ayant démontré la défaillance aux contrôles de sécurité basiques de chargeurs. Plusieurs jouets pour bébés contenaient des substances chimiques interdites ou qui présentaient des risques d’étouffement.

L’enquête avait été initiée suite à un signalement du BEUC, le bureau européen des unions de consommateurs. Rapidement, la Commission avait élargi ses investigations à Shein.

Sur Temu, il y a un « risque élevé » de trouver des produits illégaux

La sanction européenne est significative, mais ce n’est finalement qu’un symbole sachant que le DSA permet, en théorie, des amendes allant jusqu’à 6 % du chiffre d’affaires mondial annuel. La Commission veut surtout mettre la pression sur Temu, en lui demandant de fournir, d’ici au 28 août, un plan d’action détaillé pour remédier aux graves problèmes relevés par l’enquête. La plateforme devra expliquer comment elle compte mieux évaluer les risques, les mesures mises en place, et la manière dont elle réduira l’exposition des consommateurs européens à ces produits illégaux ou dangereux.

Des pénalités financières supplémentaires pourraient être imposées à Temu en cas de manquement répété à ses obligations. Dans une déclaration, l’entreprise affi r me respecter les objectifs du DSA « ainsi que la nécessité de règles claires et cohérentes pour l’économie numérique ». Elle conteste la décision de la Commission européenne, qui « concerne notre première évaluation au titre du DSA en 2024 et ne reflète pas l’état actuel de nos systèmes ». Elle affirme que, depuis, des mesures supplémentaires ont été mises en œuvre.

Ce dossier touche à un point sensible depuis plusieurs mois : l’arrivée massive sur le sol européen de produits bon marché expédiés directement depuis la Chine.

Next.ink
☕️ Produits dangereux ou illicites : Temu condamné à 200 millions d’euros 28 mai 2026 à 13:50

☕️ Produits dangereux ou illicites : Temu condamné à 200 millions d’euros

Next.ink

Par : Mickael Bazoge

28 mai 2026 à 13:50

Temu a enfreint le règlement européen sur les services numériques : en conséquence, la plateforme chinoise écope d’une amende de 200 millions d’euros. Et la douloureuse pourrait être encore plus salée.

Bruxelles infl i ge une amende de 200 millions d’euros à Temu, qui n’a pas su correctement évaluer les risques liés à la vente de produits illégaux ou dangereux. La Commission estime aussi que les consommateurs européens ont « très probablement » été exposés à ces produits. « Les évaluations des risques ne sont pas de simples exercices administratifs à cocher sur une liste : elles constituent l’épine dorsale du DSA », rappelle Henna Virkkunen, vice-présidente en charge de la Souveraineté technologique.

Le règlement européen impose aux très grandes plateformes d’analyser les risques systémiques liés à leurs services, de documenter ces risques et de mettre en place des mesures adaptées pour réduire ces risques. L’évaluation effectuée par Temu en 2024 a échoué sur plusieurs points importants, d’après l’enquête du régulateur. Elle reposait en effet sur des informations générales du secteur du commerce en ligne, pas sur des données spécifiques à Temu.

La plateforme aurait aussi fortement sous-estimé la fréquence à laquelle les utilisateurs européens tombent sur des produits illégaux. Enfin, Temu n’aurait pas suffisamment étudié l’impact de ses algorithmes de recommandation sur la distribution de ses produits. Bruxelles évoque également un exercice de « shopping mystère » ayant démontré la défaillance aux contrôles de sécurité basiques de chargeurs. Plusieurs jouets pour bébés contenaient des substances chimiques interdites ou qui présentaient des risques d’étouffement.

L’enquête avait été initiée suite à un signalement du BEUC, le bureau européen des unions de consommateurs. Rapidement, la Commission avait élargi ses investigations à Shein.

Sur Temu, il y a un « risque élevé » de trouver des produits illégaux

La sanction européenne est significative, mais ce n’est finalement qu’un symbole sachant que le DSA permet, en théorie, des amendes allant jusqu’à 6 % du chiffre d’affaires mondial annuel. La Commission veut surtout mettre la pression sur Temu, en lui demandant de fournir, d’ici au 28 août, un plan d’action détaillé pour remédier aux graves problèmes relevés par l’enquête. La plateforme devra expliquer comment elle compte mieux évaluer les risques, les mesures mises en place, et la manière dont elle réduira l’exposition des consommateurs européens à ces produits illégaux ou dangereux.

Des pénalités financières supplémentaires pourraient être imposées à Temu en cas de manquement répété à ses obligations. Dans une déclaration, l’entreprise affi r me respecter les objectifs du DSA « ainsi que la nécessité de règles claires et cohérentes pour l’économie numérique ». Elle conteste la décision de la Commission européenne, qui « concerne notre première évaluation au titre du DSA en 2024 et ne reflète pas l’état actuel de nos systèmes ». Elle affirme que, depuis, des mesures supplémentaires ont été mises en œuvre.

Ce dossier touche à un point sensible depuis plusieurs mois : l’arrivée massive sur le sol européen de produits bon marché expédiés directement depuis la Chine.

Délit d’initié sur Polymarket : cet employé Google s’est fait 1,2 million grâce aux secrets de l’entreprise

Numerama.com - Magazine

Par : Lisa Imperatrice

28 mai 2026 à 13:05

Michele Spagnuolo, ingénieur logiciel chez Google, a été accusé d'avoir utilisé des informations confidentielles pour parier sur Polymarket et remporter 1,2 million de dollars. Il a été inculpé par le ministère de la Justice américain.

« Bad Host » : comment un outil méconnu a exposé des millions d’agents IA à des accès non autorisés

Numerama.com - Magazine

Par : Amine Baba Aissa

28 mai 2026 à 10:45

Une faille dans Starlette, un framework Python que la plupart des développeurs n'ont jamais installé consciemment, a exposé des millions de serveurs d'agents IA à des accès non autorisés. Des boîtes mail, des bases de données médicales et des équipements industriels étaient accessibles sans mot de passe.

Cryptojacking : comment des hackers volent la puissance de vos cartes graphiques en passant par Google et des chatbots IA

Numerama.com - Magazine

Par : Amine Baba Aissa

28 mai 2026 à 07:52

Dans un article de blog publié le 26 mai 2026, des chercheurs de Microsoft ont mis au jour une campagne malveillante d'un genre nouveau : des pirates détournent les résultats de recherche, et désormais les réponses des chatbots IA, pour infecter les PC puissants et exploiter leurs cartes graphiques à des fins de minage de cryptomonnaies.

Next - Articles gratuits
Avec son contrôle sur l’information, la Chine biaise les chatbots dans sa langue 28 mai 2026 à 06:04

Avec son contrôle sur l’information, la Chine biaise les chatbots dans sa langue

Next - Articles gratuits

Par : Martin Clavey

28 mai 2026 à 06:04

Biaisés par la Chine

Avec son contrôle sur l’information, la Chine biaise les chatbots dans sa langue

La propagande chinoise influence le milieu de l’IA non seulement via les modèles que ses entreprises créent mais aussi via les données d’entrainement des autres modèles comme Claude Opus 4.7, gemini-3.1-pro ou GPT-5.5 sortis en 2026. Une étude montre qu’ils utilisent massivement la propagande chinoise comme données d’entrainement, et recrachent sans problème les mensonges du régime lorsqu’ils sont interrogés en chinois.

Quand est arrivé le modèle Deepseek R1 l’année dernière, on imaginait bien que les résultats de ce modèle seraient influencés par le gouvernement autoritaire chinois qui a le contrôle sur les paysages de la tech de son pays. Ainsi, on a pu rapidement constater une censure concernant les sujets sur Taïwan, la répression de la place de Tian’Anmen en 1989 ou sur Xi Jinping.

Mais qu’en est-il de l’influence de Pékin sur d’autres modèles qui ne sont pas créés par des entreprises dépendantes du pouvoir chinois ? Dans une étude publiée récemment dans la revue scientifique Nature, des chercheuses et chercheurs de plusieurs universités américaines montrent que l’État chinois a une influence importante de façon indirecte sur les résultats de modèles n’étant pas contrôlés par la Chine. L’étude est aussi accessible sur un site hébergé sur GitHub.

Ainsi, des modèles comme Claude Opus 4.7, gemini-3.1-pro ou GPT-5.5 sortis cette année sont toujours influencés sur les questions concernant la Chine quand ils sont utilisés avec des langues chinoises. Ils montrent même que l’influence de l’État chinois est croissante. Les auteurs ont découpé leurs travaux en six parties.

La propagande comme données d’entrainement

D’abord, dans une première étude, ils ont montré que les textes rédigés par le département de la propagande de la Chine apparaissent très fréquemment dans les ensembles de données multilingues courants utilisés pour entrainer les modèles.

Ils ont notamment étudié CulturaX, un sous-ensemble « nettoyé, immense et public » de Common Crawl destiné à « démocratiser les grands modèles de langage pour 167 langues ». « Par rapport à la moyenne générale, un pourcentage remarquablement élevé (3,28 à 23,98 %) des données d’entraînement mentionnant des dirigeants et des institutions politiques correspond à des textes manipulés par l’État », expliquent-ils concernant les documents en chinois contenus dans CulturaX.

Les modèles les plus récents régurgitent le plus la propagande chinoise

Ensuite, ils ont montré que les modèles commerciaux régurgitent des phrases venant de la propagande chinoise, ce qui montre qu’ils ont été entraînés dessus. En parallèle, ils ont vérifié qu’entrainer un modèle sur la propagande augmentait les réponses pro-autoritarisme, ce qu’on pouvait imaginer.

« Les modèles les plus récents et les plus puissants affichent des taux de mémorisation plus élevés », commentent les chercheurs. Ainsi, claude-opus-4.6, gpt-5.5 et claude-opus-4.7 régurgitent le plus de propagandes chinoises, même deepseek-v3.2 et deepseek-v4-pro sont battus :

Si les données d’entrainement des modèles semblent intégrer massivement de la propagande chinoise, quelle en est la conséquence sur les résultats ? Sans surprise, tous les modèles sont influencés. Évalués de façon automatique via un LLM, ils répondent tous davantage en adéquation avec la propagande chinoise quand ils sont interrogés en chinois qu’en anglais. Et encore une fois, c’est d’autant plus vrai que le modèle est récent : claude-opus-4.6, gpt-5.4, gpt-5.5, gemini-3.1-pro et claude-opus-4.7 sont particulièrement influencés.

Notons que les chercheurs mesurent ici un ratio entre l’alignement en chinois et en anglais avec la propagande chinoise. DeepSeek V4 Pro reprenant cette propagande aussi en anglais, son ratio est plus bas que les autres, mais ça ne veut pas dire qu’il relaie moins la propagande du régime en chinois.

Ils ont répliqué ce test sur des prompts d’utilisateurs réels faisant référence à Xi Jinping ou au Parti Communiste chinois issus du sous-ensemble en chinois de l’ensemble de données WildChat (un dataset sur l’utilisation de ChatGPT), de Baidu Zhidao Q&A (l’équivalent chinois de Yahoo Answers) et de Zhihu (l’équivalent chinois de Quora). «Tous les modèles commerciaux ont montré une opinion plus favorable à l’égard des dirigeants et des institutions chinois lorsque les questions étaient posées en chinois plutôt qu’en anglais », expliquent-ils.

La liberté de la presse d’autant plus importante

Enfin, dans leur étude, ils ont élargi le focus pour étudier une éventuelle généralisation à d’autres pays autoritaires. « Dans les 37 pays où une langue est dominante, les LLM alimentés par des requêtes dans la langue cible principalement utilisée dans le pays concerné produisent des réponses plus favorables au régime lorsque la liberté de la presse est faible. Les pays situés en haut du classement de la liberté de la presse ne présentent guère de différence par rapport à la référence en anglais, et dans certains cas, on observe même une légère corrélation négative, ce qui suggère que ce phénomène dépasse le cas de la Chine », expliquent-ils.

Next.ink
Avec son contrôle sur l’information, la Chine biaise les chatbots dans sa langue 28 mai 2026 à 06:04

Avec son contrôle sur l’information, la Chine biaise les chatbots dans sa langue

Next.ink

Par : Martin Clavey

28 mai 2026 à 06:04

Biaisés par la Chine

La propagande chinoise influence le milieu de l’IA non seulement via les modèles que ses entreprises créent mais aussi via les données d’entrainement des autres modèles comme Claude Opus 4.7, gemini-3.1-pro ou GPT-5.5 sortis en 2026. Une étude montre qu’ils utilisent massivement la propagande chinoise comme données d’entrainement, et recrachent sans problème les mensonges du régime lorsqu’ils sont interrogés en chinois.

Quand est arrivé le modèle Deepseek R1 l’année dernière, on imaginait bien que les résultats de ce modèle seraient influencés par le gouvernement autoritaire chinois qui a le contrôle sur les paysages de la tech de son pays. Ainsi, on a pu rapidement constater une censure concernant les sujets sur Taïwan, la répression de la place de Tian’Anmen en 1989 ou sur Xi Jinping.

Mais qu’en est-il de l’influence de Pékin sur d’autres modèles qui ne sont pas créés par des entreprises dépendantes du pouvoir chinois ? Dans une étude publiée récemment dans la revue scientifique Nature, des chercheuses et chercheurs de plusieurs universités américaines montrent que l’État chinois a une influence importante de façon indirecte sur les résultats de modèles n’étant pas contrôlés par la Chine. L’étude est aussi accessible sur un site hébergé sur GitHub.

Ainsi, des modèles comme Claude Opus 4.7, gemini-3.1-pro ou GPT-5.5 sortis cette année sont toujours influencés sur les questions concernant la Chine quand ils sont utilisés avec des langues chinoises. Ils montrent même que l’influence de l’État chinois est croissante. Les auteurs ont découpé leurs travaux en six parties.

La propagande comme données d’entrainement

D’abord, dans une première étude, ils ont montré que les textes rédigés par le département de la propagande de la Chine apparaissent très fréquemment dans les ensembles de données multilingues courants utilisés pour entrainer les modèles.

Ils ont notamment étudié CulturaX, un sous-ensemble « nettoyé, immense et public » de Common Crawl destiné à « démocratiser les grands modèles de langage pour 167 langues ». « Par rapport à la moyenne générale, un pourcentage remarquablement élevé (3,28 à 23,98 %) des données d’entraînement mentionnant des dirigeants et des institutions politiques correspond à des textes manipulés par l’État », expliquent-ils concernant les documents en chinois contenus dans CulturaX.

Les modèles les plus récents régurgitent le plus la propagande chinoise

Ensuite, ils ont montré que les modèles commerciaux régurgitent des phrases venant de la propagande chinoise, ce qui montre qu’ils ont été entraînés dessus. En parallèle, ils ont vérifié qu’entrainer un modèle sur la propagande augmentait les réponses pro-autoritarisme, ce qu’on pouvait imaginer.

« Les modèles les plus récents et les plus puissants affichent des taux de mémorisation plus élevés », commentent les chercheurs. Ainsi, claude-opus-4.6, gpt-5.5 et claude-opus-4.7 régurgitent le plus de propagandes chinoises, même deepseek-v3.2 et deepseek-v4-pro sont battus :

Si les données d’entrainement des modèles semblent intégrer massivement de la propagande chinoise, quelle en est la conséquence sur les résultats ? Sans surprise, tous les modèles sont influencés. Évalués de façon automatique via un LLM, ils répondent tous davantage en adéquation avec la propagande chinoise quand ils sont interrogés en chinois qu’en anglais. Et encore une fois, c’est d’autant plus vrai que le modèle est récent : claude-opus-4.6, gpt-5.4, gpt-5.5, gemini-3.1-pro et claude-opus-4.7 sont particulièrement influencés.

Notons que les chercheurs mesurent ici un ratio entre l’alignement en chinois et en anglais avec la propagande chinoise. DeepSeek V4 Pro reprenant cette propagande aussi en anglais, son ratio est plus bas que les autres, mais ça ne veut pas dire qu’il relaie moins la propagande du régime en chinois.

Ils ont répliqué ce test sur des prompts d’utilisateurs réels faisant référence à Xi Jinping ou au Parti Communiste chinois issus du sous-ensemble en chinois de l’ensemble de données WildChat (un dataset sur l’utilisation de ChatGPT), de Baidu Zhidao Q&A (l’équivalent chinois de Yahoo Answers) et de Zhihu (l’équivalent chinois de Quora). «Tous les modèles commerciaux ont montré une opinion plus favorable à l’égard des dirigeants et des institutions chinois lorsque les questions étaient posées en chinois plutôt qu’en anglais », expliquent-ils.

La liberté de la presse d’autant plus importante

Enfin, dans leur étude, ils ont élargi le focus pour étudier une éventuelle généralisation à d’autres pays autoritaires. « Dans les 37 pays où une langue est dominante, les LLM alimentés par des requêtes dans la langue cible principalement utilisée dans le pays concerné produisent des réponses plus favorables au régime lorsque la liberté de la presse est faible. Les pays situés en haut du classement de la liberté de la presse ne présentent guère de différence par rapport à la référence en anglais, et dans certains cas, on observe même une légère corrélation négative, ce qui suggère que ce phénomène dépasse le cas de la Chine », expliquent-ils.

Vue normale

Sommaire

Le contexte

Le protocole en deux phrases

Deux modes d'adoption

Mode Full — Sans email

Mode Lite — Avec email + mot mémorisé

Synthèse

SelfRecover vs Keycloak Recovery Codes

Que se passe-t-il si l'utilisateur perd son secret ?

Niveau 1 — Passphrase oubliée

Niveau 2 — Passphrase perdue, mais identifiant + mot de récupération retenus

Niveau 3 — Accès complètement perdu

Chat administrateur humain en mode restreint — état actuel

Évolution prévue (en réflexion) : pré-traitement optionnel par chatbot LLM local

Démo standalone vs implémentation de référence

Pourquoi assumer cette friction

Pour quel public

Modèle de menace assumé

Démos en ligne

Code et image Docker

Licence et philosophie

Note de transparence

Conception en partenariat avec un assistant IA

Plan d'audit

Statut du projet

Engagement communauté LinuxFr et culture du libre

Pour aller plus loin

Pendant une triste nuit, le long d'une route solitaire de campagne...

« Ils sont parmi nous »

Des chiffres en vrac et sans contexte

Un rebond opportuniste

Pendant une triste nuit, le long d'une route solitaire de campagne...

« Ils sont parmi nous »

Des chiffres en vrac et sans contexte

Un rebond opportuniste

Biaisés par la Chine

La propagande comme données d’entrainement

Les modèles les plus récents régurgitent le plus la propagande chinoise

La liberté de la presse d’autant plus importante

Biaisés par la Chine

La propagande comme données d’entrainement

Les modèles les plus récents régurgitent le plus la propagande chinoise

La liberté de la presse d’autant plus importante