Vue lecture

Le FBI cherche à obtenir l’identité du responsable d’Archive.today

Police de l'Internet : vous avez vos papiers ?
Le FBI cherche à obtenir l’identité du responsable d’Archive.today

Le service de renseignement états-unien est à la recherche de la personne responsable d’un des sites d’archivage en ligne les plus connus, Archive.today, aussi connu par son autre nom de domaine archive.is. Le FBI a envoyé une injonction au bureau d’enregistrement Tucows pour récupérer les données personnelles associées.

Le 31 octobre dernier, Archive.today a posté sur X un lien vers une injonction faite au bureau d’enregistrement de son nom de domaine Tucows. Celle-ci demande au registrar canadien (un des plus importants dans le monde) de transmettre toutes les données relatives au client qui détient archive.today.

Archive.today, connu aussi sous le domaine archive.is ou archive.ph, c’est l’un des sites d’archivage du web les plus connus. Il existe depuis 2012 et on peut y accéder via différents noms de domaine du même genre, avec même un .onion utilisable via le protocole Tor.

Mais, contrairement à Internet Archive, dont la Wayback Machine propose d’accéder aux archives du web depuis 2001, Archive.today n’est pas une organisation à but non lucratif ayant pignon sur rue.

Utilisé pour passer outre les Paywalls

Le site permet à un utilisateur d’archiver une page qui pourra ensuite être consultée par d’autres. Ce mécanisme est massivement utilisé par des internautes pour passer outre les paywalls des différents médias. Sur sa page de FAQ, on peut y lire qu’il utilise Apache Hadoop et Apache Accumulo et que « toutes les données sont stockées sur HDFS, le contenu textuel est dupliqué trois fois entre les serveurs de différents centres de données et les images sont dupliquées deux fois ». Et selon cette même page, « tous les datacenters sont situés en Europe » (peut-être chez OVH). Mais aucune mention légale n’apparait concernant le responsable du site.

Comme le remarque le média allemand Heise, les pages de l’injonction faite par le FBI à Tucows ne permettent pas de savoir pourquoi le service de renseignement états-unien cherche à connaître l’identité du responsable du site. Le tweet posté par le compte d’Archive.today sur X accompagne le lien d’un simple « canary », faisant référence à l’utilisation du petit oiseau jaune dans les mines pour détecter le coup de grisou avant qu’il n’effondre les fondations souterraines.

Un « outil fragile » qui est « condamné à mourir »

La connaissance d’une telle injonction est le signal que le FBI enquête. Mais il n’en dit pas beaucoup plus sur le sujet. Est-ce l’enjeu de la sauvegarde massive de contenus d’éditeurs de médias états-uniens ? Est-ce celle de contenus problématiques ? Le FBI enquête-t-il sur les sources de financement du site ? Il est difficile de savoir quelle est la raison exacte.

Si personne n’a jamais revendiqué la responsabilité du site, en 2023, le blogueur Janni Patokallio a publié un billet sur le site dans lequel il cite le nom de la première personne ayant enregistré le domaine archive.is en 2012. « Même si nous ne connaissons ni son visage ni son nom, nous avons désormais une assez bonne idée du fonctionnement du site : il s’agit d’une œuvre passionnée menée par une seule personne, un Russe doté d’un talent considérable et d’un accès à l’Europe », concluait-il de ses recherches.

Comme le faisait remarquer Janni Patokallio, le créateur d’Archive Today est pleinement conscient que le site est un « outil fragile » qui est « condamné à mourir » un jour.

  •  

Le FBI cherche à obtenir l’identité du responsable d’Archive.today

Police de l'Internet : vous avez vos papiers ?
Le FBI cherche à obtenir l’identité du responsable d’Archive.today

Le service de renseignement états-unien est à la recherche de la personne responsable d’un des sites d’archivage en ligne les plus connus, Archive.today, aussi connu par son autre nom de domaine archive.is. Le FBI a envoyé une injonction au bureau d’enregistrement Tucows pour récupérer les données personnelles associées.

Le 31 octobre dernier, Archive.today a posté sur X un lien vers une injonction faite au bureau d’enregistrement de son nom de domaine Tucows. Celle-ci demande au registrar canadien (un des plus importants dans le monde) de transmettre toutes les données relatives au client qui détient archive.today.

Archive.today, connu aussi sous le domaine archive.is ou archive.ph, c’est l’un des sites d’archivage du web les plus connus. Il existe depuis 2012 et on peut y accéder via différents noms de domaine du même genre, avec même un .onion utilisable via le protocole Tor.

Mais, contrairement à Internet Archive, dont la Wayback Machine propose d’accéder aux archives du web depuis 2001, Archive.today n’est pas une organisation à but non lucratif ayant pignon sur rue.

Utilisé pour passer outre les Paywalls

Le site permet à un utilisateur d’archiver une page qui pourra ensuite être consultée par d’autres. Ce mécanisme est massivement utilisé par des internautes pour passer outre les paywalls des différents médias. Sur sa page de FAQ, on peut y lire qu’il utilise Apache Hadoop et Apache Accumulo et que « toutes les données sont stockées sur HDFS, le contenu textuel est dupliqué trois fois entre les serveurs de différents centres de données et les images sont dupliquées deux fois ». Et selon cette même page, « tous les datacenters sont situés en Europe » (peut-être chez OVH). Mais aucune mention légale n’apparait concernant le responsable du site.

Comme le remarque le média allemand Heise, les pages de l’injonction faite par le FBI à Tucows ne permettent pas de savoir pourquoi le service de renseignement états-unien cherche à connaître l’identité du responsable du site. Le tweet posté par le compte d’Archive.today sur X accompagne le lien d’un simple « canary », faisant référence à l’utilisation du petit oiseau jaune dans les mines pour détecter le coup de grisou avant qu’il n’effondre les fondations souterraines.

Un « outil fragile » qui est « condamné à mourir »

La connaissance d’une telle injonction est le signal que le FBI enquête. Mais il n’en dit pas beaucoup plus sur le sujet. Est-ce l’enjeu de la sauvegarde massive de contenus d’éditeurs de médias états-uniens ? Est-ce celle de contenus problématiques ? Le FBI enquête-t-il sur les sources de financement du site ? Il est difficile de savoir quelle est la raison exacte.

Si personne n’a jamais revendiqué la responsabilité du site, en 2023, le blogueur Janni Patokallio a publié un billet sur le site dans lequel il cite le nom de la première personne ayant enregistré le domaine archive.is en 2012. « Même si nous ne connaissons ni son visage ni son nom, nous avons désormais une assez bonne idée du fonctionnement du site : il s’agit d’une œuvre passionnée menée par une seule personne, un Russe doté d’un talent considérable et d’un accès à l’Europe », concluait-il de ses recherches.

Comme le faisait remarquer Janni Patokallio, le créateur d’Archive Today est pleinement conscient que le site est un « outil fragile » qui est « condamné à mourir » un jour.

  •  

☕️ Meta lance Vibes en Europe

L’entreprise de Mark Zuckerberg explique dans un communiqué publié jeudi 6 novembre que la nouvelle version de son application Meta AI disponible en Europe contient maintenant le fameux flux Vibes.

Meta avait annoncé l’arrivée de cette fonctionnalité fin septembre, mais elle n’était pas encore disponible en Europe. OpenAI lui avait rapidement emboité le pas en sortant aux États-Unis son application Sora.

Avec Vibes et Sora, les deux entreprises se sont lancées dans une course à une nouvelle sorte de flux sur le même principe que TikTok mais ne contenant que des contenus générés par IA.

Selon Meta, « Vibes est un espace dédié à la création, au remixage et au partage de vidéos courtes générées par l’IA, qui vous permet de vous exprimer de manière nouvelle et innovante ».

De son côté, Sora ne reste officiellement disponible pour l’instant qu’au Canada, en Corée du Sud, au Japon, aux États-Unis, au Viêt Nam, en Thaïlande et à Taiwan.

  •  

☕️ Meta lance Vibes en Europe

L’entreprise de Mark Zuckerberg explique dans un communiqué publié jeudi 6 novembre que la nouvelle version de son application Meta AI disponible en Europe contient maintenant le fameux flux Vibes.

Meta avait annoncé l’arrivée de cette fonctionnalité fin septembre, mais elle n’était pas encore disponible en Europe. OpenAI lui avait rapidement emboité le pas en sortant aux États-Unis son application Sora.

Avec Vibes et Sora, les deux entreprises se sont lancées dans une course à une nouvelle sorte de flux sur le même principe que TikTok mais ne contenant que des contenus générés par IA.

Selon Meta, « Vibes est un espace dédié à la création, au remixage et au partage de vidéos courtes générées par l’IA, qui vous permet de vous exprimer de manière nouvelle et innovante ».

De son côté, Sora ne reste officiellement disponible pour l’instant qu’au Canada, en Corée du Sud, au Japon, aux États-Unis, au Viêt Nam, en Thaïlande et à Taiwan.

  •  

Sanctions US : YouTube a supprimé 700 vidéos d’ONG palestiniennes en lien avec la CPI

Broadcast Yourself, mais pas à Gaza
Sanctions US : YouTube a supprimé 700 vidéos d’ONG palestiniennes en lien avec la CPI

YouTube a supprimé les comptes de trois ONG palestiniennes début octobre, et par la même occasion plus de 700 vidéos sur les conséquences de l’invasion de Gaza par Israël. Cela fait suite aux sanctions décidées par Donald Trump contre la Cour pénale internationale, les trois ONG l’ayant aidée dans ses enquêtes.

Début octobre, YouTube a supprimé, sans les prévenir, les chaines de trois organisations non gouvernementales, le Centre Al-Mezan pour les droits humains, Al-Haq et le Centre palestinien pour les droits humains. Selon The Intercept qui a révélé cette suppression, plus de 700 vidéos ont disparu avec ces trois chaines, compilant des heures d’images documentant la situation à Gaza et les suspicions de crimes de guerre d’Israël sur lesquels la Cour pénale internationale devra se prononcer.

Toutes les vidéos ne sont pas perdues. Ainsi, par exemple, on peut voir sur la Wayback Machine d’Internet Archive la vidéo d’une analyse sur la mort de la journaliste américano-palestinienne d’Al Jazeera, Shireen Abu Akleh. On peut aussi retrouver cette vidéo sur la page Vimeo de l’ONG. Mais ces plateformes pourraient elles aussi être contraintes par les États-Unis de supprimer ces contenus.

YouTube suit des sanctions ciblées prononcées par Marco Rubio

Car YouTube (dont la maison mère est Google) a suivi la décision de sanctions prises par l’administration Trump envers ces trois ONG. « Google s’engage à respecter les sanctions applicables et les lois en matière de conformité commerciale », a affirmé YouTube dans un communiqué envoyé en réponse à The Intercept.

Comme plusieurs juges de la Cour pénale internationale visés nommément par l’administration Trump, les trois ONG ont été l’objet d’une décision du secrétaire d’État américain, Marco Rubio début septembre.

« Ces entités ont directement participé aux efforts déployés par la Cour pénale internationale (CPI) pour enquêter, arrêter, détenir ou poursuivre des ressortissants israéliens, sans le consentement d’Israël », affirmait Marco Rubio dans un communiqué annonçant la désignation du Centre Al-Mezan pour les droits humains, d’Al-Haq et du Centre palestinien pour les droits humains. Le secrétaire d’État américain n’évoque aucune autre raison que leurs liens avec l’autorité judiciaire internationale pour justifier cette désignation.

La CPI sanctionnée depuis février

Rappelons qu’en février dernier, Donald Trump a publié un décret imposant « des sanctions à l’encontre de la Cour pénale internationale » en réaction à l’émission des mandats d’arrêt à l’encontre de Benyamin Nétanyahou et de l’ancien ministre israélien de la Défense Yoav Gallant. C’est sur la base de ce décret que s’appuie Marco Rubio pour sanctionner les trois ONG accusées de collaborer avec la CPI.

Selon The Intercept, c’est la première fois que les États-Unis prennent de telles sanctions contre des ONG qui accumulent des informations pour d’éventuelles poursuites en justice.

« Je suis très choquée que YouTube fasse preuve d’un tel manque de courage », explique à The Intercept la responsable de l’association états-unienne Democracy for the Arab World Now, Sarah Leah Whitson. « Il est vraiment difficile d’imaginer un argument sérieux selon lequel le partage d’informations provenant de ces organisations palestiniennes de défense des droits humains violerait d’une manière ou d’une autre les sanctions. Il est décevant et assez surprenant que YouTube cède à cette désignation arbitraire de ces organisations palestiniennes et décide désormais de les censurer. »

  •  

Sanctions US : YouTube a supprimé 700 vidéos d’ONG palestiniennes en lien avec la CPI

Broadcast Yourself, mais pas à Gaza
Sanctions US : YouTube a supprimé 700 vidéos d’ONG palestiniennes en lien avec la CPI

YouTube a supprimé les comptes de trois ONG palestiniennes début octobre, et par la même occasion plus de 700 vidéos sur les conséquences de l’invasion de Gaza par Israël. Cela fait suite aux sanctions décidées par Donald Trump contre la Cour pénale internationale, les trois ONG l’ayant aidée dans ses enquêtes.

Début octobre, YouTube a supprimé, sans les prévenir, les chaines de trois organisations non gouvernementales, le Centre Al-Mezan pour les droits humains, Al-Haq et le Centre palestinien pour les droits humains. Selon The Intercept qui a révélé cette suppression, plus de 700 vidéos ont disparu avec ces trois chaines, compilant des heures d’images documentant la situation à Gaza et les suspicions de crimes de guerre d’Israël sur lesquels la Cour pénale internationale devra se prononcer.

Toutes les vidéos ne sont pas perdues. Ainsi, par exemple, on peut voir sur la Wayback Machine d’Internet Archive la vidéo d’une analyse sur la mort de la journaliste américano-palestinienne d’Al Jazeera, Shireen Abu Akleh. On peut aussi retrouver cette vidéo sur la page Vimeo de l’ONG. Mais ces plateformes pourraient elles aussi être contraintes par les États-Unis de supprimer ces contenus.

YouTube suit des sanctions ciblées prononcées par Marco Rubio

Car YouTube (dont la maison mère est Google) a suivi la décision de sanctions prises par l’administration Trump envers ces trois ONG. « Google s’engage à respecter les sanctions applicables et les lois en matière de conformité commerciale », a affirmé YouTube dans un communiqué envoyé en réponse à The Intercept.

Comme plusieurs juges de la Cour pénale internationale visés nommément par l’administration Trump, les trois ONG ont été l’objet d’une décision du secrétaire d’État américain, Marco Rubio début septembre.

« Ces entités ont directement participé aux efforts déployés par la Cour pénale internationale (CPI) pour enquêter, arrêter, détenir ou poursuivre des ressortissants israéliens, sans le consentement d’Israël », affirmait Marco Rubio dans un communiqué annonçant la désignation du Centre Al-Mezan pour les droits humains, d’Al-Haq et du Centre palestinien pour les droits humains. Le secrétaire d’État américain n’évoque aucune autre raison que leurs liens avec l’autorité judiciaire internationale pour justifier cette désignation.

La CPI sanctionnée depuis février

Rappelons qu’en février dernier, Donald Trump a publié un décret imposant « des sanctions à l’encontre de la Cour pénale internationale » en réaction à l’émission des mandats d’arrêt à l’encontre de Benyamin Nétanyahou et de l’ancien ministre israélien de la Défense Yoav Gallant. C’est sur la base de ce décret que s’appuie Marco Rubio pour sanctionner les trois ONG accusées de collaborer avec la CPI.

Selon The Intercept, c’est la première fois que les États-Unis prennent de telles sanctions contre des ONG qui accumulent des informations pour d’éventuelles poursuites en justice.

« Je suis très choquée que YouTube fasse preuve d’un tel manque de courage », explique à The Intercept la responsable de l’association états-unienne Democracy for the Arab World Now, Sarah Leah Whitson. « Il est vraiment difficile d’imaginer un argument sérieux selon lequel le partage d’informations provenant de ces organisations palestiniennes de défense des droits humains violerait d’une manière ou d’une autre les sanctions. Il est décevant et assez surprenant que YouTube cède à cette désignation arbitraire de ces organisations palestiniennes et décide désormais de les censurer. »

  •  

☕️ ChatGPT « coach pour suicide » ? 7 plaintes l’accusent de manipulation émotionnelle

Ce jeudi 6 novembre, OpenAI a été citée dans sept plaintes déposées devant des cours de justice californiennes. L’organisation Social Media Victims Law Center (SMVLC) explique avoir déposé ces plaintes dans des cas concernant 6 adultes et un adolescent de 17 ans.

OpenAI et Sam Altman y sont accusés d’accident mortel, de suicide assisté, d’homicide involontaire et de négligence.

Concernant l’adolescent, la plainte affirme que « le produit ChatGPT, défectueux et intrinsèquement dangereux, a provoqué une dépendance, une dépression et, finalement, lui a conseillé la manière la plus efficace de faire un nœud coulant en lui indiquant combien de temps il pourrait « vivre sans respirer » », explique l’Associated Press. Les avocats y écrivent que « la mort d’Amaurie n’était ni un accident ni une coïncidence, mais plutôt la conséquence prévisible de la décision délibérée d’OpenAI et de Samuel Altman de réduire les tests de sécurité et de précipiter la mise sur le marché de ChatGPT ».

CNN raconte les 70 pages d’échanges entre un adulte de 23 ans et ChatGPT qui l’a accompagné jusqu’à son suicide le 25 juillet dernier. SMVLC donne des informations sur les autres cas dans son communiqué.

Ce ne sont pas les premières plaintes sur le sujet. En août dernier, on apprenait qu’OpenAI était poursuivi en justice après le suicide d’un adolescent. Mais le créateur de ChatGPT n’est pas le seul à être pointé du doigt. La FTC a ouvert une enquête sur les conséquences des chatbots de Google, Meta, Instagram, OpenAI, Snap, xAI et CharacterAI sur les mineurs en septembre dernier.

Il y a un an, le New York Times se demandait si on pouvait « blâmer l’intelligence artificielle pour le suicide d’un adolescent » dans une affaire impliquant CharacterAI.

  •  

☕️ ChatGPT « coach pour suicide » ? 7 plaintes l’accusent de manipulation émotionnelle

Ce jeudi 6 novembre, OpenAI a été citée dans sept plaintes déposées devant des cours de justice californiennes. L’organisation Social Media Victims Law Center (SMVLC) explique avoir déposé ces plaintes dans des cas concernant 6 adultes et un adolescent de 17 ans.

OpenAI et Sam Altman y sont accusés d’accident mortel, de suicide assisté, d’homicide involontaire et de négligence.

Concernant l’adolescent, la plainte affirme que « le produit ChatGPT, défectueux et intrinsèquement dangereux, a provoqué une dépendance, une dépression et, finalement, lui a conseillé la manière la plus efficace de faire un nœud coulant en lui indiquant combien de temps il pourrait « vivre sans respirer » », explique l’Associated Press. Les avocats y écrivent que « la mort d’Amaurie n’était ni un accident ni une coïncidence, mais plutôt la conséquence prévisible de la décision délibérée d’OpenAI et de Samuel Altman de réduire les tests de sécurité et de précipiter la mise sur le marché de ChatGPT ».

CNN raconte les 70 pages d’échanges entre un adulte de 23 ans et ChatGPT qui l’a accompagné jusqu’à son suicide le 25 juillet dernier. SMVLC donne des informations sur les autres cas dans son communiqué.

Ce ne sont pas les premières plaintes sur le sujet. En août dernier, on apprenait qu’OpenAI était poursuivi en justice après le suicide d’un adolescent. Mais le créateur de ChatGPT n’est pas le seul à être pointé du doigt. La FTC a ouvert une enquête sur les conséquences des chatbots de Google, Meta, Instagram, OpenAI, Snap, xAI et CharacterAI sur les mineurs en septembre dernier.

Il y a un an, le New York Times se demandait si on pouvait « blâmer l’intelligence artificielle pour le suicide d’un adolescent » dans une affaire impliquant CharacterAI.

  •  

☕️ De l’IA dans Tinder pour analyser les données et photos des utilisateurs

Match Group, géant des applications de rencontres, a expliqué aux investisseurs qu’il allait utiliser l’IA pour traiter les données de ses utilisateurs et leur proposer une nouvelle fonctionnalité. Celle-ci, nommée Chemistry, explique TechCrunch, s’appuiera sur des questions posées aux utilisateurs et sur leurs photos (avec leur permission) pour proposer des « matchs » qui se voudront plus affinés.

Chemistry est déjà testée en Nouvelle-Zélande et en Australie et doit, selon le CEO de Match Group, Spencer Rascoff, devenir le « pilier majeur de l’expérience produit de Tinder en 2026 ».

Tinder utilise déjà l’IA générative pour la modération des discussions privées : l’application demande à l’utilisateur s’il est sûr de vouloir envoyer un message étiqueté comme potentiellement offensant par le système. L’application propose aussi d’aider l’utilisateur à choisir les photos à mettre en avant.

Match Group semble vouloir relancer son application phare avec l’IA alors que le groupe a indiqué que les revenus de Tinder avaient baissé de 3 % au troisième trimestre comparé à celui de l’année dernière et qu’elle voit son nombre d’utilisateurs payants baisser de 7 %.

  •  

☕️ De l’IA dans Tinder pour analyser les données et photos des utilisateurs

Match Group, géant des applications de rencontres, a expliqué aux investisseurs qu’il allait utiliser l’IA pour traiter les données de ses utilisateurs et leur proposer une nouvelle fonctionnalité. Celle-ci, nommée Chemistry, explique TechCrunch, s’appuiera sur des questions posées aux utilisateurs et sur leurs photos (avec leur permission) pour proposer des « matchs » qui se voudront plus affinés.

Chemistry est déjà testée en Nouvelle-Zélande et en Australie et doit, selon le CEO de Match Group, Spencer Rascoff, devenir le « pilier majeur de l’expérience produit de Tinder en 2026 ».

Tinder utilise déjà l’IA générative pour la modération des discussions privées : l’application demande à l’utilisateur s’il est sûr de vouloir envoyer un message étiqueté comme potentiellement offensant par le système. L’application propose aussi d’aider l’utilisateur à choisir les photos à mettre en avant.

Match Group semble vouloir relancer son application phare avec l’IA alors que le groupe a indiqué que les revenus de Tinder avaient baissé de 3 % au troisième trimestre comparé à celui de l’année dernière et qu’elle voit son nombre d’utilisateurs payants baisser de 7 %.

  •  

La bataille des éditeurs de presse face à Common Crawl continue

Common or paywalled ?
La bataille des éditeurs de presse face à Common Crawl continue

Alors que Common Crawl fournit des téraoctets de données d’entrainement aux entreprises d’IA générative, l’organisation est accusée de récupérer des contenus placés derrière des paywalls. La presse, en France ou ailleurs, essaye de bloquer l’aspiration de ses contenus via des procédures judiciaires, mais la plupart des paywalls laissent des trous pour jouer le jeu de l’indexation dans les moteurs de recherche.

La base de données Common Crawl est sous le feu des critiques de la presse parce qu’elle fournit aux entreprises d’IA générative comme OpenAI, Google, Anthropic, Nvidia, Meta ou Amazon énormément de contenus pour l’entrainement de leurs modèles.

La plupart des grands modèles de langage s’appuient, depuis leurs origines, sur cette base de données. Celle-ci regroupe des téraoctets de textes moissonnés sur le web. Tous les mois, une nouvelle archive est publiée par Common Crawl, gérée par une structure à but non lucratif.

Ainsi, le lot d’octobre 2025 contient 2,6 milliards de pages web, correspondant à 126 téraoctets de données compressées. Si la légalité de ce genre de moissonnage pour la recherche ou pour l’indexation ne fait pas de doute, il y en a plus pour des projets commerciaux d’IA générative, notamment car leurs systèmes peuvent régurgiter les contenus qui sont sous copyright ou sous d’autres régimes de droit d’auteurs.

Des articles sous paywall dans Common Crawl ?

Ce lundi 4 novembre, The Atlantic a publié un article à propos de la base de donnée qui accuse la structure à but non lucratif d’avoir ouvert une porte dérobée (backdoor) pour les entreprises d’IA leur permettant d’entrainer leurs modèles sur les articles de presse sous paywall, et de mentir à ce sujet aux éditeurs de presse.

Notre confrère, Alex Reisner, estime que les archives de Commons Crawl contiennent « des millions d’articles provenant d’organismes de presse du monde entier, notamment The Economist, Los Angeles Times, The Wall Street Journal, The New York Times, The New Yorker, Harper’s et The Atlantic ».

En France, l’Alliance de la presse d’information générale (APIG) et le Syndicat des éditeurs de la presse magazine (SEPM) sont passés à la vitesse supérieure début septembre en mettant en demeure début septembre Common Crawl de retirer les sites de leurs membres de son archivage.

Retrait des articles de 81 éditeurs français

Un mois après, les deux lobbys de la presse ont obtenu le retrait des contenus de 81 éditeurs. Dans une interview au Journal du Net publiée début septembre, Léa Boccara, responsable du pôle juridique et des affaires publiques de l’Alliance, accusait aussi l’organisme à but non lucratif d’archiver des articles payants : « Nous sommes face à un crawling de masse d’articles et d’extraits d’articles, qui contourne les paywalls ». Elle rejoint ainsi les accusations lancées par The Atlantic.

On peut facilement imaginer, comme nos confrères états-uniens l’affirment, que Common Crawl ne se logue pas à chaque site d’information pour aspirer les contenus, mais qu’il contourne les paywalls. Et, en effet, de nombreux systèmes utilisés par la presse pour bloquer l’accès à leurs contenus se contentent de cacher avec du code javascript le texte des articles. Ainsi, alors qu’un navigateur ne l’affichera pas à l’utilisateur lambda d’un navigateur, un crawler peut facilement le récupérer.

Ajoutons qu’une bonne partie des éditeurs de presse savent que, derrière ce genre de « paywall », leurs contenus ne sont que vaguement protégés, ce qui permet de laisser les robots des moteurs de recherche classiques moissonner ces articles, et de mieux les valoriser dans leurs résultats.

Common Crawl réfute

Common Crawl a réagi à l’article de The Atlantic dans un billet publié le même jour. L’organisation réfute les accusations de mensonges envers les éditeurs de presse : « Cela donne une image fausse du fonctionnement de Common Crawl et des valeurs qui guident notre travail ». Elle ajoute : « Nous ne contournons pas les « paywalls », ne nous connectons à aucun site web et n’utilisons aucune méthode visant à contourner les restrictions d’accès ».

Elle affirme avoir toujours eu une approche transparente en publiant le code de son crawling et en le documentant publiquement, en identifiant l’user agent « CCBot » de son bot de crawling, en respectant les robots.txt et en se conformant « aux demandes de retrait et de suppression qui nous sont envoyées de bonne foi ».

Dans l’article de The Atlantic, le responsable de Common Crawl, Rich Skrenta, avait été plus direct, répondant que les éditeurs faisaient une erreur en s’excluant d’eux-mêmes de la « recherche 2.0 ». Il ajoutait : « Vous n’auriez pas dû publier votre contenu sur Internet si vous ne vouliez pas qu’il figure sur Internet ».

Enjeu économique avec des contrats à la clé

Reste que la presse n’engage pas ces démarches pour bloquer entièrement tout accès à leurs articles payants aux entreprises d’IA générative. En effet, comme l’explique l’Alliance de la presse d’information générale il y a là « un enjeu économique majeur » autour d’accords financiers avec ces mêmes entreprises d’IA.

Le Monde et Prisa Media ont, par exemple, dès le début de l’année 2024, signé des contrats avec OpenAI. L’Alliance s’appuie d’ailleurs sur l’exemple des accords noués avec Google sur les droits voisins concernant son moteur de recherche.

Louis Dreyfus, président du directoire du journal, expliquait encore récemment à l’INA que son groupe de presse a « vocation à signer d’autres accords avec d’autres acteurs ». Si Le Monde a aussi signé un contrat avec Perplexity, le responsable du journal explique que celle-ci n’a pas la possibilité d’entrainer de LLM avec ses articles, contrairement à OpenAI.

  •  

La bataille des éditeurs de presse face à Common Crawl continue

Common or paywalled ?
La bataille des éditeurs de presse face à Common Crawl continue

Alors que Common Crawl fournit des téraoctets de données d’entrainement aux entreprises d’IA générative, l’organisation est accusée de récupérer des contenus placés derrière des paywalls. La presse, en France ou ailleurs, essaye de bloquer l’aspiration de ses contenus via des procédures judiciaires, mais la plupart des paywalls laissent des trous pour jouer le jeu de l’indexation dans les moteurs de recherche.

La base de données Common Crawl est sous le feu des critiques de la presse parce qu’elle fournit aux entreprises d’IA générative comme OpenAI, Google, Anthropic, Nvidia, Meta ou Amazon énormément de contenus pour l’entrainement de leurs modèles.

La plupart des grands modèles de langage s’appuient, depuis leurs origines, sur cette base de données. Celle-ci regroupe des téraoctets de textes moissonnés sur le web. Tous les mois, une nouvelle archive est publiée par Common Crawl, gérée par une structure à but non lucratif.

Ainsi, le lot d’octobre 2025 contient 2,6 milliards de pages web, correspondant à 126 téraoctets de données compressées. Si la légalité de ce genre de moissonnage pour la recherche ou pour l’indexation ne fait pas de doute, il y en a plus pour des projets commerciaux d’IA générative, notamment car leurs systèmes peuvent régurgiter les contenus qui sont sous copyright ou sous d’autres régimes de droit d’auteurs.

Des articles sous paywall dans Common Crawl ?

Ce lundi 4 novembre, The Atlantic a publié un article à propos de la base de donnée qui accuse la structure à but non lucratif d’avoir ouvert une porte dérobée (backdoor) pour les entreprises d’IA leur permettant d’entrainer leurs modèles sur les articles de presse sous paywall, et de mentir à ce sujet aux éditeurs de presse.

Notre confrère, Alex Reisner, estime que les archives de Commons Crawl contiennent « des millions d’articles provenant d’organismes de presse du monde entier, notamment The Economist, Los Angeles Times, The Wall Street Journal, The New York Times, The New Yorker, Harper’s et The Atlantic ».

En France, l’Alliance de la presse d’information générale (APIG) et le Syndicat des éditeurs de la presse magazine (SEPM) sont passés à la vitesse supérieure début septembre en mettant en demeure début septembre Common Crawl de retirer les sites de leurs membres de son archivage.

Retrait des articles de 81 éditeurs français

Un mois après, les deux lobbys de la presse ont obtenu le retrait des contenus de 81 éditeurs. Dans une interview au Journal du Net publiée début septembre, Léa Boccara, responsable du pôle juridique et des affaires publiques de l’Alliance, accusait aussi l’organisme à but non lucratif d’archiver des articles payants : « Nous sommes face à un crawling de masse d’articles et d’extraits d’articles, qui contourne les paywalls ». Elle rejoint ainsi les accusations lancées par The Atlantic.

On peut facilement imaginer, comme nos confrères états-uniens l’affirment, que Common Crawl ne se logue pas à chaque site d’information pour aspirer les contenus, mais qu’il contourne les paywalls. Et, en effet, de nombreux systèmes utilisés par la presse pour bloquer l’accès à leurs contenus se contentent de cacher avec du code javascript le texte des articles. Ainsi, alors qu’un navigateur ne l’affichera pas à l’utilisateur lambda d’un navigateur, un crawler peut facilement le récupérer.

Ajoutons qu’une bonne partie des éditeurs de presse savent que, derrière ce genre de « paywall », leurs contenus ne sont que vaguement protégés, ce qui permet de laisser les robots des moteurs de recherche classiques moissonner ces articles, et de mieux les valoriser dans leurs résultats.

Common Crawl réfute

Common Crawl a réagi à l’article de The Atlantic dans un billet publié le même jour. L’organisation réfute les accusations de mensonges envers les éditeurs de presse : « Cela donne une image fausse du fonctionnement de Common Crawl et des valeurs qui guident notre travail ». Elle ajoute : « Nous ne contournons pas les « paywalls », ne nous connectons à aucun site web et n’utilisons aucune méthode visant à contourner les restrictions d’accès ».

Elle affirme avoir toujours eu une approche transparente en publiant le code de son crawling et en le documentant publiquement, en identifiant l’user agent « CCBot » de son bot de crawling, en respectant les robots.txt et en se conformant « aux demandes de retrait et de suppression qui nous sont envoyées de bonne foi ».

Dans l’article de The Atlantic, le responsable de Common Crawl, Rich Skrenta, avait été plus direct, répondant que les éditeurs faisaient une erreur en s’excluant d’eux-mêmes de la « recherche 2.0 ». Il ajoutait : « Vous n’auriez pas dû publier votre contenu sur Internet si vous ne vouliez pas qu’il figure sur Internet ».

Enjeu économique avec des contrats à la clé

Reste que la presse n’engage pas ces démarches pour bloquer entièrement tout accès à leurs articles payants aux entreprises d’IA générative. En effet, comme l’explique l’Alliance de la presse d’information générale il y a là « un enjeu économique majeur » autour d’accords financiers avec ces mêmes entreprises d’IA.

Le Monde et Prisa Media ont, par exemple, dès le début de l’année 2024, signé des contrats avec OpenAI. L’Alliance s’appuie d’ailleurs sur l’exemple des accords noués avec Google sur les droits voisins concernant son moteur de recherche.

Louis Dreyfus, président du directoire du journal, expliquait encore récemment à l’INA que son groupe de presse a « vocation à signer d’autres accords avec d’autres acteurs ». Si Le Monde a aussi signé un contrat avec Perplexity, le responsable du journal explique que celle-ci n’a pas la possibilité d’entrainer de LLM avec ses articles, contrairement à OpenAI.

  •  

☕️ TikTok : enquête ouverte en France sur la mise en avant de contenus poussant au suicide

Le parquet de Paris a ouvert une enquête préliminaire sur le fonctionnement de l’algorithme de TikTok, a-t-il annoncé dans un communiqué envoyé à l’AFP.

Cette procédure judiciaire fait suite au signalement du député Arthur Delaporte, président de la commission d’enquête parlementaire « sur les effets psychologiques de TikTok sur les mineurs ». Annonçant la saisie de la procureure de la République de Paris, Laure Beccuau, il avait affirmé le 11 septembre dernier : « Le constat est sans appel : TikTok a délibérément mis en danger la santé, la vie de ses utilisateurs », ajoutant : « Il me semble qu’il y a des infractions qui sont de nature pénale, de complicité active ».

Accablant pour la plateforme chinoise, le rapport des députés proposait 43 recommandations, dont l’interdiction des réseaux sociaux aux moins de 15 ans ainsi qu’un couvre-feu numérique pour les 15 – 18.

TikTok

Selon l’AFP, l’enquête a été confiée à la brigade de lutte contre la cybercriminalité de la préfecture de police de Paris. Elle devra se pencher sur les soupçons de « propagande en faveur de produit, objet ou méthode préconisés comme moyens de se donner la mort », de « fourniture de plateforme en ligne pour permettre une transaction illicite en bande organisée » et d’« altération du fonctionnement d’un système de traitement automatisé de données en bande organisée ».

Selon la procureure, l’enquête concernera « le respect de l’obligation de notification par une plateforme des soupçons d’infractions commises par son intermédiaire », le « fonctionnement de l’algorithme par rapport à la présentation qui en est faite à son utilisateur » et « l’édition de contenus consistant notamment à la promotion du suicide ».

« Nous réfutons fermement les accusations », a réagi la plateforme dans un communiqué envoyé à l’agence de presse. Elle ajoute qu’elle a mis en place « plus de 50 fonctionnalités et paramètres prédéfinis spécialement conçus pour assurer la sécurité et le bien-être des adolescents ».

La question des pensées suicidaires concerne aussi bien les réseaux sociaux que les algorithmes des IA. Fin aout, OpenAI avait été poursuivi en justice après le suicide d’un adolescent. La société avait annoncée dans la foulée la mise en place d’un contrôle parental. Récemment, l’entreprise américaine annonçait que 0,15 % des utilisateurs ont des « conversations qui incluent des indicateurs explicites de planification ou d’intention suicidaire potentielle », soit 1,2 million de personnes tout de même.

  •  

☕️ TikTok : enquête ouverte en France sur la mise en avant de contenus poussant au suicide

Le parquet de Paris a ouvert une enquête préliminaire sur le fonctionnement de l’algorithme de TikTok, a-t-il annoncé dans un communiqué envoyé à l’AFP.

Cette procédure judiciaire fait suite au signalement du député Arthur Delaporte, président de la commission d’enquête parlementaire « sur les effets psychologiques de TikTok sur les mineurs ». Annonçant la saisie de la procureure de la République de Paris, Laure Beccuau, il avait affirmé le 11 septembre dernier : « Le constat est sans appel : TikTok a délibérément mis en danger la santé, la vie de ses utilisateurs », ajoutant : « Il me semble qu’il y a des infractions qui sont de nature pénale, de complicité active ».

Accablant pour la plateforme chinoise, le rapport des députés proposait 43 recommandations, dont l’interdiction des réseaux sociaux aux moins de 15 ans ainsi qu’un couvre-feu numérique pour les 15 – 18.

TikTok

Selon l’AFP, l’enquête a été confiée à la brigade de lutte contre la cybercriminalité de la préfecture de police de Paris. Elle devra se pencher sur les soupçons de « propagande en faveur de produit, objet ou méthode préconisés comme moyens de se donner la mort », de « fourniture de plateforme en ligne pour permettre une transaction illicite en bande organisée » et d’« altération du fonctionnement d’un système de traitement automatisé de données en bande organisée ».

Selon la procureure, l’enquête concernera « le respect de l’obligation de notification par une plateforme des soupçons d’infractions commises par son intermédiaire », le « fonctionnement de l’algorithme par rapport à la présentation qui en est faite à son utilisateur » et « l’édition de contenus consistant notamment à la promotion du suicide ».

« Nous réfutons fermement les accusations », a réagi la plateforme dans un communiqué envoyé à l’agence de presse. Elle ajoute qu’elle a mis en place « plus de 50 fonctionnalités et paramètres prédéfinis spécialement conçus pour assurer la sécurité et le bien-être des adolescents ».

La question des pensées suicidaires concerne aussi bien les réseaux sociaux que les algorithmes des IA. Fin aout, OpenAI avait été poursuivi en justice après le suicide d’un adolescent. La société avait annoncée dans la foulée la mise en place d’un contrôle parental. Récemment, l’entreprise américaine annonçait que 0,15 % des utilisateurs ont des « conversations qui incluent des indicateurs explicites de planification ou d’intention suicidaire potentielle », soit 1,2 million de personnes tout de même.

  •  

Submergée de prépublications générées par IA sur l’IA, arXiv va modérer plus strictement

Les IA parlent pseudoscientifiquement aux IA au sujet de l'IA
Submergée de prépublications générées par IA sur l’IA, arXiv va modérer plus strictement

La plateforme de preprints arXiv ne va plus accepter aucune prépublication d’articles de synthèse ou d’argumentaires sur l’IA. Elle explique ce changement par l’avalanche d’articles de ce genre générés par IA sur la plateforme.

Les articles générés par IA pullulent aussi dans la sphère scientifique. Certains chercheurs ne se gênent pas pour utiliser ChatGPT ou une autre IA générative pour éditer des articles à foison, se rendre visibles dans leur communauté et polluer les plateformes de prépublication d’articles (le terme anglais « preprint » est couramment utilisé dans le milieu) comme arXiv. D’autant que sur cette plateforme, après deux articles validés par leurs pairs, les chercheurs peuvent mettre en ligne leurs articles sans modération a priori.

Envahie par des preprints générés par IA

Résultat : la plateforme historique (arXiv existe depuis 1991) de la prépublication scientifique est submergée de preprints générés par IA, notamment sur l’intelligence artificielle. Sur son blog, l’équipe d’arXiv a publié un billet expliquant qu’ « au cours des dernières années, arXiv a été inondé d’articles. L’IA générative et les grands modèles linguistiques ont contribué à cette avalanche en facilitant et en accélérant la rédaction d’articles, en particulier ceux qui ne présentent pas de nouveaux résultats de recherche ».


Il reste 72% de l'article à découvrir.
Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

  •  

☕️ Les studios japonais demandent à OpenAI de ne plus utiliser leurs productions dans Sora

Le lobby japonais Content Overseas Distribution Association (CODA), représentant de nombreux studios d’éditeurs de dessins animés et de jeux vidéo, a envoyé une lettre lundi 27 octobre à OpenAI pour protester contre l’utilisation de nombreuses de leurs productions pour entrainer Sora 2, comme le rapporte Automaton.

« CODA a confirmé qu’une grande partie du contenu produit par Sora 2 ressemble fortement à du contenu ou à des images japonais. CODA a déterminé que cela résulte de l’utilisation de contenu japonais comme données d’apprentissage automatique. Dans les cas où, comme avec Sora 2, des œuvres spécifiques protégées par le droit d’auteur sont reproduites ou générées de manière similaire, CODA considère que l’acte de reproduction pendant le processus d’apprentissage automatique peut constituer une violation du copyright », explique le lobby.

le problème de l'IA générative avec les copyrights

Coda rassemble des studios de dessins animés comme Aniplex, Studio Ghibli, de jeux vidéo comme Bandai Namco et Square Enix, des maisons d’édition de mangas comme Shueisha ou encore le conglomérat Kadokawa.

OpenAI a mis en place un système d’opt-out permettant aux ayants droit de demander que Sora ne génère plus de contenus ressemblant à leurs contenus. Mais CODA affirme que « dans le cadre du système japonais du copyright, une autorisation préalable est généralement requise pour l’utilisation d’œuvres protégées par le copyright, et il n’existe aucun système permettant d’échapper à la responsabilité en cas de violation par le biais d’objections ultérieures ».

Depuis le lancement de Sora, OpenAI ne se cache pas d’utiliser les productions japonaises, allant jusqu’à utiliser le style du réalisateur anti-IA Miyazaki pour la promotion de ses modèles.

Le 10 octobre, Minoru Kiuchi, le ministre japonais chargé de la sécurité économique et de la propriété intellectuelle, expliquait avoir lui aussi demandé à OpenAI d’arrêter d’utiliser les productions japonaises sans le consentement des studios. Le député japonais Akihisa Shiozaki affirmait récemment que « l’IA est en train de dévorer la culture japonaise ».

  •  

☕️ Les studios japonais demandent à OpenAI de ne plus utiliser leurs productions dans Sora

Le lobby japonais Content Overseas Distribution Association (CODA), représentant de nombreux studios d’éditeurs de dessins animés et de jeux vidéo, a envoyé une lettre lundi 27 octobre à OpenAI pour protester contre l’utilisation de nombreuses de leurs productions pour entrainer Sora 2, comme le rapporte Automaton.

« CODA a confirmé qu’une grande partie du contenu produit par Sora 2 ressemble fortement à du contenu ou à des images japonais. CODA a déterminé que cela résulte de l’utilisation de contenu japonais comme données d’apprentissage automatique. Dans les cas où, comme avec Sora 2, des œuvres spécifiques protégées par le droit d’auteur sont reproduites ou générées de manière similaire, CODA considère que l’acte de reproduction pendant le processus d’apprentissage automatique peut constituer une violation du copyright », explique le lobby.

le problème de l'IA générative avec les copyrights

Coda rassemble des studios de dessins animés comme Aniplex, Studio Ghibli, de jeux vidéo comme Bandai Namco et Square Enix, des maisons d’édition de mangas comme Shueisha ou encore le conglomérat Kadokawa.

OpenAI a mis en place un système d’opt-out permettant aux ayants droit de demander que Sora ne génère plus de contenus ressemblant à leurs contenus. Mais CODA affirme que « dans le cadre du système japonais du copyright, une autorisation préalable est généralement requise pour l’utilisation d’œuvres protégées par le copyright, et il n’existe aucun système permettant d’échapper à la responsabilité en cas de violation par le biais d’objections ultérieures ».

Depuis le lancement de Sora, OpenAI ne se cache pas d’utiliser les productions japonaises, allant jusqu’à utiliser le style du réalisateur anti-IA Miyazaki pour la promotion de ses modèles.

Le 10 octobre, Minoru Kiuchi, le ministre japonais chargé de la sécurité économique et de la propriété intellectuelle, expliquait avoir lui aussi demandé à OpenAI d’arrêter d’utiliser les productions japonaises sans le consentement des studios. Le député japonais Akihisa Shiozaki affirmait récemment que « l’IA est en train de dévorer la culture japonaise ».

  •  

États-Unis : reconnaissances biométriques sans échappatoire pour les contrôles d’identité

ICEtagram
États-Unis : reconnaissances biométriques sans échappatoire pour les contrôles d’identité

L’ICE, la police de l’immigration états-unienne, utilise une application de reconnaissance faciale pour vérifier l’identité des personnes qu’elle contrôle dans la rue. Selon des documents du département de la Sécurité intérieure des États-Unis, il ne serait pas possible de refuser le scan de son visage.

Les agents de l’ICE, les services d’immigration étatsuniens, ont maintenant à leur disposition une application de reconnaissance faciale. Celle-ci leur permet de vérifier l’identité de personnes qu’ils arrêtent dans la rue sans qu’elles ne puissent refuser. Depuis des mois, plusieurs vidéos circulent sur les réseaux sociaux, montrant que les agents de l’ICE n’hésitent pas à s’en servir pour contrôler des jeunes en vélo, des personnes dans leur voiture ou à pied.

Cet été, 404 Media révélait que les agents de l’ICE pouvaient utiliser via leur smartphone une application dédiée : Mobile Fortify.

Celle-ci permet aux utilisateurs de vérifier l’« identité biométrique en temps réel grâce à la capture d’empreintes digitales sans contact et d’images faciales », deux fonctionnalités directement disponibles sur le smartphone fourni par l’ICE à ses agents, expliquait un email interne de l’ICE qu’ont pu obtenir nos confrères.

Mobile Fortify s’appuie sur la base de données de photos prises aux douanes des États-Unis par la CBP (Customs and Border Protection), l’autre agence de l’immigration états-unienne.

Impossible de refuser

Mais, selon des documents officiels du département de la Sécurité intérieure des États-Unis récemment obtenus par 404 Media, il serait impossible pour les personnes contrôlées de refuser la reconnaissance faciale effectuée par Mobile Fortify. L’agence a donné très peu d’informations sur cette application.

En septembre dernier, explique le Chicago Sun Times, neuf sénateurs démocrates ont écrit [PDF] au directeur de l’ICE pour avoir plus d’informations sur cette application qui « permettrait aux agents de pointer un smartphone vers le visage ou les empreintes digitales d’une personne et de l’identifier grâce à une comparaison biométrique avec plusieurs bases de données fédérales ». Le média de l’Illinois explique d’ailleurs qu’elle n’est qu’une partie d’« un arsenal croissant » d’outils biométriques de vérification d’identité et de statut, citant aussi la reconnaissance de l’iris, l’utilisation de lecteurs de plaques d’immatriculation et la comparaison des empreintes digitales dans les diverses bases de données de police et de services d’immigration.

Les documents obtenus par 404 Media confirment que Mobile Fortify utilise la base de données du « service de vérification des voyageurs » du CBP mais aussi d’autres bases de données pour chercher une correspondance avec le visage de la personne interpelée parmi 200 millions d’images.

Des données stockées pendant 15 ans

Selon l’un des documents, les données de n’importe quelle personne peuvent être collectées : « bien que l’application Mobile Fortify ait pour objectif d’identifier les étrangers susceptibles d’être expulsés des États-Unis, les utilisateurs peuvent l’utiliser pour collecter des informations identifiables sur des individus, indépendamment de leur citoyenneté ou de leur statut d’immigration. Il est concevable qu’une photo prise par un agent à l’aide de l’application mobile Mobile Fortify puisse être celle d’une personne autre qu’un étranger, y compris un citoyen américain ou un résident permanent légal ». D’ailleurs, comme le fait remarquer ArsTechnica, dans cette vidéo où l’agent de l’ICE demande de scanner le visage de la personne, celle-ci affirme être un citoyen américain et avoir déjà montré sa carte d’identité.

Les photos pourront ensuite être utilisées par le CBP pendant des années : « le CBP enregistre les nouvelles photographies et empreintes digitales, prises à l’aide de Mobile Fortify […] et les conserve pendant 15 ans ». Si l’application est censée servir en priorité aux agents de l’ICE, 404 Media note que les documents prévoient que les agents du CBP assignés à des tâches de l’ICE peuvent aussi l’utiliser. Et nos confrères soulignent que des dizaines de milliers d’agents ont été réassignés à l’ICE récemment.

« Les responsables de l’ICE nous ont dit qu’une correspondance biométrique apparente établie par Mobile Fortify constituait une détermination « définitive » du statut d’une personne et qu’un agent de l’ICE pouvait ignorer les preuves de citoyenneté américaine, y compris un certificat de naissance, si l’application indiquait que la personne était un étranger », explique l’élu démocrate à la Chambre des représentants, Bennie G. Thompson interrogé par Arstechnica. Selon lui, cette application est « dangereuse » et constitue une « attaque inconstitutionnelle contre les droits et libertés des Américains ».

« Nous aurions dû interdire l’utilisation de la reconnaissance faciale par le gouvernement lorsque nous en avions l’occasion, car elle est dangereuse, invasive et constitue une menace inhérente aux libertés civiles », s’est lamenté Matthew Guariglia de l’Electronic Frontier Foundation auprès de 404 Media.

  •  

États-Unis : reconnaissances biométriques sans échappatoire pour les contrôles d’identité

ICEtagram
États-Unis : reconnaissances biométriques sans échappatoire pour les contrôles d’identité

L’ICE, la police de l’immigration états-unienne, utilise une application de reconnaissance faciale pour vérifier l’identité des personnes qu’elle contrôle dans la rue. Selon des documents du département de la Sécurité intérieure des États-Unis, il ne serait pas possible de refuser le scan de son visage.

Les agents de l’ICE, les services d’immigration étatsuniens, ont maintenant à leur disposition une application de reconnaissance faciale. Celle-ci leur permet de vérifier l’identité de personnes qu’ils arrêtent dans la rue sans qu’elles ne puissent refuser. Depuis des mois, plusieurs vidéos circulent sur les réseaux sociaux, montrant que les agents de l’ICE n’hésitent pas à s’en servir pour contrôler des jeunes en vélo, des personnes dans leur voiture ou à pied.

Cet été, 404 Media révélait que les agents de l’ICE pouvaient utiliser via leur smartphone une application dédiée : Mobile Fortify.

Celle-ci permet aux utilisateurs de vérifier l’« identité biométrique en temps réel grâce à la capture d’empreintes digitales sans contact et d’images faciales », deux fonctionnalités directement disponibles sur le smartphone fourni par l’ICE à ses agents, expliquait un email interne de l’ICE qu’ont pu obtenir nos confrères.

Mobile Fortify s’appuie sur la base de données de photos prises aux douanes des États-Unis par la CBP (Customs and Border Protection), l’autre agence de l’immigration états-unienne.

Impossible de refuser

Mais, selon des documents officiels du département de la Sécurité intérieure des États-Unis récemment obtenus par 404 Media, il serait impossible pour les personnes contrôlées de refuser la reconnaissance faciale effectuée par Mobile Fortify. L’agence a donné très peu d’informations sur cette application.

En septembre dernier, explique le Chicago Sun Times, neuf sénateurs démocrates ont écrit [PDF] au directeur de l’ICE pour avoir plus d’informations sur cette application qui « permettrait aux agents de pointer un smartphone vers le visage ou les empreintes digitales d’une personne et de l’identifier grâce à une comparaison biométrique avec plusieurs bases de données fédérales ». Le média de l’Illinois explique d’ailleurs qu’elle n’est qu’une partie d’« un arsenal croissant » d’outils biométriques de vérification d’identité et de statut, citant aussi la reconnaissance de l’iris, l’utilisation de lecteurs de plaques d’immatriculation et la comparaison des empreintes digitales dans les diverses bases de données de police et de services d’immigration.

Les documents obtenus par 404 Media confirment que Mobile Fortify utilise la base de données du « service de vérification des voyageurs » du CBP mais aussi d’autres bases de données pour chercher une correspondance avec le visage de la personne interpelée parmi 200 millions d’images.

Des données stockées pendant 15 ans

Selon l’un des documents, les données de n’importe quelle personne peuvent être collectées : « bien que l’application Mobile Fortify ait pour objectif d’identifier les étrangers susceptibles d’être expulsés des États-Unis, les utilisateurs peuvent l’utiliser pour collecter des informations identifiables sur des individus, indépendamment de leur citoyenneté ou de leur statut d’immigration. Il est concevable qu’une photo prise par un agent à l’aide de l’application mobile Mobile Fortify puisse être celle d’une personne autre qu’un étranger, y compris un citoyen américain ou un résident permanent légal ». D’ailleurs, comme le fait remarquer ArsTechnica, dans cette vidéo où l’agent de l’ICE demande de scanner le visage de la personne, celle-ci affirme être un citoyen américain et avoir déjà montré sa carte d’identité.

Les photos pourront ensuite être utilisées par le CBP pendant des années : « le CBP enregistre les nouvelles photographies et empreintes digitales, prises à l’aide de Mobile Fortify […] et les conserve pendant 15 ans ». Si l’application est censée servir en priorité aux agents de l’ICE, 404 Media note que les documents prévoient que les agents du CBP assignés à des tâches de l’ICE peuvent aussi l’utiliser. Et nos confrères soulignent que des dizaines de milliers d’agents ont été réassignés à l’ICE récemment.

« Les responsables de l’ICE nous ont dit qu’une correspondance biométrique apparente établie par Mobile Fortify constituait une détermination « définitive » du statut d’une personne et qu’un agent de l’ICE pouvait ignorer les preuves de citoyenneté américaine, y compris un certificat de naissance, si l’application indiquait que la personne était un étranger », explique l’élu démocrate à la Chambre des représentants, Bennie G. Thompson interrogé par Arstechnica. Selon lui, cette application est « dangereuse » et constitue une « attaque inconstitutionnelle contre les droits et libertés des Américains ».

« Nous aurions dû interdire l’utilisation de la reconnaissance faciale par le gouvernement lorsque nous en avions l’occasion, car elle est dangereuse, invasive et constitue une menace inhérente aux libertés civiles », s’est lamenté Matthew Guariglia de l’Electronic Frontier Foundation auprès de 404 Media.

  •  

☕️ Bluesky : 40 millions d’utilisateurs et un bouton « je n’aime pas » en test

Vendredi 31 octobre, Bluesky a annoncé avoir atteint la barre des 40 millions d’utilisateurs. Le réseau social dirigé par Jay Graber a multiplié par 2,5 son volume d’usagers depuis la mi-novembre 2024. À l’époque, le réseau était notamment porté par l’interdiction de X au Brésil et la réaction d’électeurs démocrates face à la victoire de Donald Trump lors des élections présidentielles aux États-Unis et le soutien d’Elon Musk, patron de X.

Logo de Bluesky

Le réseau semble vouloir drainer un public plus large encore. Dans un billet de blog publié le même jour, Bluesky affirme vouloir « des échanges amusants, authentiques et respectueux qui permettent de nouer des amitiés, et nous prenons des mesures pour y parvenir », alors que le réseau a essuyé récemment des critiques à propos de sa non-modération et de sa prise à la légère de propos anti trans.

Bluesky annonce dans ce billet qu’il va tester un bouton « dislike » (je n’aime pas) qui doit « aider le système à comprendre quels types de publications vous préférez voir moins souvent ». Beaucoup de réseaux sociaux ont déjà testé ce genre de fonctionnalités. Si l’option « je n’aime pas » peut être utilisée contre le harcèlement, on a pu voir sur YouTube des harceleurs la détourner en faisant du « dislike bombing », poussant la plateforme à cacher le nombre de pouces baissés à ses utilisateurs.

Dans ce nouveau système, Bluesky assure que les dislikes doivent « aider système à comprendre les types de publications que vous préférez voir moins souvent ». « Ils peuvent également influencer légèrement le classement des réponses, réduisant ainsi la visibilité des réponses de mauvaise qualité », explique encore la plateforme. « Les mentions « dislike » sont privées et leur signal n’est pas global : elles affectent principalement votre propre expérience et, dans une certaine mesure, celle des autres membres de votre réseau social », précise-t-elle.

  •