Vue normale

Reçu — 23 décembre 2025 Actualités numériques

☕️ Le cofondateur de Mistral a participé à l’entrainement du modèle Llama de Meta sur LibGen

23 décembre 2025 à 12:55

Médiapart souligne, dans un article publié ce lundi 22 décembre, la participation de Guillaume Lample, cofondateur de Mistral AI, dans l’utilisation de la librairie clandestine Libgen pour entrainer les modèles de Meta en 2022.

En janvier dernier, à l’occasion du procès opposant notamment l’auteur de science-fiction Richard Kadrey à Meta, des documents internes à l’entreprise confirmaient les soupçons de l’utilisation des livres stockés par Libgen pour entrainer les modèles Llama de Meta. Certains montraient d’ailleurs que le CEO Mark Zuckerberg avait donné son accord.

des nuages de données s'échappent des cheminées de petites maisons dessinées en rang d'oignon

L’enquête de Médiapart s’appuie sur des documents sortis un peu plus tard lors du procès. Ceux-ci montrent que Guillaume Lample, alors employé chez Meta, a participé activement aux discussions pour pousser les chercheurs de l’entreprise à utiliser allègrement la bibliothèque clandestine comme source d’entrainement pour les modèles. Alors que l’utilisation de LibGen ne fait pas consensus, Guillaume Lample aurait affirmé que « tout le monde utilise LibGen ».

Dans une autre conversation, une autre salariée lui a demandé si le service légal de Meta avait confirmé la possibilité d’utiliser les archives de LibGen ou si « on n’est pas juste en train d’essayer de ne pas trop poser de question ». Guillaume Lample répond qu’il n’a pas posé de question et que « c’est ce qu’OpenAI fait avec GPT3, ce que Google fait avec Palm, ce que DeepMind fait avec Chinchilla, donc on va le faire aussi ».

Guillaume Lample est maintenant responsable scientifique de Mistral AI, après avoir co-fondé l’entreprise d’IA générative française. Mistral AI, Meta et Guillaume Lample n’ont pas répondu aux diverses relances de Médiapart.

☕️ Le cofondateur de Mistral a participé à l’entrainement du modèle Llama de Meta sur LibGen

23 décembre 2025 à 12:55

Médiapart souligne, dans un article publié ce lundi 22 décembre, la participation de Guillaume Lample, cofondateur de Mistral AI, dans l’utilisation de la librairie clandestine Libgen pour entrainer les modèles de Meta en 2022.

En janvier dernier, à l’occasion du procès opposant notamment l’auteur de science-fiction Richard Kadrey à Meta, des documents internes à l’entreprise confirmaient les soupçons de l’utilisation des livres stockés par Libgen pour entrainer les modèles Llama de Meta. Certains montraient d’ailleurs que le CEO Mark Zuckerberg avait donné son accord.

des nuages de données s'échappent des cheminées de petites maisons dessinées en rang d'oignon

L’enquête de Médiapart s’appuie sur des documents sortis un peu plus tard lors du procès. Ceux-ci montrent que Guillaume Lample, alors employé chez Meta, a participé activement aux discussions pour pousser les chercheurs de l’entreprise à utiliser allègrement la bibliothèque clandestine comme source d’entrainement pour les modèles. Alors que l’utilisation de LibGen ne fait pas consensus, Guillaume Lample aurait affirmé que « tout le monde utilise LibGen ».

Dans une autre conversation, une autre salariée lui a demandé si le service légal de Meta avait confirmé la possibilité d’utiliser les archives de LibGen ou si « on n’est pas juste en train d’essayer de ne pas trop poser de question ». Guillaume Lample répond qu’il n’a pas posé de question et que « c’est ce qu’OpenAI fait avec GPT3, ce que Google fait avec Palm, ce que DeepMind fait avec Chinchilla, donc on va le faire aussi ».

Guillaume Lample est maintenant responsable scientifique de Mistral AI, après avoir co-fondé l’entreprise d’IA générative française. Mistral AI, Meta et Guillaume Lample n’ont pas répondu aux diverses relances de Médiapart.

Anna’s Archive revendique la récupération de 300 To de musique de Spotify

23 décembre 2025 à 10:30
Retour au torrent ?
Anna’s Archive revendique la récupération de 300 To de musique de Spotify

La bibliothèque clandestine Anna’s Archive affirme avoir « sauvegardé Spotify (métadonnées et fichiers musicaux) ». Près de 300 To de musique téléchargés au nez et à la barbe de la plateforme de streaming qui explique avoir mis en place « de nouvelles mesures de protection contre ce type d’attaques anti-copyright ».

La bibliothèque clandestine Anna’s Archive semble vouloir aller au-delà de la distribution pirate de livres numériques. Dans un billet de blog publié ce week-end, elle revendique avoir téléchargé environ 300 To de données de musique sur la plateforme de streaming Spotify. Mais plus qu’un téléchargement massif, elle explique vouloir distribuer les fichiers musicaux en torrent dans des archives regroupant les morceaux en fonction de leur popularité.

« Cette version comprend la plus grande base de données de métadonnées musicales accessible au public, avec 256 millions de titres et 186 millions d’ISRC [International Standard Recording Code, système de standardisation d’identifiants d’enregistrement] uniques », revendique la bibliothèque clandestine.

De fait, les responsables d’Anna’s Archive n’ont pas récupéré l’entièreté des musiques de Spotify, comme pourrait le laisser entendre une lecture rapide. « Seulement » 37 % du répertoire de la plateforme de streaming ont été téléchargés, mais « il s’agit de la première « archive de préservation » au monde pour la musique qui soit entièrement ouverte (ce qui signifie qu’elle peut être facilement reproduite par toute personne disposant d’un espace disque suffisant), avec 86 millions de fichiers musicaux, représentant environ 99,6 % des écoutes » sur Spotify, assurent les responsables d’Anna’s Archive.

Ce sont essentiellement des morceaux de musique qui sont concernés : si le billet d’Anna’s Archive évoque incidemment la récupération de métadonnées concernant les podcasts, la bibliothèque clandestine semble ne pas avoir téléchargé ce genre de médias.

Des « extrémistes anti-copyright » pour Spotify

Sans confirmer la taille de la fuite, Spotify explique avoir identifié un téléchargement de plusieurs fichiers audio sur sa plateforme : « Une enquête sur un accès non autorisé a révélé qu’un tiers avait récupéré des métadonnées publiques et utilisé des tactiques illicites pour contourner le DRM afin d’accéder à certains fichiers audio de la plateforme. Nous menons actuellement une enquête approfondie sur cet incident », a-t-elle expliqué à Musically, qualifiant les responsables d’Anna’s Archive d’ « extrémistes anti-copyright qui ont déjà piraté du contenu sur YouTube et d’autres plateformes ».

« Spotify a identifié et désactivé les comptes d’utilisateurs malveillants qui se livraient à des activités illégales de scraping. Nous avons mis en place de nouvelles mesures de protection contre ce type d’attaques anti-copyright et surveillons activement tout comportement suspect », détaille la plateforme.

Elle assure également aux artistes et à l’industrie musicale avoir toujours soutenu « la communauté artistique dans sa lutte contre le piratage et [travailler] avec [ses] partenaires industriels pour protéger les créateurs et défendre leurs droits ». Spotify devra en effet mettre les bouchées doubles après cette fuite de données pour garder les artistes et les producteurs dans son giron.

La plateforme fait aussi régulièrement face à des annonces de boycott de la part d’artistes comme Deerhoof ou Massive Attack visant notamment les investissements du fondateur et CEO de Spotify, Daniel Ek, dans l’intelligence artificielle de défense. 20 ans après la création de la plateforme, celui-ci va, rappelons-le, lâcher la main sur l’opérationnel de la plateforme tout en restant président exécutif.

Une aubaine pour l’industrie de l’IA générative ?

L’arrivée massive de l’IA pour générer des musiques a attiré certains internautes mais aussi attisé les tensions dans le secteur. Justement, cette fuite pourrait être une aubaine pour l’industrie de l’IA générative. Celle-ci, qui n’a jamais vraiment hésité à entrainer ses modèles sur des archives pirates, pourrait profiter des fichiers torrent pour améliorer la génération de musique.

Le projet Anna’s Archive met déjà en avant l’intérêt de ses collections de données pour l’amélioration des modèles de langage : « Il est bien connu que les grands modèles de langage (LLM) fonctionnent mieux avec des données de haute qualité. Nous disposons de la plus grande collection au monde de livres, d’articles, de magazines, etc., qui constituent certaines des sources textuelles de la plus haute qualité », explique une page. « Nous sommes en mesure de fournir un accès haut débit à l’intégralité de nos collections, ainsi qu’à des collections inédites », ajoutent les responsables.

Comme l’a remarqué ArsTechnica, certains fans d’Anna’s Archive ne sont pas à l’aise avec le nouveau fait d’armes de la bibliothèque clandestine. « C’est dingue. Je ne savais absolument pas que le DRM de Spotify avait été piraté pour permettre des téléchargements à une telle échelle », réagit l’un d’entre eux sur Hacker News. « Je me demande vraiment si cela répondait à une demande des chercheurs/entreprises spécialisés dans l’IA qui souhaitaient disposer de ces données. Ou si les grandes maisons de disques accordent déjà des licences pour l’ensemble de leurs catalogues à des fins de formation à un prix suffisamment bas, de sorte que cela relève uniquement d’un effort de préservation ? », ajoute-t-il.

Anna’s Archive revendique la récupération de 300 To de musique de Spotify

23 décembre 2025 à 10:30
Retour au torrent ?
Anna’s Archive revendique la récupération de 300 To de musique de Spotify

La bibliothèque clandestine Anna’s Archive affirme avoir « sauvegardé Spotify (métadonnées et fichiers musicaux) ». Près de 300 To de musique téléchargés au nez et à la barbe de la plateforme de streaming qui explique avoir mis en place « de nouvelles mesures de protection contre ce type d’attaques anti-copyright ».

La bibliothèque clandestine Anna’s Archive semble vouloir aller au-delà de la distribution pirate de livres numériques. Dans un billet de blog publié ce week-end, elle revendique avoir téléchargé environ 300 To de données de musique sur la plateforme de streaming Spotify. Mais plus qu’un téléchargement massif, elle explique vouloir distribuer les fichiers musicaux en torrent dans des archives regroupant les morceaux en fonction de leur popularité.

« Cette version comprend la plus grande base de données de métadonnées musicales accessible au public, avec 256 millions de titres et 186 millions d’ISRC [International Standard Recording Code, système de standardisation d’identifiants d’enregistrement] uniques », revendique la bibliothèque clandestine.

De fait, les responsables d’Anna’s Archive n’ont pas récupéré l’entièreté des musiques de Spotify, comme pourrait le laisser entendre une lecture rapide. « Seulement » 37 % du répertoire de la plateforme de streaming ont été téléchargés, mais « il s’agit de la première « archive de préservation » au monde pour la musique qui soit entièrement ouverte (ce qui signifie qu’elle peut être facilement reproduite par toute personne disposant d’un espace disque suffisant), avec 86 millions de fichiers musicaux, représentant environ 99,6 % des écoutes » sur Spotify, assurent les responsables d’Anna’s Archive.

Ce sont essentiellement des morceaux de musique qui sont concernés : si le billet d’Anna’s Archive évoque incidemment la récupération de métadonnées concernant les podcasts, la bibliothèque clandestine semble ne pas avoir téléchargé ce genre de médias.

Des « extrémistes anti-copyright » pour Spotify

Sans confirmer la taille de la fuite, Spotify explique avoir identifié un téléchargement de plusieurs fichiers audio sur sa plateforme : « Une enquête sur un accès non autorisé a révélé qu’un tiers avait récupéré des métadonnées publiques et utilisé des tactiques illicites pour contourner le DRM afin d’accéder à certains fichiers audio de la plateforme. Nous menons actuellement une enquête approfondie sur cet incident », a-t-elle expliqué à Musically, qualifiant les responsables d’Anna’s Archive d’ « extrémistes anti-copyright qui ont déjà piraté du contenu sur YouTube et d’autres plateformes ».

« Spotify a identifié et désactivé les comptes d’utilisateurs malveillants qui se livraient à des activités illégales de scraping. Nous avons mis en place de nouvelles mesures de protection contre ce type d’attaques anti-copyright et surveillons activement tout comportement suspect », détaille la plateforme.

Elle assure également aux artistes et à l’industrie musicale avoir toujours soutenu « la communauté artistique dans sa lutte contre le piratage et [travailler] avec [ses] partenaires industriels pour protéger les créateurs et défendre leurs droits ». Spotify devra en effet mettre les bouchées doubles après cette fuite de données pour garder les artistes et les producteurs dans son giron.

La plateforme fait aussi régulièrement face à des annonces de boycott de la part d’artistes comme Deerhoof ou Massive Attack visant notamment les investissements du fondateur et CEO de Spotify, Daniel Ek, dans l’intelligence artificielle de défense. 20 ans après la création de la plateforme, celui-ci va, rappelons-le, lâcher la main sur l’opérationnel de la plateforme tout en restant président exécutif.

Une aubaine pour l’industrie de l’IA générative ?

L’arrivée massive de l’IA pour générer des musiques a attiré certains internautes mais aussi attisé les tensions dans le secteur. Justement, cette fuite pourrait être une aubaine pour l’industrie de l’IA générative. Celle-ci, qui n’a jamais vraiment hésité à entrainer ses modèles sur des archives pirates, pourrait profiter des fichiers torrent pour améliorer la génération de musique.

Le projet Anna’s Archive met déjà en avant l’intérêt de ses collections de données pour l’amélioration des modèles de langage : « Il est bien connu que les grands modèles de langage (LLM) fonctionnent mieux avec des données de haute qualité. Nous disposons de la plus grande collection au monde de livres, d’articles, de magazines, etc., qui constituent certaines des sources textuelles de la plus haute qualité », explique une page. « Nous sommes en mesure de fournir un accès haut débit à l’intégralité de nos collections, ainsi qu’à des collections inédites », ajoutent les responsables.

Comme l’a remarqué ArsTechnica, certains fans d’Anna’s Archive ne sont pas à l’aise avec le nouveau fait d’armes de la bibliothèque clandestine. « C’est dingue. Je ne savais absolument pas que le DRM de Spotify avait été piraté pour permettre des téléchargements à une telle échelle », réagit l’un d’entre eux sur Hacker News. « Je me demande vraiment si cela répondait à une demande des chercheurs/entreprises spécialisés dans l’IA qui souhaitaient disposer de ces données. Ou si les grandes maisons de disques accordent déjà des licences pour l’ensemble de leurs catalogues à des fins de formation à un prix suffisamment bas, de sorte que cela relève uniquement d’un effort de préservation ? », ajoute-t-il.

❌