Vue lecture

IA générative et open source : les services du gouvernement proposent leur grille de lecture

IA ouvre toi... mais pas trop
IA générative et open source : les services du gouvernement proposent leur grille de lecture

Alors que l’Open Source Initiative (OSI) a publié sa définition de l’IA open source, les services du gouvernement français publient un comparateur d’ouverture de ce genre de modèles pour aider à s’y retrouver et à choisir son modèle en fonction des différents critères d’ouverture.

L’Open Source Initiative (OSI) a récemment proposé sa version 1.0 de ce qu’est une IA open source. Elle reprend notamment quatre « libertés » inspirées de celles définies par la Free Software Foundation concernant le logiciel libre :

  • Utiliser le système à n’importe quelle fin et sans avoir à demander la permission ;
  • Étudier le fonctionnement du système et inspecter ses composants ;
  • Modifier le système dans n’importe quel but, y compris pour en changer les résultats ;
  • Partager le système pour que d’autres puissent l’utiliser, avec ou sans modifications, dans n’importe quel but.

Si cette définition permet une utilisation très large du modèle, elles ne sont pas toutes nécessaires à chaque projet. Certains peuvent même vouloir par eux-mêmes des restrictions. Les discussions politiques autour de ce terme sont actuellement assez vives en coulisse, alors que les textes juridiques comme l’AI Act s’y intéressent.

Le Pôle d’Expertise de la Régulation Numérique (PEReN) du gouvernement français explique, par exemple, que « [sa] philosophie [le] conduit en général à privilégier les modèles les plus ouverts, mais dont les conditions d’utilisation ne permettent pas les usages non éthiques ».

Un tableau comparatif, évolutif et coopératif

Ce service du gouvernement propose depuis mardi un comparateur de différents modèles selon les critères d’ouverture (14 modèles de générateurs de textes, 6 modèles de générateurs d’images). Quatre grandes catégories sont disponibles et on peut choisir, par exemple, si on veut (oui, non ou sans préférence) que la licence du modèle permette la redistribution, les usages commerciaux, tous les usages ou limite explicitement certains usages non-éthiques.

Le même tableau propose de filtrer selon l’accessibilité des poids, des données ou de la documentation. Le PEReN a aussi introduit dans son tableau les critères de disponibilité du code d’entrainement sous licence compatible OSI, la transparence sur l’infrastructure et le coût de l’entrainement, les articles scientifiques et ou les rapports techniques associés au modèle.

Cet outil permet à un potentiel utilisateur de choisir son modèle, mais aussi de voir que les critères d’ouverture sont multiples.

Par exemple, en un clin d’œil, il peut voir que la licence d’utilisation d’un modèle comme BLOOM, le seul du tableau dont les données sont accessibles publiquement, n’autorise pas tous les usages. À l’inverse, Mistral, pour l’utilisation de son modèle NeMo, permet de faire tout et n’importe quoi avec, mais ne fournit pas de documentation complète sur l’origine de ses données d’entrainement.

Un modèle comme Claire-7B, créé par Linagora, utilise la licence Creative Commons By-NC-SA et ne peut être utilisé à des fins commerciaux.

Le service du gouvernement français permet à tout un chacun de réutiliser « librement » cette page comme source et encourage à le contacter pour ajouter des références ou des corrections. Le tableau « se veut collaboratif et dynamique et sera amené à évoluer ».

Une attention à avoir sur la gouvernance

Le PEReN diffuse aussi un document d’éclairage sur l’Open source et l’IA [PDF]. Daté d’avril 2024 (donc avant la publication de la version 1.0 de la définition de l’OSI), il aborde les synergies possibles, du point de vue de ce service, entre open source et IA.

Il aborde notamment la diversité des gouvernances possibles dans cet écosystème et pointe les difficultés. Il prend appui sur l’exemple du système d’exploitation open source Android (via AOSP), « emblématique selon Google de l’open source » mais qui « est de facto sous le contrôle de cette entreprise, qui a pu s’assurer la maîtrise complète de l’écosystème, au point d’avoir été sanctionnée pour pratiques anticoncurrentielles par la Commission Européenne ».

« La qualité d’open source n’apparaissant pas suffisante pour prémunir de dérives, il semble nécessaire de rester particulièrement vigilant à la forme de gouvernance qui peut sous-tendre les projets open source dans le domaine de l’IAG », ajoute le PEReN.

☕️ Automattic est à court d’employés

Automattic est à court d’employés

En octobre, Matt Mullenweg a proposé deux offres de départ aux salariés de son entreprise Automattic, dans le cadre du conflit juridique et commercial qu’il a engendré contre son concurrent WP Engine, qualifiant celui-ci de « cancer de WordPress ». Lors d’une conférence organisée par TechCrunch ce mercredi, le co-créateur du logiciel WordPress a avoué que son entreprise était maintenant « très en manque de personnel ».

Matt Mullenweg n’a pas révélé le nombre de départs lors de la seconde offre. Néanmoins, il avait annoncé que 159 salariés avaient sauté sur l’occasion de la première. Il a confirmé lors de cette conférence que son entreprise était passée d’environ 1 900 salariés à environ 1 700 depuis le début de ce conflit ouvert, tout en embauchant 26 personnes.

Cette déclaration d’un manque de personnel vient confirmer que les deux offres visaient à trouver les sources internes des informations sur ce qu’il se passait au sein d’Automattic pendant le conflit. Lors de l’annonce de la seconde offre, Matt Mullenweg avait affirmé avoir « les moyens d’identifier les sources des fuites » et que la proposition était une « opportunité de se retirer de façon élégante ».

Au cours de cette conférence, en réponse à une question sur la création d’un éventuel fork de WordPress suite à l’ouverture de ce conflit, le co-créateur du logiciel a encouragé l’idée : « je pense que ce serait fantastique pour que les gens puissent avoir une autre gouvernance ou une autre approche ». Matt Mullenweg a affirmé que le logiciel avait déjà été « forké » plusieurs fois et a ajouté que « c’est l’une des grandes qualités de l’open source : un fork peut être créé ».

☕️ Visa va supprimer 1 400 emplois

Selon le Wall Street Journal, l’entreprise de gestion de paiement planifie de restructurer ses activités internationales et de supprimer 1 400 postes (employés ou sous-traitants) avant la fin de l’année.

Licenciement

Les salariés ont appris la nouvelle la semaine dernière via une annonce interne. Plus d’un tiers des postes (environ 1 000) devraient concerner des emplois du secteur technologique, le reste devrait être réparti sur le service commercial et celui des partenariats numériques internationaux. Les licenciements ont déjà commencé la semaine dernière.

Le journal américain rappelle que Visa a plus de 30 000 employés dans le monde.

Interrogé par le Wall Street Journal, Visa a déclaré qu’elle évoluait en permanence pour servir au mieux ses clients et soutenir sa croissance, « ce qui peut entraîner la suppression de certaines fonctions ». Elle affirme s’attendre à embaucher davantage les prochaines années.

SynthID, le système de Google pour marquer au fer rouge les contenus générés par des IA

Synthetic quality certified
SynthID, le système de Google pour marquer au fer rouge les contenus générés par des IA

Depuis un an, les entreprises d’IA générative promettent d’ajouter des filigranes à leurs contenus. Google propose désormais son système nommé SynthID. Les chercheurs de Google DeepMind ont notamment décrit dans un article dans la revue Nature et publié sous licence libre la partie concernant les textes générés automatiquement.

Dans les divers problèmes liés aux contenus générés par l’IA, le fait de pouvoir les différencier de ceux créés autrement a été rapidement repéré comme le nez au milieu d’un visage. Les détecteurs d’IA générative sont pointés du doigt pour leurs faux positifs, ce qui engendre des tensions entre étudiants et enseignants.

Depuis l’avènement dans l’espace public de ces systèmes, l’ajout à ces contenus de filigranes est régulièrement évoqué pour qu’une sorte de tampon « made by AI » leur soit clairement assigné. OpenAI, Alphabet, Meta, Anthropic, Inflection, Amazon et Microsoft ont d’ailleurs promis à la Maison-Blanche l’an dernier de mettre en place ce système. En Europe, l’AI Act exige que cette disposition soit mise en place à partir du 2 aout 2026.

En aout, on apprenait qu’OpenAI avait mis en place un système permettant de tatouer les textes générés par ses IA. Mais l’entreprise hésitait à le mettre en place. En effet, cette technologie serait « efficace à 99,9 % », mais elle serait aussi relativement simple à supprimer.

Google vient, elle, de sauter le pas avec son système nommé « SynthID » développé par sa filiale DeepMind. L’entreprise indique que cet outil embarque « des filigranes numériques directement dans les images, le son, le texte ou la vidéo générés par l’IA ».

Bien sûr, le système de tatouage des divers contenus est différent selon le média. Il n’est pas possible, par exemple, d’utiliser un système de tatouage graphique pour identifier un texte. Et, à moins de trouver un très bon filigrane universel, le risque est d’harmoniser vers le bas l’utilisation de ces marques pour tous les types de médias.

Google a donc mis au point différents systèmes de filigranes dont elle présente des exemples.

Un outil libre de filigranes pour la génération de textes

Pour son système dédié aux filigranes de textes générés par IA, Google DeepMind a publié le travail de ses 24 chercheurs dans la revue scientifique Nature la semaine dernière. L’idée est de créer une « signature statistique » dans le texte généré en modifiant légèrement la procédure de génération de chaque « prochain jeton ». Cette modification ne dépend pas d’une simple variable statique, mais se fait en fonction du contexte de génération.

« L’un des principaux avantages de cette approche est que le processus de détection ne nécessite pas la réalisation d’opérations coûteuses en termes de calcul, ni même l’accès au LLM sous-jacent (qui est souvent propriétaire) », expliquent-ils.

La détection se fait avec un outil probabiliste qui prend en entrée le texte à vérifier et une clé de filigrane spécifique.

L’entreprise a publié sur GitHub sous licence libre (Apache 2.0) cet outil et propose une documentation détaillée pour les développeurs d’IA génératives qui voudraient l’utiliser. Dans celle-ci , elle explique que SynthID Text propose plusieurs options pour la vérification : full-private qui « ne libère ni n’expose le détecteur d’aucune manière », semi-private qui « ne libère pas le détecteur, mais expose via une API » et public qui « permet de libérer le détecteur pour que d’autres utilisateurs puissent le télécharger et l’utiliser ».

Elle assure que « les filigranes de texte SynthID résistent à certaines transformations, c’est-à-dire les recadrages de texte, en modifiant quelques mots ou en paraphrasant légèrement ». Mais Google admet que sa méthode, comme celle d’OpenAI, a des limites qui permettent de facilement contourner son système :

  • « L’application de filigranes est moins efficace sur les réponses factuelles, car il y a moins de possibilités d’augmenter la génération sans réduire la précision.
  • Les scores de confiance du détecteur peuvent être considérablement réduits lorsqu’un texte généré par IA est entièrement réécrit ou traduit dans une autre langue ».

Google se garde l’exclusivité de ses outils de filigrane d’audio et d’images

Toutefois, concernant les filigranes d’audio, d’images et de vidéos, l’entreprise se contente de présenter succinctement des exemples d’utilisation qui, bien évidemment, ne montrent aucune différence entre le contenu sans filigrane et avec. Mais l’entreprise ne communique ni sur le fonctionnement des systèmes mis en place ni sur leurs limites.

Elle ajoute que ces filigranes sont disponibles pour les clients de Vertex AI qui utilisent les modèles de conversion de texte en image Imagen (version 2 et 3), pour les utilisateurs de son outil de génération d’images ImageFX et pour les quelques créateurs qui ont accès à son modèle de génération de vidéos Veo.

☕️ OpenAI travaille avec Broadcom et TSMC pour créer sa propre puce d’ici 2026

logo OpenAI dans l'obscurité
Mojahid Mottakin – Unsplash

Selon l’agence de presse Reuters, OpenAI cherche à minimiser le coût des puces dont elle a besoin pour développer ses systèmes d’intelligence artificielle générative.

Après avoir imaginé des plans ambitieux pour devenir son propre fondeur, l’entreprise les aurait abandonnés pour leur coût trop élevé et un temps de développement trop long. Elle se serait alors rapprochée de Broadcom et de TSMC. Elle se rabattrait donc plutôt sur un design maison de ses puces.

OpenAI cherche aussi à diversifier son approvisionnement actuel en GPU et devrait plus se tourner vers les puces MI300X d’AMD.

Comme le rappelle Reuters, l’entrainement des modèles d’IA générative sur ces puces est particulièrement coûteux. OpenAI prévoit pour cette année 5 milliards de dollars de perte pour un chiffre d’affaires de 3,7 milliards de dollars.

☕️ Wiz a été ciblée par une attaque impliquant un deepfake de la voix de son PDG

Le PDG de l’entreprise de sécurité pour le cloud computing Wiz, Assaf Rappaport, a expliqué lors d’une conférence organisée par TechCrunch que son entreprise a été ciblée par une attaque utilisant un deepfake mi-octobre.

Il a raconté au média américain que « des dizaines de mes employés ont reçu un message vocal de ma part ». Comme c’est souvent le cas dans ce genre d’attaque, celle-ci « tentait d’obtenir leurs informations d’identification », a-t-il ajouté.

Selon le PDG, c’est une particularité de la source originale qui aurait mis la puce à l’oreille de ses salariés. L’audio utilisé venait d’une conférence. Or, Assaf Rappaport est particulièrement anxieux quand il doit parler en public, ce qui modifie sa façon de s’exprimer. Le deepfake ne ressemblait pas à sa voix de tous les jours pour eux.

Wiz a pu retrouver la source de cet audio mais n’est pas en mesure de savoir de qui est provenue l’attaque.

Assaf Rappaport a aussi expliqué son refus de l’offre d’achat proposée par Google cet été. Si le montant de celle-ci était de 23 milliards de dollars, le PDG de Wiz considère que son entreprise peut atteindre les 100 milliards de dollars parce que la sécurité du cloud, c’est le futur. C’était « la décision la plus difficile à prendre », a-t-il quand même ajouté.

L’IA open-source a sa définition 1.0 qui exclut les modèles Llama de Meta

Quand Llama fâché, lui toujours faire ainsi
L’IA open-source a sa définition 1.0 qui exclut les modèles Llama de Meta

L’Open Source Initiative (OSI) a publié ce lundi la version finale de sa définition de l’IA open-source. Celle-ci diffère encore un peu de la release candidate diffusée mi-octobre. Comme on pouvait s’en douter aux vues des tensions entre l’OSI et Meta, la définition exclut les modèles de l’entreprise, qui se revendique pourtant leader de l’IA open source.

Comme elle l’avait annoncé, l’Open Source Initiative (OSI) a publié la version 1.0 de sa définition de l’IA open-source. Ce texte, rédigé en collaboration avec différents experts venant de la recherche et de l’industrie, a pour ambition d’adapter la définition de l’open source et les quatre libertés essentielles au monde des modèles d’intelligence artificielle.

Dans son billet de blog, l’OSI explique qu’elle est « le résultat de plusieurs années de recherche et de collaboration, d’une tournée internationale d’ateliers et d’un processus de co-conception d’un an mené par l’Open Source Initiative (OSI), mondialement reconnue par les particuliers, les entreprises et les institutions publiques comme l’autorité qui définit l’Open Source ».

La définition insiste encore plus sur la description des données d’entrainement

Comparée à la version Release Candidate dont nous avions déjà parlé, la base du texte reste évidemment la même. Mais quelques modifications ont quand même été ajoutées.

L’OSI exige maintenant une description « complète » des données utilisées pour entrainer le modèle. Dans sa version RC, l’organisme ne demandait qu’une version « détaillée ». Cette précision renforce l’obligation d’information sur les données d’entrainement.

La définition a été, pendant son processus, critiquée pour accepter que cette description remplace le fait de publier de façon effective les données d’entrainement. L’utilisation de ce terme dans la version finale de la définition vient appuyer l’idée qu’à défaut de les publier, les créateurs de modèles doivent vraiment détailler les informations concernant leurs données d’entrainement.

Cette version insiste aussi, contrairement aux précédentes, sur le processus de filtrage utilisé sur les données collectées pour entrainer les modèles. La méthodologie de ce processus doit être détaillée et le code qui la met en place doit être publié.

Pas de contrainte sur la manière de publier les paramètres

Un dernier paragraphe a été ajouté à la définition pour préciser qu’elle n’exige pas, pour l’instant, de licence spécifique pour les paramètres du modèle : « la définition de l’IA Open Source n’exige pas de mécanisme juridique spécifique pour garantir que les paramètres du modèle sont librement accessibles à tous. Ils peuvent être libres par nature ou une licence ou un autre instrument juridique peut être nécessaire pour garantir leur liberté. Nous pensons que cela deviendra plus clair avec le temps, une fois que le système juridique aura eu l’occasion de se pencher sur les systèmes d’IA open-source ».

Meta fâchée

Comme nous l’avions déjà noté, cette définition crée des tensions entre l’OSI et Meta, qui revendique haut et fort le caractère « open-source » de ses modèles Llama. L’entreprise de Mark Zuckerberg ne détaille notamment pas les données sur lesquelles sont entrainés ses modèles. Comme expliqué plus haut, si l’OSI a rapidement fait des concessions sur la possibilité de ne pas publier les données d’entrainement, elle a encore resserré ses exigences d’information les concernant.

À The Verge, Meta affirme être « d’accord avec [son] partenaire OSI sur de nombreux points », mais pas sur tous, ce qui la pousse à contester le consensus : « il n’existe pas de définition unique de l’IA open source, et la définir est un défi, car les définitions précédentes de l’open source n’englobent pas les complexités des modèles d’IA d’aujourd’hui qui progressent rapidement ».

Malgré ce désaccord avec Meta, la définition a acquis le ralliement d’autres acteurs du secteur. « La nouvelle définition exige que les modèles open source fournissent suffisamment d’informations sur leurs données d’entraînement pour qu’une « personne compétente puisse recréer un système substantiellement équivalent en utilisant des données identiques ou similaires », ce qui va plus loin que ce que font aujourd’hui de nombreux modèles propriétaires ou qui sont open source d’apparence », selon Ayah Bdeir, responsable IA chez Mozilla.

Pour Clément Delangue d’Hugging Face, cette définition est « une aide considérable dans l’élaboration de la conversation sur l’ouverture de l’IA, en particulier en ce qui concerne le rôle crucial des données d’entraînement ».

☕️ Un homme condamné à 18 ans de prison pour avoir créé des images pédocriminelles

Un homme condamné à 18 ans de prison pour avoir créé des images pédocriminelles

Un homme de 27 ans a été condamné à 18 ans de prison au Royaume-Uni pour avoir fabriqué des images d’abus sexuels sur des enfants, explique le Guardian. Utilisant des photos « normales » de vrais enfants, il les a transformés avec le logiciel de création de modèles humains DAZ 3D en images de viols. Ici, contrairement aux « deepfakes » où une tête est transférée sur un autre corps, Hugh Nelson, l’auteur de ces images, a créé complètement les personnages et les scènes.

La police britannique a découvert qu’il les vendait sur internet via des forums de discussion, engrangeant 5 000 Livres sterling (6 000 euros) sur une période de 18 mois. Le journal britannique explique qu’il a, dans certains cas, fourni des images en utilisant des photos d’enfants proches de ses clients.

Le juge Martin Walsh qui a condamné Hugh Nelson a déclaré qu’il était « impossible de savoir » si des enfants avaient été violés à la suite de la création de ses images et que l’auteur ne s’était pas soucié du préjudice causé par la diffusion de ce matériel « déchirant et écœurant ».

Il a pu être arrêté après qu’il a proposé à un policier en couverture la création d’un nouveau personnage pour 80 livres sterling (95 euros).

L’Internet Watch Foundation s’alarmait récemment du franchissement d’un « point de bascule » concernant les images d’abus sexuels d’enfants générées par IA.

[Édito] De Napster à OpenAI : le copyright sacrifié sur l’autel de l’IA

©🔫 🤖
[Édito] De Napster à OpenAI : le copyright sacrifié sur l’autel de l’IA

En 20 ans d’Internet, de partage et de publication massive de contenus soumis au copyright, le discours public a évolué. Il est passé d’une condamnation totale des pratiques d’échanges entre utilisateurs pairs à pairs à une acceptation tacite de l’entrainement des IA génératives, parfois sur les mêmes masses de données, pourvu que les données ne soient pas nommément citées.

Entre la répression contre les figures symboliques du partage de fichiers sur Internet – Shawn Fanning, Aaron Swartz et Alexandra Elbakyan – et l’utilisation massive des bases de données d’œuvres protégées par le Copyright par les entreprises de l’IA générative, le discours public et politique a bifurqué. D’un tout répressif dont le point d’orgue en France a été la loi Hadopi, nous sommes passés au jet d’un voile pudique sur l’utilisation de données culturelles par les startups qui promettent d’être les prochaines licornes de l’IA.

De la fin des années 90 à celle des années 2010, les politiques du numérique ont notamment été portées par la volonté de protéger du piratage les contenus numériques comme les musiques, les films, mais aussi les livres et les articles scientifiques.


Il reste 86% de l'article à découvrir.
Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

☕️ Chatbots : Meta et Reuters signent un accord

threads instagram facebook

L’agence de presse britannique a signé un accord avec Meta permettant aux chatbots de l’entreprise de Mark Zuckerberg d’utiliser ses contenus.

C’est le premier accord du genre signé par Meta. Son concurrent OpenAI a, quant à lui, signé plusieurs accords, notamment avec le groupe Condé Nast.

Aucune information sur le montant de l’accord n’a été divulguée. Selon Axios, si l’accord permet bien à Meta de proposer des réponses en temps réel aux utilisateurs de Facebook, Instagram, WhatsApp et Messenger via son chatbot, il n’est pas clair qu’il laisse la possibilité à l’entreprise d’entrainer ses grands modèles de langage sur les contenus de l’agence de presse.

Axios rappelle que Meta a conclu ce genre d’accords en 2019 pour afficher les contenus de divers médias dans l’onglet « news » de Facebook avant d’abandonner cette fonctionnalité. Les contenus de l’agence de presse Reuters ne faisaient pas partie de ceux repris dans cet onglet à l’époque.

Reuters a publié une dépêche sur le sujet sans pour autant révéler plus d’informations sur le sujet.

120 astrophysiciens demandent à la FCC de mettre en pause les lancements de satellites de Starlink

Satellites of love ... and beaucoup de trash aussi
120 astrophysiciens demandent à la FCC de mettre en pause les lancements de satellites de Starlink

Des chercheurs en astrophysique ont signé une lettre envoyée à la Federal Communications Commission (FCC), l’autorité de régulation américaine, lui demandant de mettre fin à l’ « absurde » exemption qu’elle a accordée aux opérateurs satellite concernant les normes environnementales à respecter.

De plus en plus de travaux scientifiques pointent les problèmes environnementaux qu’engendrent les constellations de satellites en orbite terrestre basse comme Starlink, Kuiper ou encore OneWeb.

Jeudi 24 octobre, 120 astrophysiciens ont envoyé une lettre qui reproche au régulateur américain, la Federal Communications Commission (FCC), de ne pas remplir son rôle concernant ces constellations. L’association de consommateurs américaine Public Interest Research Group l’a rendue publique [PDF].

Les chercheurs font le constat que « le nombre de satellites de taille importante en orbite terrestre basse
au niveau le plus bas a été multiplié par 127 et le nombre total de gros satellites en orbite terrestre basse a été multiplié par 12 en cinq ans, sous l’impulsion de SpaceX
».

500 000 satellites pour toutes les méga-constellations

Et comme on le sait, ils rappellent que cette augmentation du nombre de satellites lancés dans l’espace est loin de s’arrêter : « la nouvelle course à l’espace s’accélère rapidement : certains experts estiment que 58 000 satellites supplémentaires seront lancés d’ici 2030. D’autres plans ont été proposés pour lancer 500 000 satellites afin de créer de nouvelles méga-constellations qui alimenteraient l’internet par satellite ».

Mais, pour ces scientifiques, « nous devrions regarder avant de sauter ». C’est-à-dire analyser les effets de ces lancements sur notre environnement avant de s’engager dans cette course.

« Les effets néfastes sur l’environnement du lancement et de la combustion d’un si grand nombre de satellites ne sont pas clairs », estiment-ils. Ils s’appuient notamment sur le fait que « le gouvernement fédéral [américain] n’a pas réalisé d’étude environnementale pour en comprendre les effets ». Mais ils ajoutent que « ce que nous savons, c’est qu’un plus grand nombre de satellites et de lancements entraîne une augmentation des gaz et des métaux nocifs dans notre atmosphère ». On sait, par exemple, que leur dégradation, tous les cinq ans quand ils redescendent dans l’atmosphère, endommage la couche d’ozone.

« Nous ne devrions pas nous précipiter pour lancer des satellites à cette échelle sans nous assurer que les avantages justifient les conséquences potentielles du lancement de ces nouvelles méga-constellations, qui rentrent ensuite dans notre atmosphère pour y brûler ou y créer des débris » assènent-ils.

Une pause dans les lancements et une vraie étude d’impact de la FCC demandées

Ces chercheurs demandent donc à la FCC de reprendre les choses depuis le départ et de mettre en pause tous les lancements de ces satellites tant qu’elle n’a pas conduit une véritable étude d’impact environnemental. Ils font remarquer que « la course du new space a démarré plus rapidement que les gouvernements n’ont pu agir ». Les agences de régulation examinent les licences individuelles et ne disposent pas des politiques nécessaires pour évaluer les effets globaux de toutes les méga-constellations proposées.

Et ils font remarquer que la FCC « contourne l’obligation de contrôle environnemental des méga-constellations de satellites prévue par la loi sur la politique environnementale nationale (National Environmental Policy Act) en invoquant une exclusion catégorique ». Ils s’appuient sur un constat déjà fait par le Government Accountability Office américain (organisme d’audit, équivalent de la Cour des comptes) en 2022. « En mai 2024, la FCC n’a pas réexaminé ses règles et continuait à exclure les constellations de satellites du contrôle environnemental », affirment-ils.

☕️ Le journal Libération attaqué via un rançongiciel

Selon nos confrères du Monde, le journal Libération est actuellement touché par une cyberattaque utilisant un rançongiciel. Si le média a pu publier des articles sur son site internet, plusieurs logiciels – dont celui de mise en page de la version papier du journal – sont actuellement inutilisables par les salariés.

La direction du journal a prévenu la rédaction par email vendredi en fin de matinée en demandant aux salariés de privilégier le télétravail ce jour-ci et de ne pas utiliser le réseau Wi-Fi interne.

En septembre, c’était le groupe Bayard et notamment son journal La Croix qui étaient touchés par une attaque de ce type. L’Agence France Presse a aussi été ciblée très récemment.

☕️ L’auto-école en ligne Ornikar a laissé fuiter des données personnelles

La liste s’allonge encore. Après, Boulanger, Cultura, DiviaMobilités, Truffaut, Cybertek et Grosbill (qui font partie du même groupe), l’Assurance retraite, RED by SFR et Meilleurtaux, c’est maintenant au tour d’Ornikar de voir des données d’utilisateurs dans la nature.

L’entreprise qui propose des services d’auto-école en ligne a signalé à ses clients, via un email qu’un lecteur nous a transféré, une « intrusion externe dans le système d’information d’Ornikar qui a exposé vos informations personnelles suivantes : nom, prénom, e-mail, numéro de téléphone, date de naissance et adresse postale ».

Ornikar leur assure que leurs données bancaires et leurs mots de passe n’ont pas été compromis. Elle ajoute avoir déclaré l’incident à la CNIL, conformément à la réglementation.

Selon Saxx, 4,3 millions de comptes seraient concernés.

Contactée par Next, l’entreprise n’a pas répondu à notre sollicitation.

Raisonnement des IA génératives : les benchmarks nous désinforment

Pseudo-thermomètres
Raisonnement des IA génératives : les benchmarks nous désinforment

Des études récentes montrent que les grands modèles de langage ont de bons résultats dans les tests de comparaison car ceux-ci correspondent aux données sur lesquelles ils ont été entrainés. Il suffit d’une petite variation dans le test pour que les performances s’effondrent.

Depuis l’arrivée des grands modèles de langage (large language models, LLM), le débat sur leur capacité de raisonnement oppose les ingénieurs et chercheurs du domaine.

Certains prétendent que ces modèles permettent de créer des intelligences artificielles qui raisonnent, d’autres que ce sont de simples perroquets récitant statistiquement ce qui se trouve dans leurs données d’entrainement.

Les premiers s’appuient sur des tests de raisonnement (benchmarks) pour comparer leurs résultats à ceux de leurs concurrents et de leurs anciennes versions. De mois en mois, ils observent les scores augmenter petit à petit et certains se disent qu’un jour ou l’autre, grâce aux modèles de langage, la machine dépassera les capacités humaines.

Les autres s’appuient notamment sur le principe sur lequel ont été fondés les LLM pour expliquer qu’ils n’utilisent que des modèles de raisonnement qu’ils ont mémorisés à partir de leurs données d’entrainement. Bref, comme le disaient déjà en 2020 Emily Bender, Timnit Gebru, Angelina McMillan-Major et Margaret Mitchell, les LLM ne seraient que des « perroquets stochastiques ».

Problème de fiabilité des mesures

Plusieurs études récentes montrent que les « benchmarks » ne permettent pas de mesurer les capacités de raisonnement de ces modèles, mais plutôt leurs capacités à … répondre de façon fidèle à ces tests. Car les résultats s’effondrent quand les chercheurs leur font passer des tests similaires, mais présentant d’infimes variations.


Il reste 89% de l'article à découvrir.
Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

☕️ L’autorité de la concurrence britannique enquête sur les liens entre Alphabet et Anthropic

Deux requins étiquetés par portions avec les marques des entreprises d'IA génératives nagent dans l'océan

Selon l’agence de presse Reuters, l’autorité britannique de la concurrence (Competition and Markets Authority, CMA) a lancé formellement une enquête sur les liens entre la maison mère de Google, Alphabet, et la startup d’intelligence artificielle Anthropic.

Fin juillet, l’autorité examinait déjà cette relation de façon plus informelle en invitant toute personne connaissant le dossier à lui fournir des informations. Elle est maintenant passée à la vitesse supérieure et se donne jusqu’au 19 décembre pour accomplir la première phase de son enquête formelle.

À Reuters, Anthropic déclare être « une entreprise indépendante et aucun de nos partenariats stratégiques ou de nos relations avec les investisseurs ne diminue l’indépendance de notre gouvernance d’entreprise ou notre liberté de s’associer avec d’autres ».

Du côté de Google, l’entreprise assure qu’ « Anthropic est libre d’utiliser plusieurs fournisseurs de cloud et de le faire, nous n’exigeons pas de droits technologiques exclusifs ».

Les diverses autorités de la concurrence scrutent depuis quelques mois les liens entre les différentes startups leaders de l’IA générative et les multinationales du numérique. Fin juin, l’autorité française alertait de « risques potentiels » ciblant notamment la relation entre Microsoft et OpenAI et les investissements d’Amazon et Alphabet dans Anthropic.

Aux États-Unis, la FTC enquête depuis janvier sur ces éventuels problèmes de concurrence.

Les détecteurs d’IA générative pointés du doigt pour leurs faux positifs sur les campus américains

Captcha universitaire
Les détecteurs d’IA générative pointés du doigt pour leurs faux positifs sur les campus américains

Les entreprises d’IA générative avaient prévenu que les outils de détection de contenus générés par des IA n’étaient pas efficaces. Leur taux de faux positifs est loin d’être nul, menant à des accusations parfois erronées alors que leur utilisation est massive dans les universités.

Même la foire aux questions d’OpenAI l’explique depuis quelque temps : « Alors que certains (y compris OpenAI) ont publié des outils prétendant détecter du contenu généré par une IA, aucun d’entre eux n’a prouvé qu’il établissait une distinction fiable entre ce type de contenu et celui généré par l’homme ».

Et pourtant, ils sont massivement utilisés dans les universités pour vérifier le travail des étudiants. Bloomberg explique que les deux tiers des enseignants américains utilisent des détecteurs d’IA générative pour repérer des textes qui ne seraient pas écrits par les étudiants.

2 à 3 % de faux positifs

Or, le média américain a testé deux des détecteurs les plus utilisés, GPTZero et Copyleaks sur un échantillon de 500 copies rédigées et soumises à correction durant l’été 2022, alors que ChatGPT n’était pas encore sorti. Résultats : 488 dissertations ont été considérées comme écrites par un humain, neuf ont été étiquetées comme partiellement générées par IA et partiellement rédigées par un humain, et trois ont été étiquetées comme entièrement générées par IA. Ce taux peut paraître bas, mais il représente nombre de fausses accusations au vu du nombre de copies.

D’autant que, comme l’explique Bloomberg, les accusations erronées tombent plus souvent sur des étudiants au style d’écriture plus « générique ». En effet, celui des étudiants dont la langue d’examen (ici l’anglais) n’est pas leur langue maternelle, de ceux qui ont simplement appris un style plus simple et mécanique ou des personnes dites neuroatypiques, peut plus facilement être confondu avec un texte généré par une IA.

Le média américain a recueilli le témoignage d’une étudiante neuroatypique accusée de triche par son université et qui a reçu cette accusation comme un « coup de poing dans le ventre ». Un autre étudiant, d’origine italienne et qui a obtenu un 0, se dit accablé. Il explique que son enseignant n’en démord pas, ayant passé le texte dans plusieurs détecteurs qui donnent tous le même résultat.

En juillet 2023, une étude scientifique montrait déjà les biais de ce genre de détecteurs sur les textes en anglais rédigés par des personnes non-nativement anglophones.

Utilisation « moralement problématique  »

Sur X, en réaction à l’article de Bloomberg, Ethan Mollick, enseignant chercheur à l’Université Wharton de Californie, affirme qu’ « il est moralement problématique d’utiliser des détecteurs d’IA lorsqu’ils produisent des faux positifs qui salissent les étudiants d’une manière qui leur porte préjudice et alors qu’ils ne peuvent jamais prouver leur innocence ». Il ajoute, insistant : « ne les utilisez pas ».

Certains enseignants appliquent ce conseil et ont adapté leurs évaluations, soit en incorporant l’utilisation des IA dans leur enseignement, soit en modifiant leurs exigences pour qu’elles soient moins facilement atteignables à l’aide d’une IA. Mais Bloomberg montre que le business derrière la détection de textes générés par IA est florissant, puisque le leader du secteur, GPTZero, a levé 13,5 millions de dollars depuis sa création début 2023 et revendique 4 millions d’utilisateurs.

Si ces entreprises clament ne pas vouloir être prises pour des juges, il est difficile de savoir que faire de leurs résultats puisqu’une fois un texte étiqueté comme généré par une IA, il est impossible de savoir s’il s’agit d’un faux positif ou pas.

Le média américain explique que certains étudiants utilisent ces logiciels, à leur tour, pour vérifier que leurs textes ne sont pas faussement détectés comme générés par des IA, et les modifient s’ils le sont. Bloomberg ajoute que l’utilisation d’un logiciel d’aide à l’écriture comme Grammarly (qui donne des conseils de tournure de phrases) peut faire passer rapidement un texte détecté comme « 100 % écrit par un humain » à « 100 % généré par une IA ».

Meta utilise de nouveau la reconnaissance faciale sur Facebook… promis pour la bonne cause

Meta utilise de nouveau la reconnaissance faciale sur Facebook… promis pour la bonne cause

Après avoir annoncé il y a quatre ans la fin de sa fonctionnalité de reconnaissance faciale, le réseau social annonce utiliser de nouveau cette technique pour deux utilisations : la reconnaissance des scams publicitaires utilisant les visages des célébrités et la récupération des comptes compromis.

En 2021, c’était promis, Facebook arrêtait la reconnaissance faciale. Elle affirmait à l’époque avoir compris qu’elle devait « peser l’utilisation positive de la reconnaissance faciale par rapport aux préoccupations sociétales croissantes, d’autant plus que les régulateurs n’ont pas encore défini de règles claires ».

L’entreprise faisait aussi cette déclaration alors que l’État du Texas enquêtait sur la légalité de son système. Le dossier, officiellement ouvert en février 2022, a mené récemment le Texas à condamner Meta à payer 1,4 milliard de dollars sur cinq ans, pour l’utilisation illégale sur son territoire de la reconnaissance faciale par le réseau social Facebook.

Dans un communiqué de presse, l’entreprise explique maintenant reprendre l’utilisation de cette technique en mettant en avant, pour l’instant, deux cas d’usage de protection des utilisateurs.

L’arnaque aux publicités utilisant des visages de célébrités

Le premier cas mis en avant par Meta est celui des arnaques utilisant l’image des célébrités pour faire la publicité de produits auxquelles elles ne sont pas officiellement liées. L’entreprise explique ajouter à ses mesures de filtres anti-arnaques de son système de vérification des publicités, un système utilisant la reconnaissance faciale.

« Les escrocs tentent souvent d’utiliser des images de personnalités publiques, telles que des créateurs de contenu ou des célébrités, pour inciter les gens à s’engager dans des publicités qui mènent à des sites Web frauduleux, où il leur est demandé de partager des informations personnelles ou d’envoyer de l’argent. Ce stratagème, communément appelé « celeb-bait », viole nos politiques et est néfaste pour les utilisateurs de nos produits », explique l’entreprise.

Meta explique donc : « nous essaierons d’utiliser la technologie de reconnaissance faciale pour comparer les visages figurant dans l’annonce aux photos de profil Facebook et Instagram de la personnalité publique. Si nous confirmons une correspondance et déterminons que l’annonce est une escroquerie, nous la bloquerons.

Voulant rassurer sur l’usage des données récoltées, Meta ajoute directement : « Nous supprimons immédiatement toutes les données faciales générées par les publicités pour cette comparaison unique, que notre système trouve ou non une correspondance, et nous ne les utilisons à aucune autre fin ». Elle explique avoir déjà testé la fonctionnalité avec un petit groupe de célébrités avec « des résultats prometteurs ».

Récupération de compte via selfie vidéo

La seconde fonctionnalité introduite dans Facebook utilisant la reconnaissance faciale est la récupération de compte. Quand un utilisateur oublie son mot de passe, perd son appareil ou s’est fait voler son mot de passe, l’entreprise va proposer une nouvelle vérification de l’identité se basant sur la reconnaissance faciale à la place de la présentation d’une pièce d’identité. L’idée est d’uploader une vidéo « selfie » de soi-même pour la comparer avec sa photo de profil.

De la même façon, Meta s’empresse de préciser : « dès qu’une personne télécharge un selfie vidéo, celui-ci est chiffré et stocké en toute sécurité. Il ne sera jamais visible sur son profil, pour ses amis ou pour d’autres personnes sur Facebook ou Instagram. Nous supprimons immédiatement toutes les données faciales générées après cette comparaison, qu’il y ait correspondance ou non ».

Pour les deux cas d’usage, l’entreprise affirme adopter une approche « responsable » : « nous avons examiné ces mesures dans le cadre de notre solide processus d’évaluation des risques et de la protection de la vie privée et avons mis en place d’importantes mesures de protection, telles que l’envoi de notifications pour informer les gens de leur fonctionnement, la mise en place de contrôles et la garantie de la suppression des données faciales dès qu’elles ne sont plus nécessaires ».

Pressions sur l’Europe

Si l’entreprise est très rassurante sur son utilisation de la reconnaissance faciale dans ces deux cas, elle ne va tout de même pas jusqu’à les déployer pour tous ses utilisateurs. TechCrunch précise que Meta ne prévoit pour l’instant pas de les utiliser au Royaume-Uni et dans l’Union européenne « où des réglementations complètes en matière de protection des données s’appliquent ». Notamment, sur l’identification biométrique, le RGPD demande un consentement explicite de l’utilisateur pour utiliser ce genre de données.

On peut imaginer, comme le média américain le fait explicitement, que ces tests mis en place par Meta font partie d’une stratégie de pression contre les diverses lois européennes. L’entreprise a notamment utilisé le même genre de rétention de technologies sur le sol européen avec ses modèles multimodaux.

☕️ Le mode vocal de ChatGPT arrive en Europe

Le mode vocal de ChatGPT arrive en Europe

En septembre 2023, OpenAI annonçait : « ChatGPT peut maintenant voir, entendre et parler ». Plus d’un an après, le mode vocal du chatbot est accessible en Europe.

Dans un tweet repéré par Neowin, l’entreprise a simplement répondu à une utilisatrice que « tous les utilisateurs Plus de l’UE, de la Suisse, de l’Islande, de la Norvège et du Liechtenstein ont désormais accès à Advanced Voice ».

L’entreprise avait annoncé début octobre qu’elle donnait accès à cette fonctionnalité aux utilisateurs des versions « Enterprise, Edu et Team ». Et même que « les utilisateurs gratuits auront également un aperçu d’Advanced Voice ».

Mais elle réfrénait les ardeurs des utilisateurs européens en leur promettant qu’ils seraient informés du moment où il pourrait l’utiliser. C’est donc désormais chose faite.

Internet Archive de nouveau piratée

Bibliothèque à trous
Internet Archive de nouveau piratée

La fameuse bibliothèque numérique qui archive le web a de nouveau été ciblée. Cette fois-ci, les pirates ont pu attaquer sa plateforme de support par e-mail Zendesk.

La bibliothèque numérique Internet Archive, projet à but non lucratif, subit des attaques sur tous les fronts. Après avoir perdu son procès contre les éditeurs de livres, elle est depuis plus d’une semaine en situation dégradée de façon intermittente depuis un piratage et une attaque DDoS.

La plateforme Zendesk d’Internet Archive touchée

Et une nouvelle brèche est apparue le week-end dernier. En effet, de nombreux utilisateurs de la plateforme ont informé Bleeping Computer qu’ils recevaient des réponses à d’anciennes demandes de suppression adressées à Internet Archive, les prévenant que l’organisation n’avait pas modifié les jetons d’authentification associes à ses API, alors même qu’elle savait qu’ils avaient été exposés.

Le message explique :

« Il est décourageant de voir que même après avoir été informée de la violation il y a deux semaines, IA n’a toujours pas fait preuve de diligence raisonnable pour faire tourner de nombreuses clés API qui ont été exposées dans leurs secrets gitlab.

Comme le montre ce message, cela inclut un jeton Zendesk avec des permissions pour accéder à plus de 8000 tickets de support envoyés à info@archive.org depuis 2018.

Que vous essayiez de poser une question générale ou que vous demandiez la suppression de votre site de la Wayback machine, vos données sont maintenant entre les mains d’un type quelconque. Si ce n’est pas moi, ce sera quelqu’un d’autre ».

Des jetons accessibles depuis 2 ans

Bleeping Computer a pu vérifier que l’email était bien envoyé par un serveur Zendesk. Comme le souligne un lecteur du média, les échanges entre les services d’Internet Archive et ses utilisateurs peuvent comporter des données personnelles sensibles. En effet, la bibliothèque demande la copie d’une pièce d’identité lorsqu’un utilisateur fait une demande de suppression d’une page dans la Wayback Machine pour faire jouer son droit à l’oubli.

Le média explique avoir pourtant informé plusieurs fois Internet Archive que son code source avait été récupéré sur GitLab via un jeton d’authentification qui était accessible depuis « au moins deux ans ».

En contact avec l’auteur de l’attaque, Bleeping Computer explique que la configuration d’un des serveurs de développement d’Internet Archive lui a laissé la possibilité de récupérer le jeton d’authentification qui lui a permis de télécharger le code source d’Internet Archive.

Il aurait aussi eu accès à l’entièreté de la base de données utilisateurs de l’organisation et à un ensemble de données de 7 To sans pour autant accepter de donner des preuves. La bibliothèque stockant un important nombre de contenus textes, audio et vidéos déjà accessibles publiquement, cet ensemble de données peut, pour autant, ne pas être spécifiquement représentatif de la faille.

Dans un billet de blog publié ce lundi 21 octobre, Internet Archive, qui ne répond pas aux médias, explique succinctement que « les pirates ont divulgué les adresses emails archive.org et les mots de passe chiffrés à un site web de transparence, et ont également envoyé des emails à des utilisateurs en exploitant un système d’assistance tiers ».

L’organisation ajoute que « la sécurité et l’intégrité des données et des utilisateurs d’Internet Archive restent nos priorités absolues. Alors que l’incident de sécurité est analysé et maîtrisé par notre équipe, nous relançons les services au fur et à mesure que les défenses sont renforcées. Ces efforts se concentrent sur le renforcement des systèmes de pare-feu et sur la protection des entrepôts de données ».

L’attaque a eu lieu seulement parce qu’une brèche était ouverte

Concernant les auteurs de l’attaque, le fondateur d’Internet Archive, Brewster Kahle, répond au Washington Post qu’il ne connait ni leur identité, ni leurs motivations. Si certains l’ont lié à la revendication du DDoS par un compte X nommé SN_BlackMeta, interrogé par Bleeping Computer, l’auteur s’en défend.

Quant à la raison, Brewster Kahle demande « Why kick the cat? », une expression anglophone pour marquer une attaque gratuite. Pour Bleeping Computer, la raison est simple et elle est souvent celle à l’origine d’une cyberattaque : « Internet Archive n’a pas été attaquée pour des raisons politiques ou financières, mais simplement parce que l’auteur le pouvait ».

☕️ IBM publie sa famille de modèles Granite en version 3

IBM publie sa famille de modèles Granite en version 3

Six mois après avoir présenté sa première version de la famille de modèles Granite, IBM publie sa version 3.0 sur Hugging Face.

Celle-ci est, comme la version 1.0 de la famille, publiée sous licence libre Apache 2.0. Mais, alors qu’elle présentait à l’époque ses modèles comme spécialisée dans les tâches liées au code, IBM explique maintenant dans son communiqué que ses modèles « égalent, et dans certains cas dépassent, les performances générales des principaux LLM à poids ouvert ». Bref, ils sont maintenant utilisables pour toutes sortes de tâches et rivalisent avec les modèles de mêmes tailles que ceux de Meta et de Mistral selon l’entreprise.

IBM précise que ses modèles ont notamment été entrainés pour l’anglais, l’allemand, l’espagnol, le français, le japonais, le portugais, l’arabe, le tchèque, l’italien, le coréen, le néerlandais et le chinois. « Les utilisateurs peuvent affiner les modèles Granite 3.0 pour d’autres langues que ces 12 langues », ajoute-t-elle.

IBM publie de fait trois tailles de modèles pour cette nouvelle version : 1b, 2b et 8b. Elle fournit aussi une version « Guardian » pour les 2b et 8b spécialement paramétrée pour les questions de risques et de sécurité (comme les hallucinations).

Si l’entreprise a communiqué sur les versions 1.0 et 3.0 de cette famille, nous n’avons étonnamment pas trouvé de trace de la version 2.0.

❌