Vue lecture

IA générative et open source : les services du gouvernement proposent leur grille de lecture

IA ouvre toi... mais pas trop
IA générative et open source : les services du gouvernement proposent leur grille de lecture

Alors que l’Open Source Initiative (OSI) a publié sa définition de l’IA open source, les services du gouvernement français publient un comparateur d’ouverture de ce genre de modèles pour aider à s’y retrouver et à choisir son modèle en fonction des différents critères d’ouverture.

L’Open Source Initiative (OSI) a récemment proposé sa version 1.0 de ce qu’est une IA open source. Elle reprend notamment quatre « libertés » inspirées de celles définies par la Free Software Foundation concernant le logiciel libre :

  • Utiliser le système à n’importe quelle fin et sans avoir à demander la permission ;
  • Étudier le fonctionnement du système et inspecter ses composants ;
  • Modifier le système dans n’importe quel but, y compris pour en changer les résultats ;
  • Partager le système pour que d’autres puissent l’utiliser, avec ou sans modifications, dans n’importe quel but.

Si cette définition permet une utilisation très large du modèle, elles ne sont pas toutes nécessaires à chaque projet. Certains peuvent même vouloir par eux-mêmes des restrictions. Les discussions politiques autour de ce terme sont actuellement assez vives en coulisse, alors que les textes juridiques comme l’AI Act s’y intéressent.

Le Pôle d’Expertise de la Régulation Numérique (PEReN) du gouvernement français explique, par exemple, que « [sa] philosophie [le] conduit en général à privilégier les modèles les plus ouverts, mais dont les conditions d’utilisation ne permettent pas les usages non éthiques ».

Un tableau comparatif, évolutif et coopératif

Ce service du gouvernement propose depuis mardi un comparateur de différents modèles selon les critères d’ouverture (14 modèles de générateurs de textes, 6 modèles de générateurs d’images). Quatre grandes catégories sont disponibles et on peut choisir, par exemple, si on veut (oui, non ou sans préférence) que la licence du modèle permette la redistribution, les usages commerciaux, tous les usages ou limite explicitement certains usages non-éthiques.

Le même tableau propose de filtrer selon l’accessibilité des poids, des données ou de la documentation. Le PEReN a aussi introduit dans son tableau les critères de disponibilité du code d’entrainement sous licence compatible OSI, la transparence sur l’infrastructure et le coût de l’entrainement, les articles scientifiques et ou les rapports techniques associés au modèle.

Cet outil permet à un potentiel utilisateur de choisir son modèle, mais aussi de voir que les critères d’ouverture sont multiples.

Par exemple, en un clin d’œil, il peut voir que la licence d’utilisation d’un modèle comme BLOOM, le seul du tableau dont les données sont accessibles publiquement, n’autorise pas tous les usages. À l’inverse, Mistral, pour l’utilisation de son modèle NeMo, permet de faire tout et n’importe quoi avec, mais ne fournit pas de documentation complète sur l’origine de ses données d’entrainement.

Un modèle comme Claire-7B, créé par Linagora, utilise la licence Creative Commons By-NC-SA et ne peut être utilisé à des fins commerciaux.

Le service du gouvernement français permet à tout un chacun de réutiliser « librement » cette page comme source et encourage à le contacter pour ajouter des références ou des corrections. Le tableau « se veut collaboratif et dynamique et sera amené à évoluer ».

Une attention à avoir sur la gouvernance

Le PEReN diffuse aussi un document d’éclairage sur l’Open source et l’IA [PDF]. Daté d’avril 2024 (donc avant la publication de la version 1.0 de la définition de l’OSI), il aborde les synergies possibles, du point de vue de ce service, entre open source et IA.

Il aborde notamment la diversité des gouvernances possibles dans cet écosystème et pointe les difficultés. Il prend appui sur l’exemple du système d’exploitation open source Android (via AOSP), « emblématique selon Google de l’open source » mais qui « est de facto sous le contrôle de cette entreprise, qui a pu s’assurer la maîtrise complète de l’écosystème, au point d’avoir été sanctionnée pour pratiques anticoncurrentielles par la Commission Européenne ».

« La qualité d’open source n’apparaissant pas suffisante pour prémunir de dérives, il semble nécessaire de rester particulièrement vigilant à la forme de gouvernance qui peut sous-tendre les projets open source dans le domaine de l’IAG », ajoute le PEReN.

☕️ Automattic est à court d’employés

Automattic est à court d’employés

En octobre, Matt Mullenweg a proposé deux offres de départ aux salariés de son entreprise Automattic, dans le cadre du conflit juridique et commercial qu’il a engendré contre son concurrent WP Engine, qualifiant celui-ci de « cancer de WordPress ». Lors d’une conférence organisée par TechCrunch ce mercredi, le co-créateur du logiciel WordPress a avoué que son entreprise était maintenant « très en manque de personnel ».

Matt Mullenweg n’a pas révélé le nombre de départs lors de la seconde offre. Néanmoins, il avait annoncé que 159 salariés avaient sauté sur l’occasion de la première. Il a confirmé lors de cette conférence que son entreprise était passée d’environ 1 900 salariés à environ 1 700 depuis le début de ce conflit ouvert, tout en embauchant 26 personnes.

Cette déclaration d’un manque de personnel vient confirmer que les deux offres visaient à trouver les sources internes des informations sur ce qu’il se passait au sein d’Automattic pendant le conflit. Lors de l’annonce de la seconde offre, Matt Mullenweg avait affirmé avoir « les moyens d’identifier les sources des fuites » et que la proposition était une « opportunité de se retirer de façon élégante ».

Au cours de cette conférence, en réponse à une question sur la création d’un éventuel fork de WordPress suite à l’ouverture de ce conflit, le co-créateur du logiciel a encouragé l’idée : « je pense que ce serait fantastique pour que les gens puissent avoir une autre gouvernance ou une autre approche ». Matt Mullenweg a affirmé que le logiciel avait déjà été « forké » plusieurs fois et a ajouté que « c’est l’une des grandes qualités de l’open source : un fork peut être créé ».

☕️ Visa va supprimer 1 400 emplois

Selon le Wall Street Journal, l’entreprise de gestion de paiement planifie de restructurer ses activités internationales et de supprimer 1 400 postes (employés ou sous-traitants) avant la fin de l’année.

Licenciement

Les salariés ont appris la nouvelle la semaine dernière via une annonce interne. Plus d’un tiers des postes (environ 1 000) devraient concerner des emplois du secteur technologique, le reste devrait être réparti sur le service commercial et celui des partenariats numériques internationaux. Les licenciements ont déjà commencé la semaine dernière.

Le journal américain rappelle que Visa a plus de 30 000 employés dans le monde.

Interrogé par le Wall Street Journal, Visa a déclaré qu’elle évoluait en permanence pour servir au mieux ses clients et soutenir sa croissance, « ce qui peut entraîner la suppression de certaines fonctions ». Elle affirme s’attendre à embaucher davantage les prochaines années.

IA générative et open source : les services du gouvernement proposent leur grille de lecture

IA ouvre toi... mais pas trop
IA générative et open source : les services du gouvernement proposent leur grille de lecture

Alors que l’Open Source Initiative (OSI) a publié sa définition de l’IA open source, les services du gouvernement français publient un comparateur d’ouverture de ce genre de modèles pour aider à s’y retrouver et à choisir son modèle en fonction des différents critères d’ouverture.

L’Open Source Initiative (OSI) a récemment proposé sa version 1.0 de ce qu’est une IA open source. Elle reprend notamment quatre « libertés » inspirées de celles définies par la Free Software Foundation concernant le logiciel libre :

  • Utiliser le système à n’importe quelle fin et sans avoir à demander la permission ;
  • Étudier le fonctionnement du système et inspecter ses composants ;
  • Modifier le système dans n’importe quel but, y compris pour en changer les résultats ;
  • Partager le système pour que d’autres puissent l’utiliser, avec ou sans modifications, dans n’importe quel but.

Si cette définition permet une utilisation très large du modèle, elles ne sont pas toutes nécessaires à chaque projet. Certains peuvent même vouloir par eux-mêmes des restrictions. Les discussions politiques autour de ce terme sont actuellement assez vives en coulisse, alors que les textes juridiques comme l’AI Act s’y intéressent.

Le Pôle d’Expertise de la Régulation Numérique (PEReN) du gouvernement français explique, par exemple, que « [sa] philosophie [le] conduit en général à privilégier les modèles les plus ouverts, mais dont les conditions d’utilisation ne permettent pas les usages non éthiques ».

Un tableau comparatif, évolutif et coopératif

Ce service du gouvernement propose depuis mardi un comparateur de différents modèles selon les critères d’ouverture (14 modèles de générateurs de textes, 6 modèles de générateurs d’images). Quatre grandes catégories sont disponibles et on peut choisir, par exemple, si on veut (oui, non ou sans préférence) que la licence du modèle permette la redistribution, les usages commerciaux, tous les usages ou limite explicitement certains usages non-éthiques.

Le même tableau propose de filtrer selon l’accessibilité des poids, des données ou de la documentation. Le PEReN a aussi introduit dans son tableau les critères de disponibilité du code d’entrainement sous licence compatible OSI, la transparence sur l’infrastructure et le coût de l’entrainement, les articles scientifiques et ou les rapports techniques associés au modèle.

Cet outil permet à un potentiel utilisateur de choisir son modèle, mais aussi de voir que les critères d’ouverture sont multiples.

Par exemple, en un clin d’œil, il peut voir que la licence d’utilisation d’un modèle comme BLOOM, le seul du tableau dont les données sont accessibles publiquement, n’autorise pas tous les usages. À l’inverse, Mistral, pour l’utilisation de son modèle NeMo, permet de faire tout et n’importe quoi avec, mais ne fournit pas de documentation complète sur l’origine de ses données d’entrainement.

Un modèle comme Claire-7B, créé par Linagora, utilise la licence Creative Commons By-NC-SA et ne peut être utilisé à des fins commerciaux.

Le service du gouvernement français permet à tout un chacun de réutiliser « librement » cette page comme source et encourage à le contacter pour ajouter des références ou des corrections. Le tableau « se veut collaboratif et dynamique et sera amené à évoluer ».

Une attention à avoir sur la gouvernance

Le PEReN diffuse aussi un document d’éclairage sur l’Open source et l’IA [PDF]. Daté d’avril 2024 (donc avant la publication de la version 1.0 de la définition de l’OSI), il aborde les synergies possibles, du point de vue de ce service, entre open source et IA.

Il aborde notamment la diversité des gouvernances possibles dans cet écosystème et pointe les difficultés. Il prend appui sur l’exemple du système d’exploitation open source Android (via AOSP), « emblématique selon Google de l’open source » mais qui « est de facto sous le contrôle de cette entreprise, qui a pu s’assurer la maîtrise complète de l’écosystème, au point d’avoir été sanctionnée pour pratiques anticoncurrentielles par la Commission Européenne ».

« La qualité d’open source n’apparaissant pas suffisante pour prémunir de dérives, il semble nécessaire de rester particulièrement vigilant à la forme de gouvernance qui peut sous-tendre les projets open source dans le domaine de l’IAG », ajoute le PEReN.

☕️ Automattic est à court d’employés

Automattic est à court d’employés

En octobre, Matt Mullenweg a proposé deux offres de départ aux salariés de son entreprise Automattic, dans le cadre du conflit juridique et commercial qu’il a engendré contre son concurrent WP Engine, qualifiant celui-ci de « cancer de WordPress ». Lors d’une conférence organisée par TechCrunch ce mercredi, le co-créateur du logiciel WordPress a avoué que son entreprise était maintenant « très en manque de personnel ».

Matt Mullenweg n’a pas révélé le nombre de départs lors de la seconde offre. Néanmoins, il avait annoncé que 159 salariés avaient sauté sur l’occasion de la première. Il a confirmé lors de cette conférence que son entreprise était passée d’environ 1 900 salariés à environ 1 700 depuis le début de ce conflit ouvert, tout en embauchant 26 personnes.

Cette déclaration d’un manque de personnel vient confirmer que les deux offres visaient à trouver les sources internes des informations sur ce qu’il se passait au sein d’Automattic pendant le conflit. Lors de l’annonce de la seconde offre, Matt Mullenweg avait affirmé avoir « les moyens d’identifier les sources des fuites » et que la proposition était une « opportunité de se retirer de façon élégante ».

Au cours de cette conférence, en réponse à une question sur la création d’un éventuel fork de WordPress suite à l’ouverture de ce conflit, le co-créateur du logiciel a encouragé l’idée : « je pense que ce serait fantastique pour que les gens puissent avoir une autre gouvernance ou une autre approche ». Matt Mullenweg a affirmé que le logiciel avait déjà été « forké » plusieurs fois et a ajouté que « c’est l’une des grandes qualités de l’open source : un fork peut être créé ».

☕️ Visa va supprimer 1 400 emplois

Selon le Wall Street Journal, l’entreprise de gestion de paiement planifie de restructurer ses activités internationales et de supprimer 1 400 postes (employés ou sous-traitants) avant la fin de l’année.

Licenciement

Les salariés ont appris la nouvelle la semaine dernière via une annonce interne. Plus d’un tiers des postes (environ 1 000) devraient concerner des emplois du secteur technologique, le reste devrait être réparti sur le service commercial et celui des partenariats numériques internationaux. Les licenciements ont déjà commencé la semaine dernière.

Le journal américain rappelle que Visa a plus de 30 000 employés dans le monde.

Interrogé par le Wall Street Journal, Visa a déclaré qu’elle évoluait en permanence pour servir au mieux ses clients et soutenir sa croissance, « ce qui peut entraîner la suppression de certaines fonctions ». Elle affirme s’attendre à embaucher davantage les prochaines années.

SynthID, le système de Google pour marquer au fer rouge les contenus générés par des IA

Synthetic quality certified
SynthID, le système de Google pour marquer au fer rouge les contenus générés par des IA

Depuis un an, les entreprises d’IA générative promettent d’ajouter des filigranes à leurs contenus. Google propose désormais son système nommé SynthID. Les chercheurs de Google DeepMind ont notamment décrit dans un article dans la revue Nature et publié sous licence libre la partie concernant les textes générés automatiquement.

Dans les divers problèmes liés aux contenus générés par l’IA, le fait de pouvoir les différencier de ceux créés autrement a été rapidement repéré comme le nez au milieu d’un visage. Les détecteurs d’IA générative sont pointés du doigt pour leurs faux positifs, ce qui engendre des tensions entre étudiants et enseignants.

Depuis l’avènement dans l’espace public de ces systèmes, l’ajout à ces contenus de filigranes est régulièrement évoqué pour qu’une sorte de tampon « made by AI » leur soit clairement assigné. OpenAI, Alphabet, Meta, Anthropic, Inflection, Amazon et Microsoft ont d’ailleurs promis à la Maison-Blanche l’an dernier de mettre en place ce système. En Europe, l’AI Act exige que cette disposition soit mise en place à partir du 2 aout 2026.

En aout, on apprenait qu’OpenAI avait mis en place un système permettant de tatouer les textes générés par ses IA. Mais l’entreprise hésitait à le mettre en place. En effet, cette technologie serait « efficace à 99,9 % », mais elle serait aussi relativement simple à supprimer.

Google vient, elle, de sauter le pas avec son système nommé « SynthID » développé par sa filiale DeepMind. L’entreprise indique que cet outil embarque « des filigranes numériques directement dans les images, le son, le texte ou la vidéo générés par l’IA ».

Bien sûr, le système de tatouage des divers contenus est différent selon le média. Il n’est pas possible, par exemple, d’utiliser un système de tatouage graphique pour identifier un texte. Et, à moins de trouver un très bon filigrane universel, le risque est d’harmoniser vers le bas l’utilisation de ces marques pour tous les types de médias.

Google a donc mis au point différents systèmes de filigranes dont elle présente des exemples.

Un outil libre de filigranes pour la génération de textes

Pour son système dédié aux filigranes de textes générés par IA, Google DeepMind a publié le travail de ses 24 chercheurs dans la revue scientifique Nature la semaine dernière. L’idée est de créer une « signature statistique » dans le texte généré en modifiant légèrement la procédure de génération de chaque « prochain jeton ». Cette modification ne dépend pas d’une simple variable statique, mais se fait en fonction du contexte de génération.

« L’un des principaux avantages de cette approche est que le processus de détection ne nécessite pas la réalisation d’opérations coûteuses en termes de calcul, ni même l’accès au LLM sous-jacent (qui est souvent propriétaire) », expliquent-ils.

La détection se fait avec un outil probabiliste qui prend en entrée le texte à vérifier et une clé de filigrane spécifique.

L’entreprise a publié sur GitHub sous licence libre (Apache 2.0) cet outil et propose une documentation détaillée pour les développeurs d’IA génératives qui voudraient l’utiliser. Dans celle-ci , elle explique que SynthID Text propose plusieurs options pour la vérification : full-private qui « ne libère ni n’expose le détecteur d’aucune manière », semi-private qui « ne libère pas le détecteur, mais expose via une API » et public qui « permet de libérer le détecteur pour que d’autres utilisateurs puissent le télécharger et l’utiliser ».

Elle assure que « les filigranes de texte SynthID résistent à certaines transformations, c’est-à-dire les recadrages de texte, en modifiant quelques mots ou en paraphrasant légèrement ». Mais Google admet que sa méthode, comme celle d’OpenAI, a des limites qui permettent de facilement contourner son système :

  • « L’application de filigranes est moins efficace sur les réponses factuelles, car il y a moins de possibilités d’augmenter la génération sans réduire la précision.
  • Les scores de confiance du détecteur peuvent être considérablement réduits lorsqu’un texte généré par IA est entièrement réécrit ou traduit dans une autre langue ».

Google se garde l’exclusivité de ses outils de filigrane d’audio et d’images

Toutefois, concernant les filigranes d’audio, d’images et de vidéos, l’entreprise se contente de présenter succinctement des exemples d’utilisation qui, bien évidemment, ne montrent aucune différence entre le contenu sans filigrane et avec. Mais l’entreprise ne communique ni sur le fonctionnement des systèmes mis en place ni sur leurs limites.

Elle ajoute que ces filigranes sont disponibles pour les clients de Vertex AI qui utilisent les modèles de conversion de texte en image Imagen (version 2 et 3), pour les utilisateurs de son outil de génération d’images ImageFX et pour les quelques créateurs qui ont accès à son modèle de génération de vidéos Veo.

SynthID, le système de Google pour marquer au fer rouge les contenus générés par des IA

Synthetic quality certified
SynthID, le système de Google pour marquer au fer rouge les contenus générés par des IA

Depuis un an, les entreprises d’IA générative promettent d’ajouter des filigranes à leurs contenus. Google propose désormais son système nommé SynthID. Les chercheurs de Google DeepMind ont notamment décrit dans un article dans la revue Nature et publié sous licence libre la partie concernant les textes générés automatiquement.

Dans les divers problèmes liés aux contenus générés par l’IA, le fait de pouvoir les différencier de ceux créés autrement a été rapidement repéré comme le nez au milieu d’un visage. Les détecteurs d’IA générative sont pointés du doigt pour leurs faux positifs, ce qui engendre des tensions entre étudiants et enseignants.

Depuis l’avènement dans l’espace public de ces systèmes, l’ajout à ces contenus de filigranes est régulièrement évoqué pour qu’une sorte de tampon « made by AI » leur soit clairement assigné. OpenAI, Alphabet, Meta, Anthropic, Inflection, Amazon et Microsoft ont d’ailleurs promis à la Maison-Blanche l’an dernier de mettre en place ce système. En Europe, l’AI Act exige que cette disposition soit mise en place à partir du 2 aout 2026.

En aout, on apprenait qu’OpenAI avait mis en place un système permettant de tatouer les textes générés par ses IA. Mais l’entreprise hésitait à le mettre en place. En effet, cette technologie serait « efficace à 99,9 % », mais elle serait aussi relativement simple à supprimer.

Google vient, elle, de sauter le pas avec son système nommé « SynthID » développé par sa filiale DeepMind. L’entreprise indique que cet outil embarque « des filigranes numériques directement dans les images, le son, le texte ou la vidéo générés par l’IA ».

Bien sûr, le système de tatouage des divers contenus est différent selon le média. Il n’est pas possible, par exemple, d’utiliser un système de tatouage graphique pour identifier un texte. Et, à moins de trouver un très bon filigrane universel, le risque est d’harmoniser vers le bas l’utilisation de ces marques pour tous les types de médias.

Google a donc mis au point différents systèmes de filigranes dont elle présente des exemples.

Un outil libre de filigranes pour la génération de textes

Pour son système dédié aux filigranes de textes générés par IA, Google DeepMind a publié le travail de ses 24 chercheurs dans la revue scientifique Nature la semaine dernière. L’idée est de créer une « signature statistique » dans le texte généré en modifiant légèrement la procédure de génération de chaque « prochain jeton ». Cette modification ne dépend pas d’une simple variable statique, mais se fait en fonction du contexte de génération.

« L’un des principaux avantages de cette approche est que le processus de détection ne nécessite pas la réalisation d’opérations coûteuses en termes de calcul, ni même l’accès au LLM sous-jacent (qui est souvent propriétaire) », expliquent-ils.

La détection se fait avec un outil probabiliste qui prend en entrée le texte à vérifier et une clé de filigrane spécifique.

L’entreprise a publié sur GitHub sous licence libre (Apache 2.0) cet outil et propose une documentation détaillée pour les développeurs d’IA génératives qui voudraient l’utiliser. Dans celle-ci , elle explique que SynthID Text propose plusieurs options pour la vérification : full-private qui « ne libère ni n’expose le détecteur d’aucune manière », semi-private qui « ne libère pas le détecteur, mais expose via une API » et public qui « permet de libérer le détecteur pour que d’autres utilisateurs puissent le télécharger et l’utiliser ».

Elle assure que « les filigranes de texte SynthID résistent à certaines transformations, c’est-à-dire les recadrages de texte, en modifiant quelques mots ou en paraphrasant légèrement ». Mais Google admet que sa méthode, comme celle d’OpenAI, a des limites qui permettent de facilement contourner son système :

  • « L’application de filigranes est moins efficace sur les réponses factuelles, car il y a moins de possibilités d’augmenter la génération sans réduire la précision.
  • Les scores de confiance du détecteur peuvent être considérablement réduits lorsqu’un texte généré par IA est entièrement réécrit ou traduit dans une autre langue ».

Google se garde l’exclusivité de ses outils de filigrane d’audio et d’images

Toutefois, concernant les filigranes d’audio, d’images et de vidéos, l’entreprise se contente de présenter succinctement des exemples d’utilisation qui, bien évidemment, ne montrent aucune différence entre le contenu sans filigrane et avec. Mais l’entreprise ne communique ni sur le fonctionnement des systèmes mis en place ni sur leurs limites.

Elle ajoute que ces filigranes sont disponibles pour les clients de Vertex AI qui utilisent les modèles de conversion de texte en image Imagen (version 2 et 3), pour les utilisateurs de son outil de génération d’images ImageFX et pour les quelques créateurs qui ont accès à son modèle de génération de vidéos Veo.

☕️ OpenAI travaille avec Broadcom et TSMC pour créer sa propre puce d’ici 2026

logo OpenAI dans l'obscurité
Mojahid Mottakin – Unsplash

Selon l’agence de presse Reuters, OpenAI cherche à minimiser le coût des puces dont elle a besoin pour développer ses systèmes d’intelligence artificielle générative.

Après avoir imaginé des plans ambitieux pour devenir son propre fondeur, l’entreprise les aurait abandonnés pour leur coût trop élevé et un temps de développement trop long. Elle se serait alors rapprochée de Broadcom et de TSMC. Elle se rabattrait donc plutôt sur un design maison de ses puces.

OpenAI cherche aussi à diversifier son approvisionnement actuel en GPU et devrait plus se tourner vers les puces MI300X d’AMD.

Comme le rappelle Reuters, l’entrainement des modèles d’IA générative sur ces puces est particulièrement coûteux. OpenAI prévoit pour cette année 5 milliards de dollars de perte pour un chiffre d’affaires de 3,7 milliards de dollars.

☕️ OpenAI travaille avec Broadcom et TSMC pour créer sa propre puce d’ici 2026

logo OpenAI dans l'obscurité
Mojahid Mottakin – Unsplash

Selon l’agence de presse Reuters, OpenAI cherche à minimiser le coût des puces dont elle a besoin pour développer ses systèmes d’intelligence artificielle générative.

Après avoir imaginé des plans ambitieux pour devenir son propre fondeur, l’entreprise les aurait abandonnés pour leur coût trop élevé et un temps de développement trop long. Elle se serait alors rapprochée de Broadcom et de TSMC. Elle se rabattrait donc plutôt sur un design maison de ses puces.

OpenAI cherche aussi à diversifier son approvisionnement actuel en GPU et devrait plus se tourner vers les puces MI300X d’AMD.

Comme le rappelle Reuters, l’entrainement des modèles d’IA générative sur ces puces est particulièrement coûteux. OpenAI prévoit pour cette année 5 milliards de dollars de perte pour un chiffre d’affaires de 3,7 milliards de dollars.

☕️ Wiz a été ciblée par une attaque impliquant un deepfake de la voix de son PDG

Le PDG de l’entreprise de sécurité pour le cloud computing Wiz, Assaf Rappaport, a expliqué lors d’une conférence organisée par TechCrunch que son entreprise a été ciblée par une attaque utilisant un deepfake mi-octobre.

Il a raconté au média américain que « des dizaines de mes employés ont reçu un message vocal de ma part ». Comme c’est souvent le cas dans ce genre d’attaque, celle-ci « tentait d’obtenir leurs informations d’identification », a-t-il ajouté.

Selon le PDG, c’est une particularité de la source originale qui aurait mis la puce à l’oreille de ses salariés. L’audio utilisé venait d’une conférence. Or, Assaf Rappaport est particulièrement anxieux quand il doit parler en public, ce qui modifie sa façon de s’exprimer. Le deepfake ne ressemblait pas à sa voix de tous les jours pour eux.

Wiz a pu retrouver la source de cet audio mais n’est pas en mesure de savoir de qui est provenue l’attaque.

Assaf Rappaport a aussi expliqué son refus de l’offre d’achat proposée par Google cet été. Si le montant de celle-ci était de 23 milliards de dollars, le PDG de Wiz considère que son entreprise peut atteindre les 100 milliards de dollars parce que la sécurité du cloud, c’est le futur. C’était « la décision la plus difficile à prendre », a-t-il quand même ajouté.

L’IA open-source a sa définition 1.0 qui exclut les modèles Llama de Meta

Quand Llama fâché, lui toujours faire ainsi
L’IA open-source a sa définition 1.0 qui exclut les modèles Llama de Meta

L’Open Source Initiative (OSI) a publié ce lundi la version finale de sa définition de l’IA open-source. Celle-ci diffère encore un peu de la release candidate diffusée mi-octobre. Comme on pouvait s’en douter aux vues des tensions entre l’OSI et Meta, la définition exclut les modèles de l’entreprise, qui se revendique pourtant leader de l’IA open source.

Comme elle l’avait annoncé, l’Open Source Initiative (OSI) a publié la version 1.0 de sa définition de l’IA open-source. Ce texte, rédigé en collaboration avec différents experts venant de la recherche et de l’industrie, a pour ambition d’adapter la définition de l’open source et les quatre libertés essentielles au monde des modèles d’intelligence artificielle.

Dans son billet de blog, l’OSI explique qu’elle est « le résultat de plusieurs années de recherche et de collaboration, d’une tournée internationale d’ateliers et d’un processus de co-conception d’un an mené par l’Open Source Initiative (OSI), mondialement reconnue par les particuliers, les entreprises et les institutions publiques comme l’autorité qui définit l’Open Source ».

La définition insiste encore plus sur la description des données d’entrainement

Comparée à la version Release Candidate dont nous avions déjà parlé, la base du texte reste évidemment la même. Mais quelques modifications ont quand même été ajoutées.

L’OSI exige maintenant une description « complète » des données utilisées pour entrainer le modèle. Dans sa version RC, l’organisme ne demandait qu’une version « détaillée ». Cette précision renforce l’obligation d’information sur les données d’entrainement.

La définition a été, pendant son processus, critiquée pour accepter que cette description remplace le fait de publier de façon effective les données d’entrainement. L’utilisation de ce terme dans la version finale de la définition vient appuyer l’idée qu’à défaut de les publier, les créateurs de modèles doivent vraiment détailler les informations concernant leurs données d’entrainement.

Cette version insiste aussi, contrairement aux précédentes, sur le processus de filtrage utilisé sur les données collectées pour entrainer les modèles. La méthodologie de ce processus doit être détaillée et le code qui la met en place doit être publié.

Pas de contrainte sur la manière de publier les paramètres

Un dernier paragraphe a été ajouté à la définition pour préciser qu’elle n’exige pas, pour l’instant, de licence spécifique pour les paramètres du modèle : « la définition de l’IA Open Source n’exige pas de mécanisme juridique spécifique pour garantir que les paramètres du modèle sont librement accessibles à tous. Ils peuvent être libres par nature ou une licence ou un autre instrument juridique peut être nécessaire pour garantir leur liberté. Nous pensons que cela deviendra plus clair avec le temps, une fois que le système juridique aura eu l’occasion de se pencher sur les systèmes d’IA open-source ».

Meta fâchée

Comme nous l’avions déjà noté, cette définition crée des tensions entre l’OSI et Meta, qui revendique haut et fort le caractère « open-source » de ses modèles Llama. L’entreprise de Mark Zuckerberg ne détaille notamment pas les données sur lesquelles sont entrainés ses modèles. Comme expliqué plus haut, si l’OSI a rapidement fait des concessions sur la possibilité de ne pas publier les données d’entrainement, elle a encore resserré ses exigences d’information les concernant.

À The Verge, Meta affirme être « d’accord avec [son] partenaire OSI sur de nombreux points », mais pas sur tous, ce qui la pousse à contester le consensus : « il n’existe pas de définition unique de l’IA open source, et la définir est un défi, car les définitions précédentes de l’open source n’englobent pas les complexités des modèles d’IA d’aujourd’hui qui progressent rapidement ».

Malgré ce désaccord avec Meta, la définition a acquis le ralliement d’autres acteurs du secteur. « La nouvelle définition exige que les modèles open source fournissent suffisamment d’informations sur leurs données d’entraînement pour qu’une « personne compétente puisse recréer un système substantiellement équivalent en utilisant des données identiques ou similaires », ce qui va plus loin que ce que font aujourd’hui de nombreux modèles propriétaires ou qui sont open source d’apparence », selon Ayah Bdeir, responsable IA chez Mozilla.

Pour Clément Delangue d’Hugging Face, cette définition est « une aide considérable dans l’élaboration de la conversation sur l’ouverture de l’IA, en particulier en ce qui concerne le rôle crucial des données d’entraînement ».

L’IA open-source a sa définition 1.0 qui exclut les modèles Llama de Meta

Quand Llama fâché, lui toujours faire ainsi
L’IA open-source a sa définition 1.0 qui exclut les modèles Llama de Meta

L’Open Source Initiative (OSI) a publié ce lundi la version finale de sa définition de l’IA open-source. Celle-ci diffère encore un peu de la release candidate diffusée mi-octobre. Comme on pouvait s’en douter aux vues des tensions entre l’OSI et Meta, la définition exclut les modèles de l’entreprise, qui se revendique pourtant leader de l’IA open source.

Comme elle l’avait annoncé, l’Open Source Initiative (OSI) a publié la version 1.0 de sa définition de l’IA open-source. Ce texte, rédigé en collaboration avec différents experts venant de la recherche et de l’industrie, a pour ambition d’adapter la définition de l’open source et les quatre libertés essentielles au monde des modèles d’intelligence artificielle.

Dans son billet de blog, l’OSI explique qu’elle est « le résultat de plusieurs années de recherche et de collaboration, d’une tournée internationale d’ateliers et d’un processus de co-conception d’un an mené par l’Open Source Initiative (OSI), mondialement reconnue par les particuliers, les entreprises et les institutions publiques comme l’autorité qui définit l’Open Source ».

La définition insiste encore plus sur la description des données d’entrainement

Comparée à la version Release Candidate dont nous avions déjà parlé, la base du texte reste évidemment la même. Mais quelques modifications ont quand même été ajoutées.

L’OSI exige maintenant une description « complète » des données utilisées pour entrainer le modèle. Dans sa version RC, l’organisme ne demandait qu’une version « détaillée ». Cette précision renforce l’obligation d’information sur les données d’entrainement.

La définition a été, pendant son processus, critiquée pour accepter que cette description remplace le fait de publier de façon effective les données d’entrainement. L’utilisation de ce terme dans la version finale de la définition vient appuyer l’idée qu’à défaut de les publier, les créateurs de modèles doivent vraiment détailler les informations concernant leurs données d’entrainement.

Cette version insiste aussi, contrairement aux précédentes, sur le processus de filtrage utilisé sur les données collectées pour entrainer les modèles. La méthodologie de ce processus doit être détaillée et le code qui la met en place doit être publié.

Pas de contrainte sur la manière de publier les paramètres

Un dernier paragraphe a été ajouté à la définition pour préciser qu’elle n’exige pas, pour l’instant, de licence spécifique pour les paramètres du modèle : « la définition de l’IA Open Source n’exige pas de mécanisme juridique spécifique pour garantir que les paramètres du modèle sont librement accessibles à tous. Ils peuvent être libres par nature ou une licence ou un autre instrument juridique peut être nécessaire pour garantir leur liberté. Nous pensons que cela deviendra plus clair avec le temps, une fois que le système juridique aura eu l’occasion de se pencher sur les systèmes d’IA open-source ».

Meta fâchée

Comme nous l’avions déjà noté, cette définition crée des tensions entre l’OSI et Meta, qui revendique haut et fort le caractère « open-source » de ses modèles Llama. L’entreprise de Mark Zuckerberg ne détaille notamment pas les données sur lesquelles sont entrainés ses modèles. Comme expliqué plus haut, si l’OSI a rapidement fait des concessions sur la possibilité de ne pas publier les données d’entrainement, elle a encore resserré ses exigences d’information les concernant.

À The Verge, Meta affirme être « d’accord avec [son] partenaire OSI sur de nombreux points », mais pas sur tous, ce qui la pousse à contester le consensus : « il n’existe pas de définition unique de l’IA open source, et la définir est un défi, car les définitions précédentes de l’open source n’englobent pas les complexités des modèles d’IA d’aujourd’hui qui progressent rapidement ».

Malgré ce désaccord avec Meta, la définition a acquis le ralliement d’autres acteurs du secteur. « La nouvelle définition exige que les modèles open source fournissent suffisamment d’informations sur leurs données d’entraînement pour qu’une « personne compétente puisse recréer un système substantiellement équivalent en utilisant des données identiques ou similaires », ce qui va plus loin que ce que font aujourd’hui de nombreux modèles propriétaires ou qui sont open source d’apparence », selon Ayah Bdeir, responsable IA chez Mozilla.

Pour Clément Delangue d’Hugging Face, cette définition est « une aide considérable dans l’élaboration de la conversation sur l’ouverture de l’IA, en particulier en ce qui concerne le rôle crucial des données d’entraînement ».

☕️ Un homme condamné à 18 ans de prison pour avoir créé des images pédocriminelles

Un homme condamné à 18 ans de prison pour avoir créé des images pédocriminelles

Un homme de 27 ans a été condamné à 18 ans de prison au Royaume-Uni pour avoir fabriqué des images d’abus sexuels sur des enfants, explique le Guardian. Utilisant des photos « normales » de vrais enfants, il les a transformés avec le logiciel de création de modèles humains DAZ 3D en images de viols. Ici, contrairement aux « deepfakes » où une tête est transférée sur un autre corps, Hugh Nelson, l’auteur de ces images, a créé complètement les personnages et les scènes.

La police britannique a découvert qu’il les vendait sur internet via des forums de discussion, engrangeant 5 000 Livres sterling (6 000 euros) sur une période de 18 mois. Le journal britannique explique qu’il a, dans certains cas, fourni des images en utilisant des photos d’enfants proches de ses clients.

Le juge Martin Walsh qui a condamné Hugh Nelson a déclaré qu’il était « impossible de savoir » si des enfants avaient été violés à la suite de la création de ses images et que l’auteur ne s’était pas soucié du préjudice causé par la diffusion de ce matériel « déchirant et écœurant ».

Il a pu être arrêté après qu’il a proposé à un policier en couverture la création d’un nouveau personnage pour 80 livres sterling (95 euros).

L’Internet Watch Foundation s’alarmait récemment du franchissement d’un « point de bascule » concernant les images d’abus sexuels d’enfants générées par IA.

☕️ Un homme condamné à 18 ans de prison pour avoir créé des images pédocriminelles

Un homme condamné à 18 ans de prison pour avoir créé des images pédocriminelles

Un homme de 27 ans a été condamné à 18 ans de prison au Royaume-Uni pour avoir fabriqué des images d’abus sexuels sur des enfants, explique le Guardian. Utilisant des photos « normales » de vrais enfants, il les a transformés avec le logiciel de création de modèles humains DAZ 3D en images de viols. Ici, contrairement aux « deepfakes » où une tête est transférée sur un autre corps, Hugh Nelson, l’auteur de ces images, a créé complètement les personnages et les scènes.

La police britannique a découvert qu’il les vendait sur internet via des forums de discussion, engrangeant 5 000 Livres sterling (6 000 euros) sur une période de 18 mois. Le journal britannique explique qu’il a, dans certains cas, fourni des images en utilisant des photos d’enfants proches de ses clients.

Le juge Martin Walsh qui a condamné Hugh Nelson a déclaré qu’il était « impossible de savoir » si des enfants avaient été violés à la suite de la création de ses images et que l’auteur ne s’était pas soucié du préjudice causé par la diffusion de ce matériel « déchirant et écœurant ».

Il a pu être arrêté après qu’il a proposé à un policier en couverture la création d’un nouveau personnage pour 80 livres sterling (95 euros).

L’Internet Watch Foundation s’alarmait récemment du franchissement d’un « point de bascule » concernant les images d’abus sexuels d’enfants générées par IA.

[Édito] De Napster à OpenAI : le copyright sacrifié sur l’autel de l’IA

©🔫 🤖
[Édito] De Napster à OpenAI : le copyright sacrifié sur l’autel de l’IA

En 20 ans d’Internet, de partage et de publication massive de contenus soumis au copyright, le discours public a évolué. Il est passé d’une condamnation totale des pratiques d’échanges entre utilisateurs pairs à pairs à une acceptation tacite de l’entrainement des IA génératives, parfois sur les mêmes masses de données, pourvu que les données ne soient pas nommément citées.

Entre la répression contre les figures symboliques du partage de fichiers sur Internet – Shawn Fanning, Aaron Swartz et Alexandra Elbakyan – et l’utilisation massive des bases de données d’œuvres protégées par le Copyright par les entreprises de l’IA générative, le discours public et politique a bifurqué. D’un tout répressif dont le point d’orgue en France a été la loi Hadopi, nous sommes passés au jet d’un voile pudique sur l’utilisation de données culturelles par les startups qui promettent d’être les prochaines licornes de l’IA.

De la fin des années 90 à celle des années 2010, les politiques du numérique ont notamment été portées par la volonté de protéger du piratage les contenus numériques comme les musiques, les films, mais aussi les livres et les articles scientifiques.


Il reste 86% de l'article à découvrir.
Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

☕️ Chatbots : Meta et Reuters signent un accord

threads instagram facebook

L’agence de presse britannique a signé un accord avec Meta permettant aux chatbots de l’entreprise de Mark Zuckerberg d’utiliser ses contenus.

C’est le premier accord du genre signé par Meta. Son concurrent OpenAI a, quant à lui, signé plusieurs accords, notamment avec le groupe Condé Nast.

Aucune information sur le montant de l’accord n’a été divulguée. Selon Axios, si l’accord permet bien à Meta de proposer des réponses en temps réel aux utilisateurs de Facebook, Instagram, WhatsApp et Messenger via son chatbot, il n’est pas clair qu’il laisse la possibilité à l’entreprise d’entrainer ses grands modèles de langage sur les contenus de l’agence de presse.

Axios rappelle que Meta a conclu ce genre d’accords en 2019 pour afficher les contenus de divers médias dans l’onglet « news » de Facebook avant d’abandonner cette fonctionnalité. Les contenus de l’agence de presse Reuters ne faisaient pas partie de ceux repris dans cet onglet à l’époque.

Reuters a publié une dépêche sur le sujet sans pour autant révéler plus d’informations sur le sujet.

☕️ Chatbots : Meta et Reuters signent un accord

threads instagram facebook

L’agence de presse britannique a signé un accord avec Meta permettant aux chatbots de l’entreprise de Mark Zuckerberg d’utiliser ses contenus.

C’est le premier accord du genre signé par Meta. Son concurrent OpenAI a, quant à lui, signé plusieurs accords, notamment avec le groupe Condé Nast.

Aucune information sur le montant de l’accord n’a été divulguée. Selon Axios, si l’accord permet bien à Meta de proposer des réponses en temps réel aux utilisateurs de Facebook, Instagram, WhatsApp et Messenger via son chatbot, il n’est pas clair qu’il laisse la possibilité à l’entreprise d’entrainer ses grands modèles de langage sur les contenus de l’agence de presse.

Axios rappelle que Meta a conclu ce genre d’accords en 2019 pour afficher les contenus de divers médias dans l’onglet « news » de Facebook avant d’abandonner cette fonctionnalité. Les contenus de l’agence de presse Reuters ne faisaient pas partie de ceux repris dans cet onglet à l’époque.

Reuters a publié une dépêche sur le sujet sans pour autant révéler plus d’informations sur le sujet.

120 astrophysiciens demandent à la FCC de mettre en pause les lancements de satellites de Starlink

Satellites of love ... and beaucoup de trash aussi
120 astrophysiciens demandent à la FCC de mettre en pause les lancements de satellites de Starlink

Des chercheurs en astrophysique ont signé une lettre envoyée à la Federal Communications Commission (FCC), l’autorité de régulation américaine, lui demandant de mettre fin à l’ « absurde » exemption qu’elle a accordée aux opérateurs satellite concernant les normes environnementales à respecter.

De plus en plus de travaux scientifiques pointent les problèmes environnementaux qu’engendrent les constellations de satellites en orbite terrestre basse comme Starlink, Kuiper ou encore OneWeb.

Jeudi 24 octobre, 120 astrophysiciens ont envoyé une lettre qui reproche au régulateur américain, la Federal Communications Commission (FCC), de ne pas remplir son rôle concernant ces constellations. L’association de consommateurs américaine Public Interest Research Group l’a rendue publique [PDF].

Les chercheurs font le constat que « le nombre de satellites de taille importante en orbite terrestre basse
au niveau le plus bas a été multiplié par 127 et le nombre total de gros satellites en orbite terrestre basse a été multiplié par 12 en cinq ans, sous l’impulsion de SpaceX
».

500 000 satellites pour toutes les méga-constellations

Et comme on le sait, ils rappellent que cette augmentation du nombre de satellites lancés dans l’espace est loin de s’arrêter : « la nouvelle course à l’espace s’accélère rapidement : certains experts estiment que 58 000 satellites supplémentaires seront lancés d’ici 2030. D’autres plans ont été proposés pour lancer 500 000 satellites afin de créer de nouvelles méga-constellations qui alimenteraient l’internet par satellite ».

Mais, pour ces scientifiques, « nous devrions regarder avant de sauter ». C’est-à-dire analyser les effets de ces lancements sur notre environnement avant de s’engager dans cette course.

« Les effets néfastes sur l’environnement du lancement et de la combustion d’un si grand nombre de satellites ne sont pas clairs », estiment-ils. Ils s’appuient notamment sur le fait que « le gouvernement fédéral [américain] n’a pas réalisé d’étude environnementale pour en comprendre les effets ». Mais ils ajoutent que « ce que nous savons, c’est qu’un plus grand nombre de satellites et de lancements entraîne une augmentation des gaz et des métaux nocifs dans notre atmosphère ». On sait, par exemple, que leur dégradation, tous les cinq ans quand ils redescendent dans l’atmosphère, endommage la couche d’ozone.

« Nous ne devrions pas nous précipiter pour lancer des satellites à cette échelle sans nous assurer que les avantages justifient les conséquences potentielles du lancement de ces nouvelles méga-constellations, qui rentrent ensuite dans notre atmosphère pour y brûler ou y créer des débris » assènent-ils.

Une pause dans les lancements et une vraie étude d’impact de la FCC demandées

Ces chercheurs demandent donc à la FCC de reprendre les choses depuis le départ et de mettre en pause tous les lancements de ces satellites tant qu’elle n’a pas conduit une véritable étude d’impact environnemental. Ils font remarquer que « la course du new space a démarré plus rapidement que les gouvernements n’ont pu agir ». Les agences de régulation examinent les licences individuelles et ne disposent pas des politiques nécessaires pour évaluer les effets globaux de toutes les méga-constellations proposées.

Et ils font remarquer que la FCC « contourne l’obligation de contrôle environnemental des méga-constellations de satellites prévue par la loi sur la politique environnementale nationale (National Environmental Policy Act) en invoquant une exclusion catégorique ». Ils s’appuient sur un constat déjà fait par le Government Accountability Office américain (organisme d’audit, équivalent de la Cour des comptes) en 2022. « En mai 2024, la FCC n’a pas réexaminé ses règles et continuait à exclure les constellations de satellites du contrôle environnemental », affirment-ils.

120 astrophysiciens demandent à la FCC de mettre en pause les lancements de satellites de Starlink

Satellites of love ... and beaucoup de trash aussi
120 astrophysiciens demandent à la FCC de mettre en pause les lancements de satellites de Starlink

Des chercheurs en astrophysique ont signé une lettre envoyée à la Federal Communications Commission (FCC), l’autorité de régulation américaine, lui demandant de mettre fin à l’ « absurde » exemption qu’elle a accordée aux opérateurs satellite concernant les normes environnementales à respecter.

De plus en plus de travaux scientifiques pointent les problèmes environnementaux qu’engendrent les constellations de satellites en orbite terrestre basse comme Starlink, Kuiper ou encore OneWeb.

Jeudi 24 octobre, 120 astrophysiciens ont envoyé une lettre qui reproche au régulateur américain, la Federal Communications Commission (FCC), de ne pas remplir son rôle concernant ces constellations. L’association de consommateurs américaine Public Interest Research Group l’a rendue publique [PDF].

Les chercheurs font le constat que « le nombre de satellites de taille importante en orbite terrestre basse
au niveau le plus bas a été multiplié par 127 et le nombre total de gros satellites en orbite terrestre basse a été multiplié par 12 en cinq ans, sous l’impulsion de SpaceX
».

500 000 satellites pour toutes les méga-constellations

Et comme on le sait, ils rappellent que cette augmentation du nombre de satellites lancés dans l’espace est loin de s’arrêter : « la nouvelle course à l’espace s’accélère rapidement : certains experts estiment que 58 000 satellites supplémentaires seront lancés d’ici 2030. D’autres plans ont été proposés pour lancer 500 000 satellites afin de créer de nouvelles méga-constellations qui alimenteraient l’internet par satellite ».

Mais, pour ces scientifiques, « nous devrions regarder avant de sauter ». C’est-à-dire analyser les effets de ces lancements sur notre environnement avant de s’engager dans cette course.

« Les effets néfastes sur l’environnement du lancement et de la combustion d’un si grand nombre de satellites ne sont pas clairs », estiment-ils. Ils s’appuient notamment sur le fait que « le gouvernement fédéral [américain] n’a pas réalisé d’étude environnementale pour en comprendre les effets ». Mais ils ajoutent que « ce que nous savons, c’est qu’un plus grand nombre de satellites et de lancements entraîne une augmentation des gaz et des métaux nocifs dans notre atmosphère ». On sait, par exemple, que leur dégradation, tous les cinq ans quand ils redescendent dans l’atmosphère, endommage la couche d’ozone.

« Nous ne devrions pas nous précipiter pour lancer des satellites à cette échelle sans nous assurer que les avantages justifient les conséquences potentielles du lancement de ces nouvelles méga-constellations, qui rentrent ensuite dans notre atmosphère pour y brûler ou y créer des débris » assènent-ils.

Une pause dans les lancements et une vraie étude d’impact de la FCC demandées

Ces chercheurs demandent donc à la FCC de reprendre les choses depuis le départ et de mettre en pause tous les lancements de ces satellites tant qu’elle n’a pas conduit une véritable étude d’impact environnemental. Ils font remarquer que « la course du new space a démarré plus rapidement que les gouvernements n’ont pu agir ». Les agences de régulation examinent les licences individuelles et ne disposent pas des politiques nécessaires pour évaluer les effets globaux de toutes les méga-constellations proposées.

Et ils font remarquer que la FCC « contourne l’obligation de contrôle environnemental des méga-constellations de satellites prévue par la loi sur la politique environnementale nationale (National Environmental Policy Act) en invoquant une exclusion catégorique ». Ils s’appuient sur un constat déjà fait par le Government Accountability Office américain (organisme d’audit, équivalent de la Cour des comptes) en 2022. « En mai 2024, la FCC n’a pas réexaminé ses règles et continuait à exclure les constellations de satellites du contrôle environnemental », affirment-ils.

❌