Vue normale

À partir d’avant-hierNext.ink

☕️ e-Enfance devient le premier signaleur de confiance en France

8 novembre 2024 à 16:00

Le DSA prévoit que les plateformes travaillent avec des « signaleurs de confiance » : des entités, associations ou individus, qui, labellisés au sein de chaque État, sont reconnus pour leur expertise et voient leurs notifications traitées en priorité.

Harcèlement sur les réseaux sociaux en Europe

Encore fallait-il qu’il en existe. C’est maintenant le cas en France, puisque l’Arcom, chargée de la mise en oeuvre du DSA en France, vient de désigner l’association e-Enfance, comme premier signaleur de confiance.

Cette association reconnue d’utilité publique gère notamment le 3018, numéro gratuit et anonyme pour les victimes de harcèlement ou de violences numériques.

Les signaleurs de confiance sont chargés de soumettre aux plateformes des signalements de contenus soupçonnés d’être illégaux. Ils doivent être la porte d’entrée indépendante de ces signalements vers les plateformes. Une fois que le signalement est transmis, si la plateforme décide de retirer le contenu, l’auteur doit en être informé et a la possibilité de de faire appel. La personne qui a fait le signalement a la même possibilité si la décision n’est pas allé dans son sens.

e-Enfance travaille déjà avec Pharos, la Commission européenne, Facebook et YouTube sur le signalement de contenus.

Anthropic ne résiste pas à l’appel des renseignements américains

8 novembre 2024 à 12:28
What could go wrong?
Anthropic ne résiste pas à l’appel des renseignements américains

Les services de l’armée et des renseignements américains vont pouvoir utiliser le modèle d’IA générative Claude de la startup Anthropic via une plateforme. Celle-ci sera mise en place via un partenariat entre la startup, Amazon Web Services et Palantir.

Dans un communiqué de presse publié le 7 novembre, Palantir, Anthropic et Amazon Web Services (AWS) expliquent qu’elles vont fournir aux agences de renseignement et de défense des États-Unis un accès aux modèles Claude d’Anthropic (version 3 et 3.5) sur la plateforme d’IA développée par Palantir (nommée simplement AI Platform, AIP) et hébergée par AWS.

Palantir et AWS ont obtenu l’accréditation « impact level 6 » de l’Agence de défense des systèmes d’information (Defense Information Systems Agency, DISA). Ce niveau d’accréditation est réservé au stockage et au traitement des informations classifiées jusqu’à « secret » (un cran en dessous de « top secret ») et exige, notamment, que ce stockage se fasse dans un cloud accessible uniquement aux employés du ministère de la Défense.

L’annonce arrive alors que Meta vient de retourner sa veste en autorisant l’usage militaire de ses modèles de langage Llama par les États-Unis. L’entreprise de Mark Zuckerberg avait imposé jusque-là dans ses conditions d’utilisation l’interdiction de ses logiciels d’intelligence artificielle à des fins « militaires, de guerre ou nucléaires », entre autres. Mais on a appris aussi récemment que des chercheurs chinois se servent de Llama pour des usages militaires sans que Meta ait autorisé cette utilisation.

Des conditions d’utilisation floues chez Anthropic

Mais du côté d’Anthropic, les choses sont plus floues. Si les fondateurs de l’entreprise et anciens d’OpenAI ont affiché une volonté d’un usage mesuré de leur technologie, les conditions d’utilisation de Claude ne restreignent pas clairement une utilisation militaire. Le texte prévoit seulement que les modèles d’Anthropic ne puissent être utilisé pour « interférer avec le fonctionnement des bases militaires et des infrastructures connexes ».

La Startup prévoit bien des « exigences relatives aux cas d’utilisation à haut risque » mais ceux-ci se limitent aux aspects légaux, de santé, d’assurance de finance, d’emploi, d’utilisation dans un usage académique ou médiatique sans que ne soit évoqués les usages militaires ou de renseignement.

Pourtant, dans un billet de blog publié en juin, Anthropic expliquait avoir élaboré « des exceptions contractuelles » à sa politique générale d’utilisation, « soigneusement calibrées pour permettre des utilisations bénéfiques par des agences gouvernementales soigneusement sélectionnées ». Ces exceptions sont floues et ne mentionnent pas spécifiquement des activités militaires mais dans son billet, la startup assurait qu’elles permettent que Claude soit « utilisé pour des analyses de renseignements étrangers légalement autorisées, telles que la lutte contre le trafic d’êtres humains, l’identification de campagnes secrètes d’influence ou de sabotage, et l’avertissement à l’avance d’activités militaires potentielles, ouvrant ainsi une fenêtre diplomatique pour les prévenir ou les dissuader ».

Pour ce contrat, de toute façon, la startup peut choisir à loisir d’appliquer ou non ses conditions d’utilisation, ou d’avoir un accord spécifique avec le gouvernement américain.

Une concurrence en vue

Si Anthropic est la première entreprise de l’IA générative à accéder à ce genre de contrat, on peut s’attendre à ce que ses concurrents la rejoignent petit à petit. OpenAI a aussi supprimé les mentions d’interdiction d’utilisation dans des contextes militaire et de guerre et a passé récemment un contrat avec Carahsoft, une entreprise spécialisée dans les contrats numériques gouvernementaux américains, qui, comme l’explique Forbes, a récemment été accusée de pratiques anticoncurrentielles.

La modification faite par Meta sur les conditions d’utilisation des modèles Llama indique aussi une volonté de l’entreprise de Mark Zuckerberg de ne pas laisser filer ce marché.

☕️ L’IA générative débarque jusque dans Notepad

8 novembre 2024 à 08:41

Depuis l’arrivée de ChatGPT, les GAFAM ont trouvé un moyen simple à défaut d’être original de booster leurs produits : l’IA générative.

Microsoft annonce ajouter dans son fameux éditeur Notepad (appelé aussi Bloc-notes en français) un outil appelé Rewrite en anglais, Réécriture en français, qui doit permettre de « reformuler des phrases, ajuster le ton ou modifier la longueur de votre contenu en fonction de vos préférences ».

L’éditeur a ajouté l’option dans la barre d’outils avec un accès par le raccourci clavier Ctrl + I. Pour l’instant, Microsoft n’a pas déployé la fonctionnalité pour tous les utilisateurs de Windows : « la réécriture dans le Bloc-notes est actuellement disponible pour les Windows Insiders dans les canaux Canary et Dev sur Windows 11 ».

Et encore, puisque l’entreprise précise que c’est le cas pour les utilisateurs qui se trouvent dans les pays suivants : États-Unis, France, Royaume-Uni, Canada, Italie et Allemagne. Pour ceux d’Australie, de Nouvelle-Zélande, de Malaisie, de Singapour et de Taïwan, il faut disposer d’un abonnement Microsoft 365 Personnel ou Famille, ou d’un abonnement Copilot Pro.

Cette fonctionnalité n’est par contre pas indéfiniment utilisable. Microsoft explique avoir mis en place un système de « crédits IA » qu’il faut réapprovisionner en s’abonnant à Copilot Pro.

Réécriture utilise les serveurs d’Azure « pour traiter et générer du contenu en fonction de vos options de sélection de texte et de personnalisation », et Microsoft assure qu’elle « ne stocke pas le texte ou le contenu généré après le traitement ».

☕️ Cybercriminalité : une vaste opération d’Interpol mène à l’arrestation de 41 personnes

7 novembre 2024 à 14:49

Interpol explique dans un communiqué avoir mené une opération nommée « Synergia II » entre le 1er avril et le 31 aout 2024. Elle ciblait spécifiquement le phishing, les ransomware et le vol d’information via des outils comme des infostealers.

Synergia II a impliqué les forces de l’ordre de 95 pays (Hong Kong, la Mongolie, Macau, Madagascar et l’Estonie sont particulièrement mis en avant par l’organisation internationale), mais aussi des entreprises privées comme Group-IB, Trend Micro, Kaspersky et Team Cymru.

L’Organisation internationale de police criminelle explique que cette opération a mené à 41 arrestations et des enquêtes concernent 65 autres personnes.

Sur un peu près 30 000 adresses IP identifiées comme liées à de telles activités, « 76 % d’entre elles ont été mises hors service et 59 serveurs ont été saisis. En outre, 43 appareils électroniques, dont des ordinateurs portables, des téléphones mobiles et des disques durs, ont été saisis ».

Viginum alerte sur une hausse des attaques de manipulation de l’information ciblant la France

7 novembre 2024 à 13:16
Viginum alerte sur une hausse des attaques de manipulation de l’information ciblant la France

Lors d’une audition par la Commission des affaires étrangères, de la défense et des forces armées du Sénat quelques heures après l’élection de Donald Trump, le Secrétariat général de la Défense et de la Sécurité nationale (SGDSN), l’Anssi et Viginum ont alerté sur l’augmentation des tentatives de manipulations de l’information en France.

Alors que le projet de loi de finances 2025 va bientôt passer devant le Sénat, sa commission des affaires étrangères, de la défense et des forces armées a auditionné mercredi 6 novembre, le secrétaire général du SGDSN, Stéphane Bouillon, le directeur général de l’ANSSI, Vincent Strubel, et Marc-Antoine Brillant, le chef du Service de vigilance et de protection contre les ingérences numériques étrangères (Viginum).

Pour rappel, Viginum et l’ANSSI sont deux services à compétence nationale rattachés au secrétariat général de la défense et de la sécurité nationale (SGDSN).

Concernant les financements, les coupes budgétaires prévues par le gouvernement touchent aussi le budget de ce service interministériel. Stéphane Bouillon confirme, comme le relate Public Sénat : « nous devrons fonctionner avec 307,6 millions d’euros, soit 8 millions de moins qu’en 2024 » tout en expliquant avoir des mesures « pour assurer la continuité des missions importantes ». Il assure les sénateurs que « nous ne serons pas empêchés dans notre cœur de métier ».

Le secrétaire général du SGDSN a aussi estimé, alors que cette audition se passait le jour de la proclamation des résultats des élections américaines, que « l’élection de Donald Trump va rebattre toutes les cartes » dans le conflit déclenché par l’invasion de l’Ukraine par la Russie.

Une « bagarre stratégique »

S’agissant des enjeux numériques et technologiques, « ceux-ci font l’objet d’une véritable bagarre stratégique pour la conquête d’une pôle-position ou le rattrapage d’un retard », a estimé Marc-Antoine Brillant.

Il a notamment fait la liste des cinq campagnes dévoilées par Viginum : « la fameuse affaire des étoiles de David, la campagne « Olympia » qui impliquait des acteurs azerbaïdjanais qui visait à dénigrer les capacités de la France à organiser les JO dans de bonnes conditions de sécurité, le dispositif Portal combat, la dénonciation des manœuvres informationnelles en Nouvelle-Calédonie de la part d’acteurs pro azerbaïdjanais et la campagne Matriochka ».

Si l’année n’est pas encore complètement écoulée, le responsable de Viginum a expliqué aux sénateurs qu’il fallait s’attendre à une forte augmentation du volume des manipulations de l’information à destination des français : « L’année dernière, je vous avais rendu compte d’une activité opérationnelle qui était croissante avec près de 40% de détections supplémentaires par rapport à l’année 2022. En 2023, nous avions identifié 230 phénomènes inauthentiques de manipulation de l’information. Pour cette année 2024, au 1er octobre, nous avons déjà dépassé ce chiffre à la faveur de dispositifs informationnels particulièrement persistants dans notre débat public numérique et très opportunistes ».

Une menace « intime »

Devant les sénateurs, Marc-Antoine Brillant a insisté pour qualifier la manipulation de l’information de menace « intime », pour plusieurs raisons. Et d’expliquer : « tout d’abord parce qu’elle connait le fonctionnement de notre démocratie, de notre société et de nos lignes de fracture. Elle suit notre actualité, s’y intéresse et tente d’exploiter tout fait divers ou tout événement. La situation de nos territoires ultramarins est parfaitement connue de certains acteurs étrangers qui n’hésitent pas à susciter, attiser la contestation, en trompant volontairement l’opinion publique. Elle connait aussi notre histoire et notre héritage ». Il prend la tentative d’instrumentalisation de notre débat public sur le sujet des étoiles de David comme un « parfait exemple ». Mais, pour lui, c’est le cas aussi des « accusations répétées de notre politique étrangère d’être colonialiste dans certains territoires ».

Ce qualificatif d’ «intime » se justifie, selon lui, aussi parce qu’ « elle s’attache à nous accompagner dans la durée avec des modes opératoires qui sont de plus en plus persistants ». Ici, il s’appuie notamment sur les campagnes RNN/ Doppelgänger et mais aussi Portal Combat qui « ont démontré leur capacité d’adaptation à nos réponses ».

Selon lui, cette « menace intime » « nous met à l’épreuve et nous impose de l’humilité et des réponses qui ne sont pas uniquement du champ régalien mais feront davantage la preuve de celui de l’éducation, de l’information et d’une meilleure collaboration avec la société civile ».

Le responsable de Viginum a rappelé aux sénateurs que cette manipulation de l’information passe par l’animation de réseaux de faux comptes pour massifier la diffusion de contenus et également la génération de contenus faux crédibles grâce à l’usage de l’IA générative, l’utilisation d’influenceurs ou de comptes à forte audience pour amplifier la visibilité de certains récits et qui sont susceptibles de remplacer, à terme, nos médias auprès de certaines catégories de citoyens. Mais il pointe aussi l’usurpation de l’identité d’institutions officielles « comme la DGSI, le SGDSN mais également la CIA ou nos médias ».

Difficile mesure de l’impact réel

Sur le résultat réel de ces tentatives de manipulation, Marc-Antoine Brillant a expliqué aux sénateurs qu’il n’y a pas de consensus académique ou scientifique pour le mesurer. « Principalement empirique, l’analyse de l’impact consiste bien souvent à relever des indicateurs de visibilité des principales plateformes de réseaux sociaux, avec le caractère relatif de ces indicateurs (nombre de vues, de likes, de repartage ou commentaires) » décrit-il.

Mais il s’est empressé de rajouter que « ça ne fournit qu’une vision parcellaire d’une exposition d’un lectorat ou auditorat à une campagne sans permettre de connaitre les effets sur le long terme ». Et il ajoute qu’ « une simple approche qui serait fondée aujourd’hui sur des indicateurs issus de plateforme, ne permet qu’une mesure partielle de la visibilité de la manœuvre informationnelle puisqu’elle écarte la nécessaire analyse de l’état sociologique d’une population donnée exposée de manière répétée à un narratif sur un temps long avec les biais qui peuvent en découler ».

Il ajoute donc que Viginum « a une posture de prudence s’agissant de la mesure d’un impact d’une campagne. Nous préférons évoquer un risque d’impact où on essaye de faire le lien avec un changement de comportement dans la population qui est visée et de voir si une campagne qui a un champ virtuel numérique produit des effets dans le champ de la vie réelle ».

☕️ Google a accidentellement publié Jarvis, une IA qui automatise des tâches dans Chrome

7 novembre 2024 à 08:28

The Information a repéré que Google avait mis en ligne, accidentellement et pendant quelques instants, une pré-version de son nouvel outil d’intelligence artificielle nommé Jarvis.

Certains utilisateurs de Chrome ont pu brièvement le télécharger dans la boutique d’extensions du navigateur web Chrome de Google. Cette extension était décrite comme « un agent d’utilisation de l’ordinateur ». Elle n’était pour autant pas utilisable, car demandant des accès non autorisés dans Chrome.

Le média américain avait déjà décrit ce projet de l’entreprise fin octobre : une extension Chrome permettant d’automatiser certaines tâches d’utilisation du navigateur. Jarvis utiliserait un des modèles de langage de la famille Gemini.

Jarvis doit permettre d’automatiser certaines tâches du quotidien telles que « la recherche d’informations, l’achat d’un produit ou la réservation d’un vol ».

Selon The Information, la date de publication officielle du projet est prévue pour le mois de décembre prochain. Si Jarvis est le nom de travail de l’extension en interne, il est possible que Google choisisse de distribuer l’extension sous un autre nom à ce moment-là.

Logo de Google Chrome

Des chercheurs chinois se servent de Llama pour des usages militaires

5 novembre 2024 à 12:47
ChatBIT… sérieusement ?
Des chercheurs chinois se servent de Llama pour des usages militaires

L’un des modèles de langage de la famille Llama de Meta est utilisé par des chercheurs chinois en lien avec l’armée de leur pays et pour de potentielles applications militaires. L’entreprise de Mark Zuckerberg souligne qu’elle n’a pas autorisé cette utilisation et qu’elle est contraire à sa politique d’utilisation de ses modèles.

Dans une enquête publiée ce vendredi 1er novembre, l’agence de presse Reuters explique avoir repéré le travail de chercheurs chinois s’appuyant sur un modèle de langage de la famille Llama créée par Meta. Ils l’ont utilisé pour créer un outil d’IA destiné à des fins militaires et améliorer la prise de décisions opérationnelles de l’armée chinoise.


Il reste 83% de l'article à découvrir.
Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

☕️ SearchGPT ouvre ses portes aux utilisateurs Plus et Team de ChatGPT

4 novembre 2024 à 07:46

OpenAI a annoncé jeudi 31 octobre la disponibilité de son moteur de recherche boosté à l’IA générative aux clients Plus et Team de ChatGPT.

En juillet, l’entreprise avait mis en place un « prototype temporaire » de moteur de recherche avec accès sur liste d’attente. Le service semble maintenant prêt à être utilisé par une plus grande audience.

OpenAI n’ouvre pas tout de suite toutes les vannes puisqu’elle explique que ses utilisateurs « Enterprise » et « Edu » auront accès à SearchGPT « dans les prochaines semaines » et que le délai devrait être de plusieurs mois avant l’ouverture aux utilisateurs gratuits.

L’entreprise met en avant le fait que son chatbot traite maintenant des données accessibles directement sur Internet. Elle a noué des partenariats avec des sources d’informations pour répondre en temps réel sur des sujets comme la météo, la bourse, le sport, les infos et la localisation sur des cartes.

Selon OpenAI, son chatbot donne des liens vers les sources qu’il utilise. Olivier Martinez a posté sur LinkedIn un exemple de « discussion » sur l’actualité du jour.

OpenAI cite Louis Dreyfus, PDG du groupe le Monde qui a signé un accord avec l’entreprise précédemment : « Nous sommes convaincus que la recherche par IA sera, dans un avenir proche et pour les prochaines générations, un des principaux moyens d’accès à l’information, et le partenariat avec OpenAI positionne Le Monde à l’avant-garde de ce changement. Il nous permet de tester les innovations à un stade précoce tout en préservant les valeurs fondamentales et l’intégrité du journalisme ».

En juillet dernier, Next avait montré que ChatGPT produisait de faux liens vers les médias partenaires d’OpenAI, dont Le Monde et Politico.

Le gouvernement va élargir ses outils de veille numérique sur l’opinion publique

1 novembre 2024 à 09:01
Le gouvernement va élargir ses outils de veille numérique sur l’opinion publique

Après l’observation des réseaux sociaux, le Service d’information du gouvernement élargit sa veille numérique aux recherches sur les moteurs et aux signaux faibles comme les appels à rassemblements.

Depuis des décennies, l’exécutif français a passé des commandes aux entreprises de sondage pour essayer de connaître l’état de l’« opinion publique » sur tout un tas de sujets plus ou moins politiques, avec en point d’orgue l’affaire politico-financière des sondages de l’Élysée sous Nicolas Sarkozy.

Avec l’utilisation de plus en plus massive des réseaux sociaux, le Service d’information du gouvernement (SIG) a progressivement ajouté aux sondages une surveillance des réactions en ligne des Français à l’action publique et à ces sujets politiques. En 2021, le SIG avait lancé un appel d’offres de trois lots pour que des entreprises lui fournissent des outils pour faire ces analyses à chaud de l’état d’esprit des français.

Nos confrères de l’Informé ont repéré que le SIG a, cette année, élargit cette demande en créant une liste (disponible sur le Bulletin officiel des annonces des marchés publics) de cinq lots pour un montant maximal de 1,26 million d’euros hors taxes par an, soit 5,05 millions d’euros sur quatre ans.

Analyse des réseaux et des recherches en ligne

À l’écoute des réseaux sociaux (social listening, en bon français), le SIG a ajouté celle des recherches en ligne sur les moteurs (search listening) ainsi que des signaux faibles « pour distinguer ceux qui sont le plus susceptible d’impacter l’activité gouvernementale », dont les appels à rassemblement initiés sur le web.

Le premier lot est décrit comme la mesure d’impact en temps réel des contenus publics accessibles en ligne et concerne l’analyse des publications des internautes français sur Internet, aussi bien sur les réseaux sociaux, les plateformes de vidéos que la publication d’articles ou des discussions sur des forums. Les outils utilisent les diverses statistiques d’engagement pour faire remonter ou non les différents sujets au service du gouvernement.

Le lot 2 doit permettre au SIG mais aussi à d’autres services du gouvernement d’avoir des outils de suivi de ces indicateurs.

Mais comme l’ont donc remarqué nos confrères, le SIG a notamment ajouté un lot 3 pour la détection « de signaux faibles qualifiés pour distinguer ceux qui sont le plus susceptible d’impacter l’action publique ». Une fois détectés, ces signaux doivent être intégré à l’outil de reporting. Et le lot 4 est « dédié au search listening, une méthode d’analyse complémentaire de l’écoute sociale, qui permettra d’étudier les mots clés les plus spontanément recherchés (SEO / hashtags utilisés / FAQ / etc.) afin d’orienter les stratégies de communication ».

La demande porte, comme l’explique un des documents de l’appel d’offre (PDF), sur « la fourniture d’outils et d’études de social et search listening, de mesure d’impact sur les conversations en ligne pour détecter, analyser et mesurer les préoccupations et attentes des internautes vis-à-vis de l’action du Gouvernement et de l’actualité en général ». L’appel d’offre demande d’intégrer aux outils les « innovations techniques, avec notamment le déploiement de l’intelligence artificielle qui doit permettre des gains de temps significatifs dans l’exploitation fine de données toujours plus exponentielles, via notamment la proposition de tableaux de bord ou encore la détection qualifiée de signaux faibles, au-delà de l’identification de leur viralité ».

La présidentielle incluse dans la période d’analyse

Comme le souligne l’Informé, le sujet est particulièrement critique puisque plusieurs élections législatives anticipées et le scrutin présidentiel de 2027 sont inclus dans la période couverte par les cinq lots.

Le service du gouvernement justifie ces cinq lots auprès de nos confrères par la nécessité de coller aux évolutions technologiques, ce qui correspond au texte ci-dessus. À nos confrères, ce service explique ne pas avoir jugé utile de saisir la CNIL pour l’utilisation de ces données qui sont accessibles publiquement. « Les données privées dans les groupes Facebook ou comptes Instagram privés ne sont pas accessibles via les outils et ne sont pas traitées », a précisé le SIG à l’Informé.

La date limite de réponse est le mercredi 6 novembre et il faudra attendre mars prochain pour connaître les prestataires choisis.

☕️ #LIDD d’Halloween : baladez-vous dans le bestiaire plus ou moins effrayant du CNRS

1 novembre 2024 à 05:00

Pour Halloween, les iconographes et documentalistes du CNRS vous proposent une galerie d’images toutes plus effrayantes les unes que les autres !

De l’embryon de souris au blob se développant sur un jouet en passant par les inévitables araignées et leur toile, les galeries de photos du CNRS regorgent de photos qui vous feront frissonner !

IA générative et open source : les services du gouvernement proposent leur grille de lecture

31 octobre 2024 à 13:42
IA ouvre toi... mais pas trop
IA générative et open source : les services du gouvernement proposent leur grille de lecture

Alors que l’Open Source Initiative (OSI) a publié sa définition de l’IA open source, les services du gouvernement français publient un comparateur d’ouverture de ce genre de modèles pour aider à s’y retrouver et à choisir son modèle en fonction des différents critères d’ouverture.

L’Open Source Initiative (OSI) a récemment proposé sa version 1.0 de ce qu’est une IA open source. Elle reprend notamment quatre « libertés » inspirées de celles définies par la Free Software Foundation concernant le logiciel libre :

  • Utiliser le système à n’importe quelle fin et sans avoir à demander la permission ;
  • Étudier le fonctionnement du système et inspecter ses composants ;
  • Modifier le système dans n’importe quel but, y compris pour en changer les résultats ;
  • Partager le système pour que d’autres puissent l’utiliser, avec ou sans modifications, dans n’importe quel but.

Si cette définition permet une utilisation très large du modèle, elles ne sont pas toutes nécessaires à chaque projet. Certains peuvent même vouloir par eux-mêmes des restrictions. Les discussions politiques autour de ce terme sont actuellement assez vives en coulisse, alors que les textes juridiques comme l’AI Act s’y intéressent.

Le Pôle d’Expertise de la Régulation Numérique (PEReN) du gouvernement français explique, par exemple, que « [sa] philosophie [le] conduit en général à privilégier les modèles les plus ouverts, mais dont les conditions d’utilisation ne permettent pas les usages non éthiques ».

Un tableau comparatif, évolutif et coopératif

Ce service du gouvernement propose depuis mardi un comparateur de différents modèles selon les critères d’ouverture (14 modèles de générateurs de textes, 6 modèles de générateurs d’images). Quatre grandes catégories sont disponibles et on peut choisir, par exemple, si on veut (oui, non ou sans préférence) que la licence du modèle permette la redistribution, les usages commerciaux, tous les usages ou limite explicitement certains usages non-éthiques.

Le même tableau propose de filtrer selon l’accessibilité des poids, des données ou de la documentation. Le PEReN a aussi introduit dans son tableau les critères de disponibilité du code d’entrainement sous licence compatible OSI, la transparence sur l’infrastructure et le coût de l’entrainement, les articles scientifiques et ou les rapports techniques associés au modèle.

Cet outil permet à un potentiel utilisateur de choisir son modèle, mais aussi de voir que les critères d’ouverture sont multiples.

Par exemple, en un clin d’œil, il peut voir que la licence d’utilisation d’un modèle comme BLOOM, le seul du tableau dont les données sont accessibles publiquement, n’autorise pas tous les usages. À l’inverse, Mistral, pour l’utilisation de son modèle NeMo, permet de faire tout et n’importe quoi avec, mais ne fournit pas de documentation complète sur l’origine de ses données d’entrainement.

Un modèle comme Claire-7B, créé par Linagora, utilise la licence Creative Commons By-NC-SA et ne peut être utilisé à des fins commerciaux.

Le service du gouvernement français permet à tout un chacun de réutiliser « librement » cette page comme source et encourage à le contacter pour ajouter des références ou des corrections. Le tableau « se veut collaboratif et dynamique et sera amené à évoluer ».

Une attention à avoir sur la gouvernance

Le PEReN diffuse aussi un document d’éclairage sur l’Open source et l’IA [PDF]. Daté d’avril 2024 (donc avant la publication de la version 1.0 de la définition de l’OSI), il aborde les synergies possibles, du point de vue de ce service, entre open source et IA.

Il aborde notamment la diversité des gouvernances possibles dans cet écosystème et pointe les difficultés. Il prend appui sur l’exemple du système d’exploitation open source Android (via AOSP), « emblématique selon Google de l’open source » mais qui « est de facto sous le contrôle de cette entreprise, qui a pu s’assurer la maîtrise complète de l’écosystème, au point d’avoir été sanctionnée pour pratiques anticoncurrentielles par la Commission Européenne ».

« La qualité d’open source n’apparaissant pas suffisante pour prémunir de dérives, il semble nécessaire de rester particulièrement vigilant à la forme de gouvernance qui peut sous-tendre les projets open source dans le domaine de l’IAG », ajoute le PEReN.

☕️ Automattic est à court d’employés

31 octobre 2024 à 08:07
Automattic est à court d’employés

En octobre, Matt Mullenweg a proposé deux offres de départ aux salariés de son entreprise Automattic, dans le cadre du conflit juridique et commercial qu’il a engendré contre son concurrent WP Engine, qualifiant celui-ci de « cancer de WordPress ». Lors d’une conférence organisée par TechCrunch ce mercredi, le co-créateur du logiciel WordPress a avoué que son entreprise était maintenant « très en manque de personnel ».

Matt Mullenweg n’a pas révélé le nombre de départs lors de la seconde offre. Néanmoins, il avait annoncé que 159 salariés avaient sauté sur l’occasion de la première. Il a confirmé lors de cette conférence que son entreprise était passée d’environ 1 900 salariés à environ 1 700 depuis le début de ce conflit ouvert, tout en embauchant 26 personnes.

Cette déclaration d’un manque de personnel vient confirmer que les deux offres visaient à trouver les sources internes des informations sur ce qu’il se passait au sein d’Automattic pendant le conflit. Lors de l’annonce de la seconde offre, Matt Mullenweg avait affirmé avoir « les moyens d’identifier les sources des fuites » et que la proposition était une « opportunité de se retirer de façon élégante ».

Au cours de cette conférence, en réponse à une question sur la création d’un éventuel fork de WordPress suite à l’ouverture de ce conflit, le co-créateur du logiciel a encouragé l’idée : « je pense que ce serait fantastique pour que les gens puissent avoir une autre gouvernance ou une autre approche ». Matt Mullenweg a affirmé que le logiciel avait déjà été « forké » plusieurs fois et a ajouté que « c’est l’une des grandes qualités de l’open source : un fork peut être créé ».

☕️ Visa va supprimer 1 400 emplois

31 octobre 2024 à 07:36

Selon le Wall Street Journal, l’entreprise de gestion de paiement planifie de restructurer ses activités internationales et de supprimer 1 400 postes (employés ou sous-traitants) avant la fin de l’année.

Licenciement

Les salariés ont appris la nouvelle la semaine dernière via une annonce interne. Plus d’un tiers des postes (environ 1 000) devraient concerner des emplois du secteur technologique, le reste devrait être réparti sur le service commercial et celui des partenariats numériques internationaux. Les licenciements ont déjà commencé la semaine dernière.

Le journal américain rappelle que Visa a plus de 30 000 employés dans le monde.

Interrogé par le Wall Street Journal, Visa a déclaré qu’elle évoluait en permanence pour servir au mieux ses clients et soutenir sa croissance, « ce qui peut entraîner la suppression de certaines fonctions ». Elle affirme s’attendre à embaucher davantage les prochaines années.

SynthID, le système de Google pour marquer au fer rouge les contenus générés par des IA

30 octobre 2024 à 14:44
Synthetic quality certified
SynthID, le système de Google pour marquer au fer rouge les contenus générés par des IA

Depuis un an, les entreprises d’IA générative promettent d’ajouter des filigranes à leurs contenus. Google propose désormais son système nommé SynthID. Les chercheurs de Google DeepMind ont notamment décrit dans un article dans la revue Nature et publié sous licence libre la partie concernant les textes générés automatiquement.

Dans les divers problèmes liés aux contenus générés par l’IA, le fait de pouvoir les différencier de ceux créés autrement a été rapidement repéré comme le nez au milieu d’un visage. Les détecteurs d’IA générative sont pointés du doigt pour leurs faux positifs, ce qui engendre des tensions entre étudiants et enseignants.

Depuis l’avènement dans l’espace public de ces systèmes, l’ajout à ces contenus de filigranes est régulièrement évoqué pour qu’une sorte de tampon « made by AI » leur soit clairement assigné. OpenAI, Alphabet, Meta, Anthropic, Inflection, Amazon et Microsoft ont d’ailleurs promis à la Maison-Blanche l’an dernier de mettre en place ce système. En Europe, l’AI Act exige que cette disposition soit mise en place à partir du 2 aout 2026.

En aout, on apprenait qu’OpenAI avait mis en place un système permettant de tatouer les textes générés par ses IA. Mais l’entreprise hésitait à le mettre en place. En effet, cette technologie serait « efficace à 99,9 % », mais elle serait aussi relativement simple à supprimer.

Google vient, elle, de sauter le pas avec son système nommé « SynthID » développé par sa filiale DeepMind. L’entreprise indique que cet outil embarque « des filigranes numériques directement dans les images, le son, le texte ou la vidéo générés par l’IA ».

Bien sûr, le système de tatouage des divers contenus est différent selon le média. Il n’est pas possible, par exemple, d’utiliser un système de tatouage graphique pour identifier un texte. Et, à moins de trouver un très bon filigrane universel, le risque est d’harmoniser vers le bas l’utilisation de ces marques pour tous les types de médias.

Google a donc mis au point différents systèmes de filigranes dont elle présente des exemples.

Un outil libre de filigranes pour la génération de textes

Pour son système dédié aux filigranes de textes générés par IA, Google DeepMind a publié le travail de ses 24 chercheurs dans la revue scientifique Nature la semaine dernière. L’idée est de créer une « signature statistique » dans le texte généré en modifiant légèrement la procédure de génération de chaque « prochain jeton ». Cette modification ne dépend pas d’une simple variable statique, mais se fait en fonction du contexte de génération.

« L’un des principaux avantages de cette approche est que le processus de détection ne nécessite pas la réalisation d’opérations coûteuses en termes de calcul, ni même l’accès au LLM sous-jacent (qui est souvent propriétaire) », expliquent-ils.

La détection se fait avec un outil probabiliste qui prend en entrée le texte à vérifier et une clé de filigrane spécifique.

L’entreprise a publié sur GitHub sous licence libre (Apache 2.0) cet outil et propose une documentation détaillée pour les développeurs d’IA génératives qui voudraient l’utiliser. Dans celle-ci , elle explique que SynthID Text propose plusieurs options pour la vérification : full-private qui « ne libère ni n’expose le détecteur d’aucune manière », semi-private qui « ne libère pas le détecteur, mais expose via une API » et public qui « permet de libérer le détecteur pour que d’autres utilisateurs puissent le télécharger et l’utiliser ».

Elle assure que « les filigranes de texte SynthID résistent à certaines transformations, c’est-à-dire les recadrages de texte, en modifiant quelques mots ou en paraphrasant légèrement ». Mais Google admet que sa méthode, comme celle d’OpenAI, a des limites qui permettent de facilement contourner son système :

  • « L’application de filigranes est moins efficace sur les réponses factuelles, car il y a moins de possibilités d’augmenter la génération sans réduire la précision.
  • Les scores de confiance du détecteur peuvent être considérablement réduits lorsqu’un texte généré par IA est entièrement réécrit ou traduit dans une autre langue ».

Google se garde l’exclusivité de ses outils de filigrane d’audio et d’images

Toutefois, concernant les filigranes d’audio, d’images et de vidéos, l’entreprise se contente de présenter succinctement des exemples d’utilisation qui, bien évidemment, ne montrent aucune différence entre le contenu sans filigrane et avec. Mais l’entreprise ne communique ni sur le fonctionnement des systèmes mis en place ni sur leurs limites.

Elle ajoute que ces filigranes sont disponibles pour les clients de Vertex AI qui utilisent les modèles de conversion de texte en image Imagen (version 2 et 3), pour les utilisateurs de son outil de génération d’images ImageFX et pour les quelques créateurs qui ont accès à son modèle de génération de vidéos Veo.

☕️ OpenAI travaille avec Broadcom et TSMC pour créer sa propre puce d’ici 2026

30 octobre 2024 à 10:13
logo OpenAI dans l'obscurité
Mojahid Mottakin – Unsplash

Selon l’agence de presse Reuters, OpenAI cherche à minimiser le coût des puces dont elle a besoin pour développer ses systèmes d’intelligence artificielle générative.

Après avoir imaginé des plans ambitieux pour devenir son propre fondeur, l’entreprise les aurait abandonnés pour leur coût trop élevé et un temps de développement trop long. Elle se serait alors rapprochée de Broadcom et de TSMC. Elle se rabattrait donc plutôt sur un design maison de ses puces.

OpenAI cherche aussi à diversifier son approvisionnement actuel en GPU et devrait plus se tourner vers les puces MI300X d’AMD.

Comme le rappelle Reuters, l’entrainement des modèles d’IA générative sur ces puces est particulièrement coûteux. OpenAI prévoit pour cette année 5 milliards de dollars de perte pour un chiffre d’affaires de 3,7 milliards de dollars.

☕️ Wiz a été ciblée par une attaque impliquant un deepfake de la voix de son PDG

29 octobre 2024 à 15:36

Le PDG de l’entreprise de sécurité pour le cloud computing Wiz, Assaf Rappaport, a expliqué lors d’une conférence organisée par TechCrunch que son entreprise a été ciblée par une attaque utilisant un deepfake mi-octobre.

Il a raconté au média américain que « des dizaines de mes employés ont reçu un message vocal de ma part ». Comme c’est souvent le cas dans ce genre d’attaque, celle-ci « tentait d’obtenir leurs informations d’identification », a-t-il ajouté.

Selon le PDG, c’est une particularité de la source originale qui aurait mis la puce à l’oreille de ses salariés. L’audio utilisé venait d’une conférence. Or, Assaf Rappaport est particulièrement anxieux quand il doit parler en public, ce qui modifie sa façon de s’exprimer. Le deepfake ne ressemblait pas à sa voix de tous les jours pour eux.

Wiz a pu retrouver la source de cet audio mais n’est pas en mesure de savoir de qui est provenue l’attaque.

Assaf Rappaport a aussi expliqué son refus de l’offre d’achat proposée par Google cet été. Si le montant de celle-ci était de 23 milliards de dollars, le PDG de Wiz considère que son entreprise peut atteindre les 100 milliards de dollars parce que la sécurité du cloud, c’est le futur. C’était « la décision la plus difficile à prendre », a-t-il quand même ajouté.

L’IA open-source a sa définition 1.0 qui exclut les modèles Llama de Meta

29 octobre 2024 à 14:13
Quand Llama fâché, lui toujours faire ainsi
L’IA open-source a sa définition 1.0 qui exclut les modèles Llama de Meta

L’Open Source Initiative (OSI) a publié ce lundi la version finale de sa définition de l’IA open-source. Celle-ci diffère encore un peu de la release candidate diffusée mi-octobre. Comme on pouvait s’en douter aux vues des tensions entre l’OSI et Meta, la définition exclut les modèles de l’entreprise, qui se revendique pourtant leader de l’IA open source.

Comme elle l’avait annoncé, l’Open Source Initiative (OSI) a publié la version 1.0 de sa définition de l’IA open-source. Ce texte, rédigé en collaboration avec différents experts venant de la recherche et de l’industrie, a pour ambition d’adapter la définition de l’open source et les quatre libertés essentielles au monde des modèles d’intelligence artificielle.

Dans son billet de blog, l’OSI explique qu’elle est « le résultat de plusieurs années de recherche et de collaboration, d’une tournée internationale d’ateliers et d’un processus de co-conception d’un an mené par l’Open Source Initiative (OSI), mondialement reconnue par les particuliers, les entreprises et les institutions publiques comme l’autorité qui définit l’Open Source ».

La définition insiste encore plus sur la description des données d’entrainement

Comparée à la version Release Candidate dont nous avions déjà parlé, la base du texte reste évidemment la même. Mais quelques modifications ont quand même été ajoutées.

L’OSI exige maintenant une description « complète » des données utilisées pour entrainer le modèle. Dans sa version RC, l’organisme ne demandait qu’une version « détaillée ». Cette précision renforce l’obligation d’information sur les données d’entrainement.

La définition a été, pendant son processus, critiquée pour accepter que cette description remplace le fait de publier de façon effective les données d’entrainement. L’utilisation de ce terme dans la version finale de la définition vient appuyer l’idée qu’à défaut de les publier, les créateurs de modèles doivent vraiment détailler les informations concernant leurs données d’entrainement.

Cette version insiste aussi, contrairement aux précédentes, sur le processus de filtrage utilisé sur les données collectées pour entrainer les modèles. La méthodologie de ce processus doit être détaillée et le code qui la met en place doit être publié.

Pas de contrainte sur la manière de publier les paramètres

Un dernier paragraphe a été ajouté à la définition pour préciser qu’elle n’exige pas, pour l’instant, de licence spécifique pour les paramètres du modèle : « la définition de l’IA Open Source n’exige pas de mécanisme juridique spécifique pour garantir que les paramètres du modèle sont librement accessibles à tous. Ils peuvent être libres par nature ou une licence ou un autre instrument juridique peut être nécessaire pour garantir leur liberté. Nous pensons que cela deviendra plus clair avec le temps, une fois que le système juridique aura eu l’occasion de se pencher sur les systèmes d’IA open-source ».

Meta fâchée

Comme nous l’avions déjà noté, cette définition crée des tensions entre l’OSI et Meta, qui revendique haut et fort le caractère « open-source » de ses modèles Llama. L’entreprise de Mark Zuckerberg ne détaille notamment pas les données sur lesquelles sont entrainés ses modèles. Comme expliqué plus haut, si l’OSI a rapidement fait des concessions sur la possibilité de ne pas publier les données d’entrainement, elle a encore resserré ses exigences d’information les concernant.

À The Verge, Meta affirme être « d’accord avec [son] partenaire OSI sur de nombreux points », mais pas sur tous, ce qui la pousse à contester le consensus : « il n’existe pas de définition unique de l’IA open source, et la définir est un défi, car les définitions précédentes de l’open source n’englobent pas les complexités des modèles d’IA d’aujourd’hui qui progressent rapidement ».

Malgré ce désaccord avec Meta, la définition a acquis le ralliement d’autres acteurs du secteur. « La nouvelle définition exige que les modèles open source fournissent suffisamment d’informations sur leurs données d’entraînement pour qu’une « personne compétente puisse recréer un système substantiellement équivalent en utilisant des données identiques ou similaires », ce qui va plus loin que ce que font aujourd’hui de nombreux modèles propriétaires ou qui sont open source d’apparence », selon Ayah Bdeir, responsable IA chez Mozilla.

Pour Clément Delangue d’Hugging Face, cette définition est « une aide considérable dans l’élaboration de la conversation sur l’ouverture de l’IA, en particulier en ce qui concerne le rôle crucial des données d’entraînement ».

☕️ Un homme condamné à 18 ans de prison pour avoir créé des images pédocriminelles

29 octobre 2024 à 08:31
Un homme condamné à 18 ans de prison pour avoir créé des images pédocriminelles

Un homme de 27 ans a été condamné à 18 ans de prison au Royaume-Uni pour avoir fabriqué des images d’abus sexuels sur des enfants, explique le Guardian. Utilisant des photos « normales » de vrais enfants, il les a transformés avec le logiciel de création de modèles humains DAZ 3D en images de viols. Ici, contrairement aux « deepfakes » où une tête est transférée sur un autre corps, Hugh Nelson, l’auteur de ces images, a créé complètement les personnages et les scènes.

La police britannique a découvert qu’il les vendait sur internet via des forums de discussion, engrangeant 5 000 Livres sterling (6 000 euros) sur une période de 18 mois. Le journal britannique explique qu’il a, dans certains cas, fourni des images en utilisant des photos d’enfants proches de ses clients.

Le juge Martin Walsh qui a condamné Hugh Nelson a déclaré qu’il était « impossible de savoir » si des enfants avaient été violés à la suite de la création de ses images et que l’auteur ne s’était pas soucié du préjudice causé par la diffusion de ce matériel « déchirant et écœurant ».

Il a pu être arrêté après qu’il a proposé à un policier en couverture la création d’un nouveau personnage pour 80 livres sterling (95 euros).

L’Internet Watch Foundation s’alarmait récemment du franchissement d’un « point de bascule » concernant les images d’abus sexuels d’enfants générées par IA.

[Édito] De Napster à OpenAI : le copyright sacrifié sur l’autel de l’IA

28 octobre 2024 à 17:02
©🔫 🤖
[Édito] De Napster à OpenAI : le copyright sacrifié sur l’autel de l’IA

En 20 ans d’Internet, de partage et de publication massive de contenus soumis au copyright, le discours public a évolué. Il est passé d’une condamnation totale des pratiques d’échanges entre utilisateurs pairs à pairs à une acceptation tacite de l’entrainement des IA génératives, parfois sur les mêmes masses de données, pourvu que les données ne soient pas nommément citées.

Entre la répression contre les figures symboliques du partage de fichiers sur Internet – Shawn Fanning, Aaron Swartz et Alexandra Elbakyan – et l’utilisation massive des bases de données d’œuvres protégées par le Copyright par les entreprises de l’IA générative, le discours public et politique a bifurqué. D’un tout répressif dont le point d’orgue en France a été la loi Hadopi, nous sommes passés au jet d’un voile pudique sur l’utilisation de données culturelles par les startups qui promettent d’être les prochaines licornes de l’IA.

De la fin des années 90 à celle des années 2010, les politiques du numérique ont notamment été portées par la volonté de protéger du piratage les contenus numériques comme les musiques, les films, mais aussi les livres et les articles scientifiques.


Il reste 86% de l'article à découvrir.
Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

☕️ Chatbots : Meta et Reuters signent un accord

28 octobre 2024 à 11:00
threads instagram facebook

L’agence de presse britannique a signé un accord avec Meta permettant aux chatbots de l’entreprise de Mark Zuckerberg d’utiliser ses contenus.

C’est le premier accord du genre signé par Meta. Son concurrent OpenAI a, quant à lui, signé plusieurs accords, notamment avec le groupe Condé Nast.

Aucune information sur le montant de l’accord n’a été divulguée. Selon Axios, si l’accord permet bien à Meta de proposer des réponses en temps réel aux utilisateurs de Facebook, Instagram, WhatsApp et Messenger via son chatbot, il n’est pas clair qu’il laisse la possibilité à l’entreprise d’entrainer ses grands modèles de langage sur les contenus de l’agence de presse.

Axios rappelle que Meta a conclu ce genre d’accords en 2019 pour afficher les contenus de divers médias dans l’onglet « news » de Facebook avant d’abandonner cette fonctionnalité. Les contenus de l’agence de presse Reuters ne faisaient pas partie de ceux repris dans cet onglet à l’époque.

Reuters a publié une dépêche sur le sujet sans pour autant révéler plus d’informations sur le sujet.

❌
❌