Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
Aujourd’hui — 23 mai 2024Next - Articles gratuits

☕️ Face à l’IA, les doubleurs VF de Marge Simpson, Brad Pitt ou Thanos se mobilisent

23 mai 2024 à 06:53
Sur fond bleu, les lettres "IA" écrites en blanc sont barrées d'un signe interdit, en rouge. Devant, une main tient un micro. Sous l'image, le hashtag #TouchePasMaVF.

Des acteurs comme Morgan Freeman, Samuel L. Jackson ou Jim Carrey, des personnages comme Zelda, Oui-Oui ou les Simpson… pour être compris des Français, toutes ces personnalités sont doublées par des comédiens et comédiennes.

Dans une vidéo qui tourne déjà largement sur les réseaux sociaux et dans les communiqués respectifs de l’association professionnelle Les voix et du Syndicat français des Artistes interprètes (SFA-CGT), ces professionnels interpellent les pouvoirs publics « sur les risques que font courir les intelligences artificielles génératives sur nos métiers et nos secteurs d’activité ».

« Doublage, jeu-vidéo, ce sont plus de 15 000 emplois » qui sont concernés, soulignent-ils, rassemblant l’intégralité de la chaîne de production : voix, monteurs, autrices et auteurs. Et d’appeler le grand public à interpeler, avec eux, la ministre de la Culture Rachida Dati.

Dans une pétition ouverte au public, et signée par près de 90 000 personnes à l’heure d’écrire ces lignes, les artistes déclarent « du devoir des pouvoirs publics d’agir, non pour empêcher l’innovation, mais pour réguler le développement de l’IA générative de manière à protéger les artistes, les œuvres, la culture et l’emploi ».

Hier — 22 mai 2024Next - Articles gratuits

☕️ Microsoft annonce la création d’un data center géothermique au Kenya

22 mai 2024 à 14:42

C’est la saison des data centers chez Microsoft. La semaine dernière, l’entreprise annonçait un investissement de 4 milliards d’euros en France, dont une partie sera dédiée à la création de data centers. 


Ce 22 mai, Bloomberg rapporte que l’entreprise s’associe à la société d’intelligence artificielle émiratie G42 pour construire un data center géothermique à un milliard de dollars au Kenya.

Sa première phase devrait être opérationnelle sous deux ans, et disposer d’une puissance de 100 mégawatts. À terme, le but est d’atteindre un projet d’un gigawatt.

Ce projet permettra à Microsoft de mieux focaliser son offre de services Azure en Afrique de l’Est – à l’heure actuelle, le centre de données le plus proche est situé à des milliers de kilomètres, en Afrique du Sud.

C’est aussi une manière de faire face à l’implantation économique croissante de la Chine et de la Russie dans la région. Huawei, par exemple, y a lourdement investi dans la construction de data centers, l’offre de services numériques et le déploiement de systèmes de surveillance.

☕️ Le Chips Act se met en place avec un investissement accordé à l’Imec

22 mai 2024 à 10:01
Drapeau de l'Europe

Menés par l’Institut de micro-électronique et composant (Imec) de Louvain (Belgique), plusieurs laboratoires de recherche européens vont recevoir 2,5 milliards d’euros de subvention, selon un communiqué de l’institution de recherche.


En 2023, le Chips Act de l’Union européenne avait en effet prévu une enveloppe de 43 milliards d’euros pour promouvoir la fabrication européenne de puces électroniques et répondre aux plans d’investissements chinois et états-uniens.

Selon le CEO de l’Imec Luc Van den Hove, l’investissement reçu des institutions permettra de « doubler les volumes et la vitesse d’apprentissage ».

Les laboratoires CEA-Leti (France), Fraunhofer (Allemagne), VTT (Finlande), CSSNT (Roumanie) et l’Institut Tyndall (Irlande) font partie des autres entités concernées.

À partir d’avant-hierNext - Articles gratuits

☕️ IA : cofondée par des anciens de Deepmind, la start-up française H lève 220 millions de dollars

21 mai 2024 à 15:37
Une main tenant de gros paquets de dollars

Début janvier, deux scientifiques quittaient Deepmind, l’entreprise spécialiste de l’intelligence artificielle (IA) d’Alphabet. 


À l’époque, selon Bloomberg, le Français Laurent Sifre (qui a travaillé sur AlphaGo) et le Belge Karl Tuyls (spécialiste de l’apprentissage par renforcement dans des systèmes multiagents) étaient en discussion pour réunir les financements qui leur permettraient de lancer une start-up spécialisée dans l’IA, supposément nommée Holistic AI.

Cinq mois plus tard, l’affaire se précise : toujours selon Bloomberg, les deux hommes auraient réuni 220 millions de dollars auprès d’investisseurs français (Bernard Arnault via Aglaé Ventures, Xavier Niel), américains (Eric Schmidt) et israéliens (Yuri Milner), aux côtés d’entreprises comme Amazon ou Samsung, UiPath, du fonds Accel ou encore de Bpifrance (qui avait aussi investi dans Mistral AI l’an dernier).

Le nom de la start-up devrait simplement être H. Son directeur exécutif Charles Kantor aurait expliqué que l’entreprise travaillait à une « AGI complète ». 


À l’heure actuelle, H compterait 25 « scientifiques et ingénieurs spécialistes de l’IA ».

☕️ Contenus extrémistes : la France et la Nouvelle-Zélande créent la Fondation de l’Appel de Christchurch

17 mai 2024 à 12:47

Près de cinq ans après l’appel de Christchurch, la France et la Nouvelle-Zélande ont annoncé la création d’une Fondation dédiée à la coordination des travaux de la société civile, de l’industrie et des acteurs publics sur l’élimination des contenus extrémistes et violents en ligne.

En 2019, l’appel contre l’utilisation d’internet comme arme de propagande terroriste, ou appel de Christchurch, avait été créé deux mois après les attentats terroristes qui ont frappé la ville néo-zélandaise.

Marrainée par l’ancienne première ministre de Nouvelle-Zélande, la Fondation aura son siège dans la ville de Wellington. Elle déclare avoir déjà reçu des promesses de dons.

☕️ Caroline Blanchot (Ugict CGT) appelle à un débat public sur le déploiement de l’intelligence artificielle

16 mai 2024 à 09:19
Illustration chimérique d'internautes

Dans une tribune au Monde, la secrétaire générale de l’Union général des ingénieurs, cadres et techniciens CGT Caroline Blanchot critique les conclusions du rapport rendu mi-mars au président de la République par la Commission de l’intelligence artificielle.

« En engageant la nation “encore plus vite et encore plus loin” dans le numérique et « sans régulation » », écrit-elle, citant Bruno Le Maire, « le gouvernement s’affranchit de tout débat, pourtant nécessaire pour introduire une telle technologie capable de refaçonner nos sociétés ».

Et d’appeler à un « véritable débat sociétal », qui serait « d’ailleurs l’occasion de revitaliser notre démocratie ».

Sujets prioritaires, pour la syndicaliste : les effets de l’intelligence artificielle sur le travail (elle regrette les « montants dérisoires (200 millions d’euros) » prévus pour les reconversions professionnelles), la question du coût environnemental de l’IA, alors que sa demande exponentielle risque de faire exploser la consommation d’eau des datacenters, et le maintien des droits numériques des internautes (droit à l’information, à l’accès, à la rectification, à l’oubli et à la portabilité).

Caroline Blanchot souligne par ailleurs que, bien mobilisées, les technologies au sens large permettraient d’ « établir une cartographie de l’empreinte sociale et écologique de toute la chaîne de fabrication et de valeur ». « Mais l’IA servira-t-elle à ça, et surtout… qui doit en décider ? »

☕️ Microsoft suggère à des centaines d’employés chinois de se relocaliser

16 mai 2024 à 07:57

Microsoft a suggéré à plusieurs centaines d’employés de ses départements spécialisés dans le cloud et l’intelligence artificielle en Chine d’envisager de changer de pays, selon les informations du Wall Street Journal.

En pleines tensions entre les États-Unis et la Chine, ces ingénieurs, en majorité de nationalité chinoise, se sont vu proposer des délocalisations en Irlande, en Australie, aux États-Unis et ailleurs.

Auprès de Reuters, l’entreprise déclare que proposer de telles « opportunités internes fait partie intégrant de la gestion de [leurs] activités mondiales ».

Dans ce cadre, elle confirme avoir transmis des opportunités facultatives à un certain nombre d’employés localisés en Chine, sans préciser le nombre de personnes concernées – le Wall Street Journal l’estime entre 700 et 800 personnes.

Sûreté dans les transports : extension de la vidéosurveillance algorithmique

15 mai 2024 à 11:09
Mais ce n'est qu'une expérimentation
Dessin de Flock remplaçant les anneaux olympiques par des caméras de vidéosurveillance

Les députés examinent aujourd’hui une proposition de loi sur la sûreté dans les transports, qui vise notamment à autoriser de nouvelles expérimentations en matière de vidéosurveillance algorithmique (VSA). Un texte critiqué par les ONG de défense des droits numériques.

Ce mercredi 15 mai, en commission, les députés examinent une proposition de loi déposée le 28 décembre par le député Philippe Tarabot (Les Républicains) et relative « à la sûreté dans les transports ».

Auprès du Monde, son rapporteur Clément Beaune ne cache pas que cette proposition de loi s’inscrit dans la droite ligne des lois « sécurité globale » de 2021, Jeux Olympiques de 2023 et Savary (relative à la lutte contre les incivilités, les atteintes à la sécurité publique et les actes terroristes dans les transports collectifs) de 2016.

Alors qu’Amnesty International appelle les parlementaires à ancrer dans la loi une interdiction de recours à la reconnaissance faciale dans l’espace public, l’ancien ministre insiste de son côté sur le fait que ce texte-ci « ne permet pas l’utilisation de la reconnaissance faciale ou d’outils biométriques ». Il permet, en revanche, l’usage de traitements algorithmiques sur les captations de vidéosurveillance réalisées par les agents.

La Quadrature du Net, de son côté, critique autant le fond que la forme : le texte est étudié en procédure accélérée, ce qui signifie qu’il ne fera l’objet que d’une lecture par Chambre. Le but : la rendre opérationnelle avant l’ouverture des Jeux olympiques et paralympiques.

Spécialiste des enjeux de surveillance, l’association déclare ne pas avoir été auditionnée et estime que la rapidité du processus empêche les parlementaires d’être correctement informés sur les enjeux posés par les technologies dont il est question.

La technologie pour « sécuriser l’offre de service »

En pratique, c’est le chapitre III du texte, intitulé « une sécurisation de l’offre de service par la technologie », qui concentre le gros des critiques. En l’état, celui-ci prévoit que « dans l’exercice de leurs missions […] et dans le cadre de la prévention des atteintes à l’ordre public, les agents assermentés […] peuvent procéder, au moyen de caméras individuelles, à un enregistrement audiovisuel de leurs interventions lorsque se produit ou est susceptible de se produire un incident, eu égard aux circonstances de l’intervention ou au comportement des personnes concernées. »

L’enregistrement est déclaré non permanent, et a « pour finalités la prévention des incidents au cours des interventions des agents assermentés […] le constat des infractions et la poursuite de leurs auteurs par la collecte de preuves ainsi que la formation et la pédagogie des agents. Lorsque la sécurité des agents est menacée, les images captées et enregistrées au moyen de caméras individuelles peuvent être transmises en temps réel au poste de commandement du service concerné. »

Les caméras doivent être portées « de façon apparente », un « signal visuel » doit témoigner de l’enregistrement en cours, et les personnes enregistrées en être informées. « Les enregistrements audiovisuels, hors le cas où ils sont utilisés dans le cadre d’une procédure judiciaire, administrative ou disciplinaire, sont effacés au bout de trente jours. »

L’article 8 bis donne aussi, « à titre expérimental », l’autorisation pour les « conducteurs des services réguliers de transport public par autobus ou autocars » de recourir aux caméras individuelles, pour les mêmes raisons.

L’article 11 permet par ailleurs aux opérateurs de transport public de « mettre en œuvre un système consistant en la captation, la transmission et l’enregistrement du son dans les véhicules qu’ils utilisent » pour leur service régulier. Et ce, pour les mêmes motifs qu’ils sont autorisés à réaliser des enregistrements audiovisuels.

Craintes durables envers les expérimentations de vidéosurveillance algorithmique

Le traitement algorithmique des flux collectés, de son côté, est encadré par l’article 9 de la proposition de loi. La Quadrature du Net critique un « quasi copié-collé de l’article 10 de la loi relative aux Jeux olympiques », en ce qu’il permet, « à titre expérimental et jusqu’à 1er janvier 2027 », de « mettre en œuvre des logiciels de traitement de données non biométriques pour extraire et exporter les images ainsi réquisitionnées » pour analyser les images recueillies, lorsqu’il existe « une ou plusieurs raisons plausibles de soupçonner » que les personnes enregistrées ont « commis ou tenté de commettre une infraction ».

L’article 10 de la proposition de loi sur la sûreté dans les transports donne aux services internes de sécurité de la SNCF et de la RATP l’autorisation de « collecter et traiter des données sensibles, à l’exception des données génétiques, biométriques ou concernant la vie sexuelle ou l’orientation sexuelle d’une personne physique ».

En 2023, le Conseil constitutionnel a déclaré l’article 10 du texte précédent (qui permet aussi l’usage de drones) constitutionnel. Cela dit, comme elle le critiquait déjà lors des travaux sur la loi relative aux Jeux olympiques, Amnesty International souligne que de la vidéosurveillance algorithmique à la reconnaissance faciale, « il n’y a qu’un pas ».

La Quadrature du Net considère par ailleurs qu’un projet d’expérimentation sur trois ans comme celui proposé par le texte ne sert qu’à « banaliser et légitimer » des technologies testées illégalement, et dont l’usage ultime consiste à « augmenter le contrôle de l’espace public, réduisant ainsi l’anonymat et les libertés qu’on y exerce ». Et d’illustrer comment, même sans reconnaissance faciale ou biométrique, l’étendue des contrôles déjà rendue possible par les technologies de VSA est large.

Sans compter qu’au sujet de la reconnaissance faciale, des expérimentations sont déjà réalisées, encore une fois de manière illégale.

☕️ 7 000 artistes français demandent une meilleure rémunération aux acteurs du streaming

14 mai 2024 à 08:42
Une personne zappe sur un écran

À la veille du Festival de Cannes 2024, qui s’ouvre ce 14 mai, 7 000 artistes français du monde du cinéma et de la musique ont signé une lettre ouverte pour demander une « juste rémunération » aux plateformes de streaming.

Initiée par l’Adami, l’organisme de gestion collective des droits des artistes-interprètes, la tribune rassemble les signatures d’acteurs comme Reda Kateb, Jean-Pierre Darroussin ou Agnès Jaoui, et de musiciens comme Pomme ou Miossec.

Faisant clairement référence au bras de fer engagé par les actrices et acteurs américains lors du mouvement de grève qui a agité Hollywood pendant 118 jours en 2023, le texte souligne que la directive européenne d’avril 2019 relative aux droits d’auteur et à la rémunération des artistes-interprètes a été transposée au droit français en 2021. 


Trois ans plus tard, elle regrette qu’aucun accord n’ait encore été trouvé entre les plateformes de streaming et les représentants des artistes, « laissant les acteurs et actrices dans l’expectative la plus totale ».

☕️ Réseaux sociaux : une semaine de pause améliore l’estime de soi des jeunes filles

14 mai 2024 à 08:37
Une jeune fille assise sur un canapé se prend en selfie

Les réseaux sociaux peuvent avoir des effets négatifs sur la santé mentale, en particulier celle des jeunes filles, mais comment lutter contre le phénomène ?

Selon une nouvelle étude de l’université de York publiée dans le journal Body Image, une simple pause d’une semaine loin des réseaux sociaux permet d’améliorer significativement l’estime de soi.

Menée auprès de 66 étudiantes de 17 à 24 ans, l’étude a consisté à interroger les participantes sur leur estime de soi globale, et plus spécifiquement en matière de performance, de liens sociaux et d’apparence avant et après le test.

Les chercheuses s’intéressaient en particulier aux rapports des enquêtées à leur propre corps, et formulaient l’hypothèse que les plus attachées à un idéal de minceur promu sur les réseaux sociaux bénéficieraient le plus d’une pause dans leur usage de ces plateformes.

Résultat : l’étude montre une amélioration nette de l’estime de soi globale des participantes qui ont suspendu pendant sept jours leur usage des réseaux sociaux. L’amélioration était visible dans tous les sous-domaines, et en particulier dans l’image perçue par les participantes de leur propre corps.

Une autre étude, ayant elle aussi relevé des niveaux de satisfaction de vie et d’affect positif « significativement plus élevés » chez les jeunes femmes ayant abandonné Instagram pendant 7 jours que chez celles ayant continué à l’utiliser, n’avait par contre identifié « aucun effet significatif » chez les jeunes hommes.

☕️ « Choose France » : Microsoft et Amazon promettent plus de 5 milliards d’euros d’investissements à eux deux

13 mai 2024 à 13:18
Des billets de cinquante euros.

Le sommet Choose France, qui a eu lieu ce lundi à Versailles, met l’intelligence artificielle et l’informatique quantique à l’honneur.

Microsoft a annoncé 4 milliards d’euros d’investissement « au service de l’intelligence artificielle », selon son président. Amazon prévoit 1,23 milliard d’euros pour la création d’un nouveau data center, et IBM 45 millions d’euros et 50 emplois dans l’informatique quantique.

Alors qu’une autre industrie mise en valeur pendant ce sommet est celle de la décarbonation, la France fait valoir ses avantages énergétiques pour attirer les acteurs de l’IA, quand bien même cette dernière s’avère coûteuse d’un point de vue environnemental (en énergie, en eau, en matières premières, etc).

☕️ Glucksmann visé par une campagne de désinformation pro-chinoise

17 avril 2024 à 05:12
Raphaël Glucksmann

Engagé en faveur de la minorité musulmane ouïghoure, Raphaël Glucksmann, tête de liste PS-Place Publique pour les élections européennes, a été averti d’une campagne de désinformation à son encontre, selon l’AFP.

C’est l’organisme gouvernemental Viginum, en charge de la lutte contre la désinformation en période électorale, qui a sonné l’alerte.

Interdit de voyager sur le sol chinois depuis 2021 à cause de ses positions politiques, Glucksmann est, dans la campagne actuelle, accusé en ligne d’être le cheval de Troie des Américains.

C’est la première campagne de désinformation à l’approche des élections parlementaires européennes mise à jour publiquement. Ironique, quand on sait que l’eurodéputé préside la commission spéciale sur l’ingérence étrangère dans les processus démocratiques de l’Union européenne.

Neurone, inférence, entraînement, hallucination… de quoi on parle ?

5 avril 2024 à 06:15
B.a.bIA #2
lexique IA parodie

Les expressions se multiplient, quand on parle d’intelligence artificielle. Mais qu’est-ce qu’un neurone artificiel ? Et quelle différence entre une hallucination humaine et celle d’une machine ?

Machine learning, apprentissage non-supervisé, hallucinations… Au gré de nos articles sur l’intelligence artificielle, nous utilisons à loisir tout un vocabulaire qui, s’il est souvent tiré d’activités humaines, qualifie bien des éléments spécifiques au champ informatique.

Après avoir décortiqué une partie des expressions génériques qui qualifient certains champs et sous-champs du domaine, intéressons-nous donc au fonctionnement plus précis des systèmes d’IA.

Notre précédent lexique de l’IA :

Machine learning, deep learning

Entraînés sur de vastes sommes de données, les modèles d’apprentissage machine (machine learning) y détectent des schémas et des tendances qui leur permettent de réaliser des prédictions ou des recommandations de plus en plus précises, au fil des essais/erreurs et/ou des optimisations réalisées par leurs constructeurs.

Sous-champ de ce domaine, le deep learning, ou apprentissage profond, concerne des systèmes algorithmiques construits sur une architecture en réseau de neurones artificiels à multiples couches – plus il y a de couches de neurones artificiels, plus le modèle est profond.

Si l’apprentissage machine est le domaine qui fait le plus parler depuis bientôt une quinzaine d’années, il est loin d’être le seul axe par lequel créer des modèles d’intelligence artificielle. Les systèmes experts, qui fonctionnent avec des règles préétablies, sont une autre manière d’en construire. Ils fonctionnent notamment à l’aide de moteurs d’inférence.

Neurone artificiel

Dans le champ informatique, le fonctionnement des réseaux de neurones (neural networks) est inspiré de la réalité biologique. Le nœud d’un tel réseau peut donc recevoir plusieurs valeurs en entrée pour n’en générer qu’une en sortie. Comme l’explique la CNIL, le neurone calcule la valeur qu’il produira en sortie en appliquant une fonction d’activation à la somme pondérée des valeurs reçues en entrée. Un neurone peut par exemple simuler une porte logique « ou » ou une porte « et », comme expliqué dans cette vidéo. Un seul neurone ne peut pas faire un « ou exclusif », mais trois neurones le peuvent. Et on retombe bien vite sur l’informatique classique, qui fonctionne à base de portes logiques. Des neurones sont ensuite interconnectés afin de constituer une architecture de calcul. « Il existe de nombreux types de réseaux de neurones artificiels tels que les réseaux de neurones récurrents, les auto-encodeurs, les réseaux transformeurs ou encore les réseaux antagonistes génératifs (generative adversarial networks) », ajoute la CNIL. Pour mieux comprendre le fonctionnement d’un neurone et l’avantage de les interconnecter pour en faire un réseau, on ne peut que vous conseiller de regarder cette série de vidéos d’Arnaud Bodin de l’université de Lille.

Paramètres

Un paramètre est une des propriétés apprises à partir des données d’entraînement. Les paramètres d’un modèle sont les multiples variables à partir desquelles la machine est entraînée et optimisée, et qui lui permettent, à terme, de produire des résultats corrects. Dans les systèmes en réseaux de neurones, ces paramètres incluent le poids (ou nombre d’entrées) de chaque neurone. Les gros réseaux de neurones actuels disposent de plusieurs dizaines de milliards de paramètres. GPT-2 en affiche 1,5 milliard, GPT-3 175 milliards. Pour GPT-4 il serait question de 1 000 milliards de paramètres. En gros, plus le chiffre est élevé, plus l’intelligence artificielle sera précise, mais au prix d'un coût d'entraînement plus important en énergie.

Quantification

Les grands modèles de langage (LLM) contenant un nombre de paramètres toujours plus volumineux, leur consommation de mémoire GPU ne fait, elle aussi, que s’accroître. Pour contraindre autant que possible l’empreinte des systèmes, des techniques de quantification (quantization) sont utilisées pour réduire la précision numérique des nombres flottants qui servent de paramètres aux modèles. Comme l’explique Hugging Face, cela consiste à ne plus utiliser des nombres flottants de haute précision (sur 32, voire 64 bits), mais plutôt de les convertir sur un plus faible nombre de bits, vers 16 bits (float16 ou bfloat16), voire en nombres entiers de 8 bits (int8). Cela rendra le modèle un peu moins précis, mais aussi plus rapide. La quantification peut avoir lieu en amont de l’entraînement (on parle de quantization aware training, QAT), ou en aval (post-training quantization, PTQ).

Inférence, entraînement, apprentissage

Une inférence est une opération logique, qui consiste à passer de prémisses (des faits, des énoncés déclarés vrais) à des conclusions. Dans certains cas, on peut parler de déduction. Si le terme est d’abord utilisé dans le champ de la philosophie, on le retrouve en informatique… dans les systèmes qui simulent le raisonnement déductif. C’est notamment le cas des moteurs d’inférences qui permettent aux systèmes experts de fonctionner. Chez Next, on entend parfois des data scientists utiliser indifféremment entraînement et inférence. Depuis l’essor des techniques d’apprentissage machine, il semblerait, en effet, que le terme d’inférence en soit venu à décrire le processus par lequel ce type de système produit ses prédictions ou ses recommandations de décisions. Il existe néanmoins une différence, comme l’explique la société XII (service et conseil en IA) : « L'inférence en intelligence artificielle fait référence au processus par lequel un modèle formé ou entraîné est utilisé pour effectuer des prédictions sur de nouvelles données, après sa phase d'apprentissage. Lors de l'apprentissage, le modèle est exposé à un vaste ensemble de données d'entraînement annotées, où il cherche à identifier des schémas, des caractéristiques et des relations qui lui permettront de généraliser les connaissances acquises sur de nouvelles données. Une fois que le modèle a été suffisamment entraîné, il peut être déployé en production pour effectuer des inférences sur des données non annotées sans avoir besoin d'accéder aux données d'apprentissage ». Elle reconnait néanmoins que la distinction entre les deux peut parfois sembler floue, d’autant que pendant l'entraînement, le modèle effectue des inférences pour ajuster ses paramètres. « Cependant, dans le contexte de l'IA, on utilise souvent le terme “inférence” pour décrire l'utilisation du modèle déployé en production, tandis que l’apprentissage se réfère à la phase initiale où le modèle est entraîné sur des données annotées ». On retrouve la même distinction chez Cloudflare et d’autres. Dans la série des synonymes, on parle aussi d’apprentissage pour qualifier le processus par lequel le système d’intelligence artificielle construit un modèle à partir de ses données d’entraînement. Il existe en réalité une variété de techniques d’apprentissage, qui peuvent être mêlées : les forêts aléatoires (random forests) consistent à créer de multiples arbres de décisions, eux-mêmes entraînés sur des sous-ensembles de données ; l’apprentissage par renforcement consiste à faire progresser le système par essai/erreur, on peut y adjoindre des retours automatiques, ou des retours humains, comme c’était le cas pour GPT-4, etc.

Apprentissage supervisé, apprentissage non supervisé

Quelles que soient les techniques d’entraînement adoptées, celles-ci sont nécessaires pour que le système d’IA construise le modèle qui lui permettra de répondre au cas d’usage qu’on lui a assigné. Cette phase peut être supervisée ou non. Dans le premier cas, on donne à la machine des données préalablement étiquetées. Le système apprend donc à faire des prédictions relatives à la relation qui lie les étiquettes aux données qu’elles qualifient. Quand le système apprend à partir d’une somme de données non étiquetées, on parle d’apprentissage non supervisé. Dans ces cas-là, la machine est généralement entraînée à repérer des schémas ou des tendances dans la masse d’informations reçues.

Annotation, labellisation

L’annotation, l’étiquetage ou la labellisation sont autant de qualificatifs de l’une des tâches humaines essentielles pour permettre à bon nombre de systèmes d’intelligence artificielle de fonctionner : ce sont les activités qui consistent à étiqueter les données, pour permettre aux modèles d’être entraînés par apprentissage supervisé. On croise aussi le terme de groundtruth (vérité terrain) pour qualifier les données issues du monde hors ligne, décrivant le réel, qui servent à entraîner les machines. Le terme groundtruth peut être employé pour différencier ces éléments des données produites par inférences.

Hallucination ou confabulation ?

Hallucination et confabulation sont deux autres termes très utilisés dans le champ technologique, alors qu’ils définissent à l'origine des troubles psychologiques. Une hallucination est un phénomène psychique qui pousse à percevoir des éléments inexistants ou à ressentir des sensations sans que quoique ce soit d’extérieur ne les ait fait naître. Quant à la confabulation, il s’agit de la création de souvenirs qui n’ont jamais existés, ce qui peut aller de petites erreurs anodines jusqu’aux perturbations avancées des récits qu’on peut trouver chez des personnes atteintes de démence. Dans le champ de l’intelligence artificielle, les hallucinations désignent des erreurs dans lesquelles le système produit du texte ou des images incohérents, les confabulations désignent la production de résultats qui ne correspond à aucun motif (pattern) appris précédemment… et les deux termes peuvent être utilisés de manière plus ou moins interchangeable, en attendant qu’une tendance nette se dégage. Citations de sources inexistantes, attributions de textes imaginaires à des personnes réelles et autres affirmations fausses en sont des exemples pour les systèmes générant du texte, de même que la reconnaissance d’objets ou de motifs inexistants peuvent l’être pour les systèmes de reconnaissance d’images.
Dans ce screenshot d'une génération de vidéo par le modèle Sora, la machine a produit une deuxième voie sur le viaduc Glennfinnan, en Écosse, ainsi qu'une deuxième cheminée sur la locomotive ancienne du train. Aucun des deux n'existent dans la réalité.
Pour une linguiste comme Emily Bender, utiliser des termes aussi évocateurs de la pensée (et des erreurs) humaine participe à faire passer les technologies d’intelligence artificielle pour ce qu’elles ne sont pas, c’est-à-dire des machines pensantes. Avec Timnit Gebru, Margaret Mitchell et les autres signataires de l’article sur les « perroquets stochastiques », publié en 2020, elle rappelait par exemple que les grands modèles de langages ne sont que des systèmes probabilistes. C’est-à-dire qu’ils produisent des textes certes crédibles aux yeux des humains, mais uniquement produits par calculs statistiques. Les machines sont incapables d’y mettre le moindre sens, ce qui participe à expliquer qu’elles produisent des erreurs de sens ou des résultats faux.
❌
❌