Sommaire
Karen Spärck Jones (1935 – 2007) entre moteur de recherche et traitement automatique du langage
Karen Spärck Jones fait ses études à Cambridge. Elle commencera sa carrière en 1953 à l’unité de recherche linguistique de l’université avec la linguiste Margaret Mastermann, elle-même pionnière dans le domaine de la linguistique informatique. Ses recherches porteront sur les moteurs de recherche et du traitement du langage.
Margaret Mastermann lui confie la mission de programmer un ordinateur qui devait comprendre des mots polysémiques, elle génèrera un thésaurus. Elle entame également une collaboration avec l’informaticien Roger Needham qu’elle épousera en 1958.
En 1964, Karen Spärck Jones publie un article d’une importance capitale Synonymy and semantic classification (Synonymie et classification sémantique), considéré comme un document fondamental dans le domaine du traitement du langage naturel. Une importance qui s’accroîtra avec l’arrivée du World Wide Web.
À partir de 1994, ses travaux portent sur les outils de recherche d’information, notamment les applications vocales, les interrogations de bases de données, la modélisation des utilisateurs et des agents, le résumé et l’évaluation des systèmes d’informations et des systèmes linguistiques.
Elle est élue en 1995 membre de la British Academy (académie des sciences humaines et sociales du Royaume-Uni) dont elle sera vice-présidente de 2000 à 2002. Elle obtiendra aussi plusieurs prix : le Gerard Salton Award en 1988 (un prix de l’ACM et du SIGIR (en), deux associations états-uniennes en informatique), le prix de l’ACL en 2004 (une société savante américaine spécialisée dans le traitement des langues) et la médaille Lovelace de la British Computer Society en 2007 (sept ans après Linus Torvalds).
Elle dira, dans un entretien suite à la réception de la médaille Lovelace :
J’étais sidérée. J’ai regardé la liste des précédents récipiendaires et j’ai pensé : « Qu’est-ce que je viens faire dans ce groupe de gens ? » Mais j’étais particulièrement enchantée de voir que j’étais la première femme à l’obtenir. Très agréable, j’ai vraiment apprécié.
Je pense qu’il est très important de faire en sorte qu’il y ait plus de femmes en informatique. Mon slogan est _« l’informatique est trop importante pour être laissée aux
Chloé-Agathe Azencott, spécialiste de l’apprentissage automatique
On change de génération avec Chloé-Agathe Azencott, elle aurait pu être une petite fille de Karen Spärck Jones.
Chloé-Agathe Azencott est professeure à l’École des Mines de Paris et à l’Institut Curie où elle enseigne l’apprentissage automatique ou apprentissage statistique ou encore apprentissage machine, en anglais machine learning. Elle a fait ses études à l’IMT Atlantique (ENST Bretagne à son époque, et, plus familièrement « Télécoms Bretagne ») et à l’Université de Californie à Irvine (UC Irvine).
Elle est récipiendaire, en 2021, du premier prix de la Jeune ingénieure en intelligence artificielle, organisé par le cabinet de conseil en communication Tilder en partenariat avec France Digitale (une association de startups et de VCs) et le magazine Challenges. Elle est l’autrice d’un livre sur l’apprentissage automatique : Introduction au machine learning chez Dunod, deuxième édition février 2022. On peut en télécharger une version PDF gratuitement mais sans les exercices. La version papier est en réimpression.
Comment définit-elle l’apprentissage automatique qui est l’un des sous-domaines de l’intelligence artificielle ? Elle commence par définir l’apprentissage qui est le fait d’acquérir une compétence par l’expérience et la pratique. Dans une conférence donnée le 25 novembre 2021 à l’Institut Henri Poincaré elle ajoute :
j’aime cette définition parce que je peux l’appliquer à ce qui se passe avec des humains, donc un enfant qui apprend à marcher en essayant de marcher et plus il s’entraine à marcher, plus il marche. Ça s’applique à mes étudiants et mes étudiantes qui, à force de résoudre des problèmes de maths, acquièrent l’expérience et la compétence de savoir faire des stats et des probas et puis ça s’applique aussi aux ordinateurs à condition de, peut-être, détourner un peu le sens de « compétences » et d’« expérience ».
Pour une machine la compétence est un algorithme donc
un nouvel algorithme capable de faire des choses que l’ordinateur n’était pas capable de faire avant et l’expérience ou la pratique ça va être des exemples ou des données.
Définition qui peut être complétée par celle qu’elle donne dans l’introduction de son livre :
Dans le cas d’un programme informatique, […], on parle d’apprentissage automatique, ou machine learning, quand ce programme a la capacité de se modifier lui-même sans que cette modification ne soit explicitement programmée. Cette définition est celle donnée par Arthur Samuel (1959). On peut ainsi opposer un programme classique, qui utilise une procédure et les données qu’il reçoit en entrée pour produire en sortie des réponses, à un programme d’apprentissage automatique, qui utilise les données et les réponses afin de produire la procédure qui permet d’obtenir les secondes à partir des premières.
[…]
Ce point de vue informatique sur l’apprentissage automatique justifie que l’on considère qu’il s’agit d’un domaine différent de celui de la statistique. Cependant, nous aurons l’occasion de voir que la frontière entre inférence statistique et apprentissage est souvent mince. Il s’agit ici, fondamentalement, de modéliser un phénomène à partir de données considérées comme autant d’observations de celui-ci.
Elle pense toutefois qu’il convient de garder un esprit critique vis-à-vis de l’IA notamment parce que :
l’on y injecte souvent des connaissances déjà établies (lois de la physique, notions de linguistique, connexions entre concepts), ces modèles restent essentiellement statistiques et ne mènent aucun raisonnement. L’intelligence artificielle ne remplacera pas les scientifiques, Chloé-Azencott, La Croix, 15 avril 2024
Chloé-Agathe Azencott considère, en outre, qu’il est extrêmement important :
de donner plus de visibilité aux femmes scientifiques, et notamment à celles qui travaillent dans le domaine du machine learning et de la science des données (elles ne représentent que 2% des scientifiques dans ce domaine), mais aussi à toutes les identités, afin de refléter la diversité dans tous ces aspects, y compris social. Chloé-Agathe Azencott, mathématiques et machine learning au service de la recherche médicale, Institut Henri Poincaré, [sd].
Une nécessité qui se démontre ci-après.
Sexiste, raciste l’IA ?
Avant tout chose, une précision. Le sexisme et le racisme ce sont à la fois des opinions et des manifestations. Si les intelligences artificielles n’ont pas d’opinions, en revanche ce qui en sort peut être manifestement raciste ou sexiste et c’est cet aspect-là qu’on va voir à travers une série d’articles de diverses origines parus entre 2017 et 2024. Les articles sont présentés dans l’ordre chronologique.
Il est intéressant de voir, à partir de cette sélection, les questions que pose l’IA et de relever l’impact extrêmement important de cette technologie sur la société, qu’il s’agisse d’emploi (tri des candidatures), de santé, de droits d’auteurs ou de justice, entre autres.
▶ L’intelligence artificielle reproduit aussi le sexisme et le racisme des humains, Morgane Tual, 15 avril 2017, Le Monde.
L’article se fait le relais d’une étude de la vue Science (en) du 14 avril 2017 et commence ainsi :
Les femmes associées aux arts et au foyer, les hommes aux professions scientifiques… Ces stéréotypes ont tellement la vie dure qu’ils se retrouvent reproduits dans des programmes d’intelligence artificielle (IA).
Un problème qui :
ne se situe pas seulement au niveau du langage. Quand un programme d’IA est devenu jury d’un concours de beauté, en septembre 2016, il a éliminé la plupart des candidats noirs.
L’article signale que ce ne sont pas les IA qui ont des préjugés, mais bien nous qui leur donnons les nôtres et relève que cela concerne la sélection des CV, la justice, les assurances. Au niveau des pistes pour redresser la barre, il est suggéré une meilleure diversité au niveau des personnes qui conçoivent les IA (une diversité très mise à mal par la nouvelle présidence des États-Unis et des patrons des GAFAM). Une autre piste évidente : travailler sur les données. L’article conclut que la solution du problème serait de modifier les humains.
▶ L’intelligence artificielle, aussi raciste et sexiste que nous, Fabien Goubet, 4 mai 2017, Le temps.ch.
L’article est basé sur la même étude que celle citée plus haut et il commence assez fort :
Les androïdes rêvent-ils de moutons noirs expulsés par des moutons blancs ? Avec leurs capacités de raisonnement froides, basées sur des calculs complexes, on imagine les intelligences artificielles dénuées de tout préjugé. C’est tout le contraire, comme vient de le confirmer une étude parue en avril dans la revue « Science ».
Il explique que le logiciel, GloVe, utilisé pour l’étude :
s’est prêté au jeu d’association d’idées. Ce programme est une IA basée sur le «machine learning», c’est-à-dire capable d’apprendre, à partir de nombreux exemples, à classer des informations selon des critères exigés par un humain. C’est sur ce type d’apprentissage que reposent notamment les algorithmes de reconnaissance d’images utilisés par Facebook ou Google. Pour entraîner GloVe, Aylin Caliskan l’a donc « nourri » avec un gigantesque corpus de 840 milliards de mots (en) issus du Web, en 40 langues différentes. Ses réponses laissent songeur. Comme un être humain, le programme a associé des noms de fleurs à des connotations positives, tandis que des noms d’insectes, par exemple, ont été catégorisés plutôt négativement.
Il ajoute que ces « biais plutôt innocents » ont été reproduits plus problématiquement : aux prénoms féminins les associations avec la famille, aux prénoms masculins celles avec la carrière, et un meilleur traitement était réservé aux noms à consonance européenne. Comportement qu’un spécialiste des réseaux de neurones artificiels et de la théorie neuronale de la cognition, Claude Touzet, explique :
Les machines capables d’apprentissage sont un miroir du comportement humain. En les nourrissant avec un discours humain forcément biaisé, il est naturel qu’elles le reproduisent.
Avec des idées de solutions possibles, par exemple imposer des lois aux IA, ce que Sébastien Konieczny, directeur de recherche au CNRS, trouve difficile car :
on ne sait pas encore vraiment comment réguler ces algorithmes avec des règles éthiques et morales, pas plus – et c’est tout aussi inquiétant – qu’on ne comprend comment la machine a pris sa décision.
Une solution possible :
serait d’associer ces algorithmes à d’autres méthodes permettant, elles, de rendre compte du raisonnement.
▶ Comment une IA peut devenir raciste ou sexiste, Anne Cagan, 25 juin 2020, Journal du geek.
La base de l’article est une interview de Stéphane d'Ascoli, qui deviendra docteur en intelligence artificielle en 2022 et venait de publier une livre de vulgarisation « Comprendre la révolution de l’intelligence artificielle » aux éditions First. Stéphane d’Ascoli donne l’exemple des recrutements biaisés par les IA :
On a tendance à s’imaginer que les IA sont froides, objectives et parfaitement rationnelles mais ce n’est pas le cas. Elles apprennent de nos données et nos données sont biaisées. Si, pendant dix ans, les femmes ont été défavorisées lors du processus de recrutement d’une entreprise et que celle-ci utilise ces données pour entraîner une IA, il y a des chances que l’IA déduise que les CV de femmes sont moins pertinents pour cette entreprise et qu’elle continue de les défavoriser. Les intelligences artificielles n’ont pas notre esprit critique.
À la question : « comment éviter ces dérives ». Il répond qu’une piste faisable serait d’assurer que :
les jeux de données sur lesquels on va entraîner l’IA sont équilibrés et diversifiés.
Et qu’il faut, évidemment, tester l’IA pour vérifier qu’elle traite tout le monde de façon identique.
▶ L’IA serait-elle raciste ? C’est ce qu’affirme une étude, Daniel Ichbiah, 18 novembre 2023, Futura.
L’étude en question, datée de juillet 2023 a été menée par une équipe plurinationale : Shangbin Feng et Yulia Tsvetkov de l’Université de Washington (USA), Chan Young Park de l’Université privée Carnegie Mellon (USA) et Yuhan Liu de l’Université Jiaotong de Xi'an (Chine).
À chaque fois, il a été noté que les outils d’IA générative manifestaient des biais sociaux et politiques particuliers, en relation avec le lieu où le corpus de données avait été collecté.
L’article relève les inquiétudes de la Cnil anglaise qui estime que l’usage de l’IA pourrait aboutir à « des conséquences dommageables pour la vie des gens ».
▶ ChatGPT et misogynie : l’intelligence artificielle est-elle sexiste ?, Nadine Jürgensen, 11 février 2024, TDG (Tribune de Genève).
D’entrée de jeu, la question est posée :
Deepfakes sur Taylor Swift et Sibel Arslan, représentations suggestives du corps des femmes: que faire contre une IA parfois machiste ?
L’autrice explique qu’elle a testé ChatGPT et qu’elle a été déçue : réponses maladroites, insatisfaisantes, voire fausses. Elle ajoute :
Jusqu’à présent, l’IA ne semble pas exercer une grande attraction sur le sexe féminin. En effet, seuls 30% des utilisatrices et des utilisateurs actifs sont des femmes. Elles sont critiques à l’égard des résultats de l’IA et ne les perçoivent pas comme justes. Oui, elles ont l’impression de tricher lorsqu’elles utilisent l’IA au quotidien. Elle serait pratique pour les hommes, tandis que les femmes peuvent avoir l’impression d’être moins qualifiées parce qu’elles la sollicitent.
Elle reprend la question des sources de données des IA et aborde un point intéressant qui est celui de la réglementation, la Suisse n’en disposant pas. Elle évoque la question de la propriété intellectuelle :
Les artistes et les professionnels des médias de notre pays demandent une meilleure protection de leurs droits d’auteur. Et tant d’autres questions, par exemple où et comment l’intelligence artificielle peut se «servir» de contenus créés par l’homme ou comment protéger nos données personnelles. En outre, il est essentiel de savoir si un contenu a été créé avec l’IA ou non.
Elle conclut, après avoir indiqué qu’elle avait recommencé à jouer avec l’IA, qu’elle continuera à écrire sa chronique elle-même.
▶ Pourquoi les IA génératives sont-elles sexistes, racistes et homophobes ?, Justine Havelange, 29 juillet 2024, EJO.
Cet article est issu d’une rencontre avec Anne Jobin, chercheuse au département informatique de l’Université de Fribourg (Suisse) présidente de la commission fédérale des médias et spécialiste des technologies digitales.
« La technologie n’est ni bonne, ni mauvaise, ni neutre », cette citation de l’historien des sciences Melvin Kranzberg est pour Anna Jobin un guide « pour se rendre compte de la vitesse des changements et de la cohabitation nécessaire entre nous et la technologie. »
L’IA n’est pas neutre, car elle reproduit les stéréotypes de notre société (comme on l’a déjà vu plus haut).
Les bases de données, même gigantesques, sont parfois la source d’un « sous-apprentissage ». Comprenez par là qu’il n’existe pas assez de données sur certains types de personne.
Ce constat a mobilisé l’UNESCO mais également « Numeum », le syndicat [français] de l’industrie du Numérique. L’une des pistes de solution trouvées par ces organisations est de diversifier les équipes de développeurs et d’ingénieurs ou de faire appel à des sociologues.
À la question des solutions possibles : l’ajustement des biais, modèles, bases de données et algorithmes, est une réponse.
▶ Pour finir, et occuper vos futures longues soirée de printemps, d’été, d’automne et d’hiver, la lecture du blog Entretien avec un vampire d’un professeur des universités en informatique qui a fait un assez triste constat.
Depuis deux ans, les IA génératives ont déferlé absolument partout, et donc aussi dans l’enseignement. Plus spécifiquement, les étudiant·e·s s’en servent quotidiennement pour résoudre les exercices que je leur donne, je le constate, iels me le disent. J’ai beau prévenir qu’en faisant ainsi, l’objet même des exercices disparaît (on ne s’exerce plus), le rouleau compresseur marketing les convainc que ça peut les aider et on me dit même comment telle ou telle IA est interrogée pour expliquer le programme qu’elle propose, et les concepts qui vont avec, utilisée comme une vraie auxiliaire de travail en somme.
L’idée du blog étant d’évaluer l’IA comme il le fait avec ses étudiants et de documenter ce travail.