Vue lecture

☕️ Accusée d’acheter de vieux livres pour entrainer des IA, Zoom Books nie



Depuis quelques semaines, des libraires se demandent sur Reddit si l’entreprise canadienne Zoom Books n’achètent pas de vieux livres en masse pour entrainer ses modèles d’IA génératives. Les ouvrages seraient détruits dans la foulée…

Comme l’expliquent les médias suisses RTS et SRF et le média allemand taz, cette entreprise a récemment passé commande à des librairies en Allemagne mais aussi en Espagne, aux États-Unis, en Nouvelle-Zélande, en Australie, en Bulgarie ou encore en Grande-Bretagne.

Zoom Books scanne le texte des livres achetés légalement, en détruisant l’ouvrage au passage. La société pourrait plus facilement invoquer le « fair use », un argument souvent repris par les entreprises d’IA générative pour justifier la légalité de l’entrainement de leurs modèles sur une masse de données.

Bibliothèque IHEID, Genève, Switzerland
Unsplash

Zoom Books a expliqué à nos confrères de taz qu’elle fait de l’achat et de la revente mais aussi du recyclage de livres lorsqu’ils sont en trop mauvais état. « On a acheté de manière ciblée des ouvrages documentaires datant de 1970 et postérieurs, dotés d’un numéro ISBN – des invendus poussiéreux dont personne ne voulait depuis des années. Toute revente est totalement exclue : ces livres n’ont aucune valeur, et on n’a acheté qu’un seul exemplaire par titre », affirme encore l’entreprise à SRF.

« Mais nous tenons à préciser que, contrairement à certaines spéculations récentes, Zoom Books ne numérise ni ne détruit aucun livre », assure-t-elle à taz. Mais les libraires se demandent si Zoom Books ne serait pas un simple intermédiaire. Questionné sur le sujet, l’un des responsables de l’entreprise se contente de répéter qu’il ne peut fournir aucune information sur les acheteurs.

  •  

☕️ Accusée d’acheter de vieux livres pour entrainer des IA, Zoom Books nie



Depuis quelques semaines, des libraires se demandent sur Reddit si l’entreprise canadienne Zoom Books n’achètent pas de vieux livres en masse pour entrainer ses modèles d’IA génératives. Les ouvrages seraient détruits dans la foulée…

Comme l’expliquent les médias suisses RTS et SRF et le média allemand taz, cette entreprise a récemment passé commande à des librairies en Allemagne mais aussi en Espagne, aux États-Unis, en Nouvelle-Zélande, en Australie, en Bulgarie ou encore en Grande-Bretagne.

Zoom Books scanne le texte des livres achetés légalement, en détruisant l’ouvrage au passage. La société pourrait plus facilement invoquer le « fair use », un argument souvent repris par les entreprises d’IA générative pour justifier la légalité de l’entrainement de leurs modèles sur une masse de données.

Bibliothèque IHEID, Genève, Switzerland
Unsplash

Zoom Books a expliqué à nos confrères de taz qu’elle fait de l’achat et de la revente mais aussi du recyclage de livres lorsqu’ils sont en trop mauvais état. « On a acheté de manière ciblée des ouvrages documentaires datant de 1970 et postérieurs, dotés d’un numéro ISBN – des invendus poussiéreux dont personne ne voulait depuis des années. Toute revente est totalement exclue : ces livres n’ont aucune valeur, et on n’a acheté qu’un seul exemplaire par titre », affirme encore l’entreprise à SRF.

« Mais nous tenons à préciser que, contrairement à certaines spéculations récentes, Zoom Books ne numérise ni ne détruit aucun livre », assure-t-elle à taz. Mais les libraires se demandent si Zoom Books ne serait pas un simple intermédiaire. Questionné sur le sujet, l’un des responsables de l’entreprise se contente de répéter qu’il ne peut fournir aucune information sur les acheteurs.

  •  

IA générative : le RAG par l’exemple, avec 15 000 actus Next et Mistral 7B

Ça fait raguer mon Mac !
IA générative : le RAG par l’exemple, avec 15 000 actus Next et Mistral 7B

Nous avons passé à la moulinette du RAG le contenu de plus de 15 000 actus publiées sur Next ces dix dernières années. Le but ? En donner ensuite des morceaux à une IA générative pour qu’elle adapte ses réponses. Nous avons tout fait en local, sur un MacBook Pro avec Ollama et Mistral 7B.

Le Retrieval-Augmented Generation, ou génération augmentée par récupération en français, est une technique permettant à des IA génératives d’utiliser une base de connaissances pour répondre à des prompts. On utilise aussi très souvent son acronyme pour en parler : RAG.

Rag dans ma machine

Après les explications techniques et son principe de fonctionnement, nous vous proposons un exemple pratique. Nous avons récupéré le contenu de plus de 15 000 articles de Next sur une dizaine d’années pour l’associer à Mistral 7B, un LLM libre de 7,3 milliards de paramètres (sorti en 2023, désormais loin des ténors du moment qui ont au bas mot des centaines de milliards de paramètres, voire des milliers pour certains), sous licence Apache 2.0. Le RAG est agnostique du modèle d’IA générative, nous aurions évidemment pu en prendre un autre.

Dans notre cas, un traitement local était impératif. Nous avons utilisé un MacBook Pro avec un SoC M2 et 16 Go de mémoire partagée. Mistral 7B tourne dessus sans problème, avec de la marge pour exécuter d’autres applications en même temps. Côté logiciel, nous avons installé Ollama (open source, licence MIT). Nous l’avions déjà présenté dans un précédent tuto sur l’influence du GPU dans les performances des IA génératives.

Si les explications techniques ne vous intéressent pas, sautez directement à l’inter : « Concrètement, ça donne quoi d’utiliser le RAG ». Vous aurez des exemples de réponses à des prompts sur Mistral 7B avec et sans RAG (en local dans les deux cas).

Sous le capot pour la partie technique : Ollama, Mistral et Nomic

Passons rapidement (mais pas trop) sur les détails techniques, dont voici les grandes lignes : on télécharge le modèle d’IA générative avec la commande ollama pull mistral puis un autre modèle pour transformer le texte de nos actus en vecteurs (des nombres, qui sont ensuite utilisés par les algorithmes des IA génératives) avec ollama pull nomic-embed-text (on parle aussi d’embedding).

Un petit script permet de découper automatiquement le texte en plusieurs morceaux (chunks) qui sont ensuite transformés en tokens via nomic-embed-text. Cette indexation ne doit se faire qu’une seule fois. Dans notre cas, elle a pris environ trois heures (sur le MacBook Pro M2 avec plus de 15 000 articles). Pour ajouter de nouveaux articles par la suite, pas la peine de tout réindexer, il suffit de passer à la moulinette les nouveaux textes.

Passons aux choses sérieuses avec le déroulement d’un prompt. Le prompt est vectorisé, puis comparé à tous les vecteurs des morceaux des articles de notre base. Nous gardons les 10 meilleurs ; qui sont ensuite envoyés à Mistral en même temps que le prompt. Mistral va donc élaborer sa réponse en s’appuyant sur ses connaissances et les 10 morceaux des actus de Next.

On peut affiner le prompt pour lui demander de n’utiliser que les données de Next par exemple. Après, c’est un modèle statistique (comme toutes les IA génératives), donc statistiquement, il fait parfois n’importe quoi ; rien de neuf sous le Soleil.

Concrètement, ça donne quoi d’utiliser le RAG

Pour nos tests, nous utilisons donc Ollama sur notre MacBook Pro, sans aucune connexion à Internet, toutes les opérations se faisant en local.

Voici quelques prompts et les réponses de Mistral, avec ou sans RAG. Rappel important : nous n’avons pas spécialement cherché à optimiser les réponses (le prompt passé à Mistral avec le contenu des actualités jugé le plus intéressant pourrait être amélioré).

Nous vous proposons huit prompts, sur le logiciel, le droit, les réseaux sociaux, le hardware, l’informatique quantique… Les réponses sont, pour rappel, statistiques et peuvent donc par définition être totalement différentes pour un même prompt répété plusieurs fois. Nous livrons ici la première réponse proposée par l’IA générative.

Si vous avez des idées de prompts à tester, n’hésitez pas à les proposer en commentaire, suivant les cas je pourrai les lancer et donner les résultats dans une prochaine actualité

Passons aux choses sérieuses avec une première question soulevée par Vincent (il a la réponse, j’en suis certain ) ! Mais il est curieux de voir le résultat avec ou sans le contenu des actualités de Next… qu’il a pour la plupart rédigées.

Puis-je avoir une synthèse des défauts de Windows 11 ?

Réponse de Mistral avec RAG sur les actus Next :


Il reste 80% de l'article à découvrir.
Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

  •  

Dis Next, c’est quoi un « RAG » en IA générative ?

Rag against the machine
Dis Next, c’est quoi un « RAG » en IA générative ?

Ces dernières années, vous entendez peut-être parler de RAG, surtout dans le monde des entreprises. De quoi s’agit-il ? Pourquoi certaines organisations n’ont que ce mot à la bouche ? On vous explique tout, le plus simplement possible.

RAG signifie « Retrieval-Augmented Generation », littéralement « génération augmentée par récupération ». Dans les grandes lignes, c’est un type d’architecture que l’on met en place pour obtenir des réponses rapides et précises sur une base de connaissances spécifiques, en utilisant de l’IA.

Des explications sans (trop de) jargon

Pour comprendre ce que le RAG permet, on utilise souvent l’analogie d’un expert, mais qui n’aurait pas connaissance de l’armoire dans laquelle vous rangez tous vos documents. Il peut s’agir de modes d’emploi, de cartes de vœux, de livres particuliers, voire de factures et d’autres informations que vous avez jugées suffisamment importantes pour les placer là. L’expert en sait beaucoup, mais il ne pourra répondre à aucune question sur le contenu de cette armoire. On peut toujours décrire le type de documents que l’on possède, ses réponses manqueront de précision.

IA générative : le RAG par l’exemple, avec 15 000 actus Next et Mistral 7B

C’est un comportement que l’on retrouve dans les IA génératives habituellement. Elles « savent » quantité de choses, mais si vous êtes dans une entreprise possédant un grand nombre de ressources, l’IA n’y aura probablement pas accès.

Or, ces ressources internes peuvent être à la fois le cœur d’une entreprise comme sa base d’exploitation. Si vous mettez en place un chatbot pour gérer l’assistance, il vaut mieux qu’il ait accès à ces ressources. Les réponses données pourraient sinon être vagues, ou même – pire ! – inventées. Car les IA génératives hallucinent et ont encore bien du mal à répondre simplement « Je ne sais pas ».


Il reste 80% de l'article à découvrir.
Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

  •  

Ford rappelle les vieux briscards pour épauler son IA déficiente

L’IA passe au contrôle technique
Ford rappelle les vieux briscards pour épauler son IA déficiente

Ford a décidé de faire appel à la bonne vieille expérience humaine pour corriger les problèmes de qualité qui affectent ses gammes. Le constructeur automobile états-unien a réembauché des centaines de vétérans pour former la jeune génération et améliorer les outils IA incapables de remplacer, à eux seuls, ce savoir-faire.

Aux États-Unis, Ford se traîne depuis des années une mauvaise réputation : un manque de fiabilité. En 2023, l’entreprise a ainsi englouti 4,8 milliards de dollars pour éponger les coûts des prises en charge au titre de la garantie de ses voitures, soit 4 % du chiffre d’affaires du constructeur automobile (trois fois plus élevé que le reste de l’industrie). Ford provisionnait à l’époque 1 203 dollars pour les réparations sous garantie sur chaque véhicule vendu, contre 591 dollars en 2019.

Le coût astronomique de la garantie

Des frais énormes que le groupe s’est engagé à résorber. Et cela passe par le retour sur les lignes de production de vétérans. Ces trois dernières années, l’entreprise a réembauché 350 « anciens », des ex-employés Ford et de fournisseurs. Ils forment les salariés plus jeunes, et surtout ils entraînent les outils IA utilisés par le groupe.

« L’intelligence artificielle est un outil formidable, mais elle ne vaut que par les informations utilisées pour l’entraîner », explique Charles Poon, vice-président de l’ingénierie matérielle du géant de Detroit. « Ces dernières années, nous n’avons pas accordé toute l’attention nécessaire à l’expérience de nos ingénieurs les plus chevronnés, ceux qui nous ont accompagnés sur de nombreux cycles de produits », poursuit-il dans une déclaration reprise par Bloomberg.

Ces ingénieurs capés dirigent désormais des réunions obligatoires où les problèmes de qualité sont passés au crible. « Nous nous étions de plus en plus reposés sur des systèmes automatisés de contrôle qualité », ajoute Kumar Galhotra, le directeur des opérations. Ces spécialistes « traquent les points de défaillance avant même qu’une pièce n’arrive sur la ligne de production ».

L’IA désemparée

Résultat : les coûts liés à la prise en charge de la garantie diminuent, « des centaines et des centaines de millions de dollars », se réjouit Jim Farley, le patron de Ford. L’image de marque en profite aussi. Le dernier classement JD Power sur la qualité initiale des véhicules durant les trois premiers mois suivant l’achat montre que Ford dépasse des références en la matière, dont le modèle à suivre, Toyota. En fait, seules les marques de luxe Porsche et Genesis (la marque haut de gamme de Hyundai) ont fait mieux.

Charles Poon bat sa coulpe : « Nous avons cru, à tort, qu’il suffisait d’introduire de l’intelligence artificielle et d’y intégrer nos exigences de conception pour obtenir un produit de grande qualité ». Pour améliorer certains outils d’automatisation et d’IA, le constructeur a compris qu’il fallait les entraîner « par les personnes les plus expérimentées ». L’histoire ne dit pas encore si l’IA saura garder le cap le jour où les vieux briscards ne seront plus là pour lui tenir la main.

Ford n’en reste pas moins le constructeur automobile américain comptant toujours le plus de rappels ; les coûts liés aux garanties devraient tourner autour du milliard de dollars en 2026. La direction espère toutefois que ce volume va se dégonfler avec les nouveaux modèles.

  •  

Ford rappelle les vieux briscards pour épauler son IA déficiente

L’IA passe au contrôle technique
Ford rappelle les vieux briscards pour épauler son IA déficiente

Ford a décidé de faire appel à la bonne vieille expérience humaine pour corriger les problèmes de qualité qui affectent ses gammes. Le constructeur automobile états-unien a réembauché des centaines de vétérans pour former la jeune génération et améliorer les outils IA incapables de remplacer, à eux seuls, ce savoir-faire.

Aux États-Unis, Ford se traîne depuis des années une mauvaise réputation : un manque de fiabilité. En 2023, l’entreprise a ainsi englouti 4,8 milliards de dollars pour éponger les coûts des prises en charge au titre de la garantie de ses voitures, soit 4 % du chiffre d’affaires du constructeur automobile (trois fois plus élevé que le reste de l’industrie). Ford provisionnait à l’époque 1 203 dollars pour les réparations sous garantie sur chaque véhicule vendu, contre 591 dollars en 2019.

Le coût astronomique de la garantie

Des frais énormes que le groupe s’est engagé à résorber. Et cela passe par le retour sur les lignes de production de vétérans. Ces trois dernières années, l’entreprise a réembauché 350 « anciens », des ex-employés Ford et de fournisseurs. Ils forment les salariés plus jeunes, et surtout ils entraînent les outils IA utilisés par le groupe.

« L’intelligence artificielle est un outil formidable, mais elle ne vaut que par les informations utilisées pour l’entraîner », explique Charles Poon, vice-président de l’ingénierie matérielle du géant de Detroit. « Ces dernières années, nous n’avons pas accordé toute l’attention nécessaire à l’expérience de nos ingénieurs les plus chevronnés, ceux qui nous ont accompagnés sur de nombreux cycles de produits », poursuit-il dans une déclaration reprise par Bloomberg.

Ces ingénieurs capés dirigent désormais des réunions obligatoires où les problèmes de qualité sont passés au crible. « Nous nous étions de plus en plus reposés sur des systèmes automatisés de contrôle qualité », ajoute Kumar Galhotra, le directeur des opérations. Ces spécialistes « traquent les points de défaillance avant même qu’une pièce n’arrive sur la ligne de production ».

L’IA désemparée

Résultat : les coûts liés à la prise en charge de la garantie diminuent, « des centaines et des centaines de millions de dollars », se réjouit Jim Farley, le patron de Ford. L’image de marque en profite aussi. Le dernier classement JD Power sur la qualité initiale des véhicules durant les trois premiers mois suivant l’achat montre que Ford dépasse des références en la matière, dont le modèle à suivre, Toyota. En fait, seules les marques de luxe Porsche et Genesis (la marque haut de gamme de Hyundai) ont fait mieux.

Charles Poon bat sa coulpe : « Nous avons cru, à tort, qu’il suffisait d’introduire de l’intelligence artificielle et d’y intégrer nos exigences de conception pour obtenir un produit de grande qualité ». Pour améliorer certains outils d’automatisation et d’IA, le constructeur a compris qu’il fallait les entraîner « par les personnes les plus expérimentées ». L’histoire ne dit pas encore si l’IA saura garder le cap le jour où les vieux briscards ne seront plus là pour lui tenir la main.

Ford n’en reste pas moins le constructeur automobile américain comptant toujours le plus de rappels ; les coûts liés aux garanties devraient tourner autour du milliard de dollars en 2026. La direction espère toutefois que ce volume va se dégonfler avec les nouveaux modèles.

  •  
❌