Vue lecture

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.

Les États-Unis auraient étendu l’obligation de surveillance (FISA) aux data centers

La NSA sur un petit nuage
La Section 702 de la loi sur la surveillance du renseignement étranger (Foreign Intelligence Surveillance Act – FISA)

Jusqu’alors réservée aux seules compagnies de téléphonie et aux fournisseurs de services Internet états-uniens, l’obligation de surveiller certaines « communications de non-Américains à l’étranger » à la demande du renseignement US, y compris s’ils communiquent avec des Américains, aurait été étendue aux data centers.

Pour rappel, la Section 702 du Foreign Intelligence Surveillance Act (FISA) autorise la NSA, voire le FBI, à accéder aux « communications de non-Américains à l’étranger », y compris s’ils communiquent avec des Américains.

Jusqu’alors, seuls les compagnies de téléphonie et fournisseurs de services Internet étaient contraints de répondre aux demandes FISA, en tant qu’« electronic communication service provider » (ECSP).

Or, le périmètre des ECSP a récemment été élargi et concerne désormais « tout autre fournisseur de services ayant accès à des équipements qui sont ou peuvent être utilisés pour transmettre ou stocker des communications filaires ou électroniques », ainsi que leurs « custodians » (que l’on pourrait traduire par « gardiens », ou « dépositaires »), et non plus seulement leurs « employés ».

Le nombre d’entreprises concernées serait « extrêmement faible »


Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

☕️ « Choose France » : Microsoft et Amazon promettent plus de 5 milliards d’euros d’investissements à eux deux

Des billets de cinquante euros.

Le sommet Choose France, qui a eu lieu ce lundi à Versailles, met l’intelligence artificielle et l’informatique quantique à l’honneur.

Microsoft a annoncé 4 milliards d’euros d’investissement « au service de l’intelligence artificielle », selon son président. Amazon prévoit 1,23 milliard d’euros pour la création d’un nouveau data center, et IBM 45 millions d’euros et 50 emplois dans l’informatique quantique.

Alors qu’une autre industrie mise en valeur pendant ce sommet est celle de la décarbonation, la France fait valoir ses avantages énergétiques pour attirer les acteurs de l’IA, quand bien même cette dernière s’avère coûteuse d’un point de vue environnemental (en énergie, en eau, en matières premières, etc).

SoC M4 : évolutions (face aux M1 à M3) et promesses floues d’Apple

Bientôt M6, la petite puce qui monte ?
Apple M4 SoC

La semaine dernière, Apple a présenté comme prévu sa nouvelle gamme de tablette iPad Pro, avec une nouvelle puce maison : M4. Cette quatrième génération prend donc prendre la relève du SoC M3. Nous avons regroupé les principales caractéristiques techniques des M1 à M4 dans un tableau, avec une mise en perspective des performances annoncées par Apple.

Comme à son habitude, Apple ne tarit pas d’éloges lorsqu’il s’agit de présenter un nouveau produit, quel qu’il soit. Avec la puce M4, on a eu droit à une débauche de chiffres et de promesses – « performances exceptionnelles », « révolutionnaire »… – , mais parfois avec des non-dits très importants.

SoC M4 : 9 ou 10 cœurs CPU

Dans son communiqué, Apple annonce « jusqu’à 10 cœurs » pour la partie CPU, ce qui veut évidemment dire qu’il existe au moins une version plus légère. Et, en effet, la nouvelle puce M4 intègre 9 ou 10 cœurs avec 3 ou 4 cœurs performances (P) et 6 cœurs efficaces (E). Les générations précédentes étaient à 8 cœurs pour le CPU (4P et 4E).

Il faut se rendre sur la page de l’iPad Pro pour trouver le détail des configurations : « Les modèles d’iPad Pro avec 256 Go ou 512 Go de stockage sont équipés de la puce Apple M4 avec CPU 9 cœurs. Les modèles d’iPad Pro avec 1 To ou 2 To de stockage sont équipés de la puce Apple M4 avec CPU 10 cœurs ».

Le stockage détermine les cœurs CPU et la mémoire

Seuls les modèles les plus chers peuvent donc profiter des 10 cœurs du SoC M4. Les iPad Pro de 256 et 512 Go n’ont en effet droit qu’à trois cœurs P, soit un de moins que la puce M3, mais avec deux cœurs E de plus. Apple insiste d’ailleurs beaucoup sur le gain en efficacité énergétique de son SoC.

Ce n’est d’ailleurs pas le seul changement : les iPad Pro de 256 et 512 Go ont 8 Go de mémoire seulement, quand les versions de 1 et 2 To ont 16 Go. Ces différences ne sont pas mises en avant par Apple dans sa boutique en ligne. Il faut cliquer sur « Vous ne savez pas pour quel espace de stockage opter ? Voici quelques conseils pour déterminer l’espace qu’il vous faut » pour avoir le détail.

Le SoC M4 intègre 10 cœurs GPU

Sur la partie GPU, il y a toujours 10 cœurs avec la puce M4 (dans sa version pour les iPad Pro en tout cas), alors que cela varie de 8 à 10 sur les M3 et M2.

Apple explique que « le nouveau GPU 10 cœurs de la puce M4 fait évoluer l’architecture graphique de nouvelle génération de la famille des puces M3. Il intègre la mise en cache dynamique, une innovation Apple qui alloue la mémoire locale de façon dynamique dans le matériel et en temps réel afin d’accroître l’utilisation moyenne du GPU ».

Cette technologie n’est pas une nouveauté du M4, car elle était déjà mise en avant sur le SoC M3. Il semble que les nouveaux cœurs GPU n’aient pas grand-chose de nouveau par rapport à ceux de la génération précédente, mais cela reste à confirmer.

Comparatif des performances à la sauce Apple

Pour les performances, Apple annonce des « rendus pro jusqu’à 4x plus rapides qu’avec la M2 » et des « performances du CPU jusqu’à 1,5x plus rapides qu’avec la M2 ». Problème, il s’agit de comparer une puce avec deux générations d’écart et un nombre de cœurs CPU différent : 10 pour la version M4, 8 pour la M2.

Pour le GPU, c’est encore pire. Le « 4x » est donné pour Octane X 2024.1 (a4) 4-09-2024, version « testée à l’aide d’une scène comprenant 780 000 maillages (meshes) et 27 millions de primitives uniques, en utilisant le ray tracing à accélération matérielle sur les systèmes équipés de la M4 et le ray tracing basé sur le logiciel sur toutes les autres unités ».

Le GPU de la puce M2 ne prend pour rappel pas en charge le ray tracing, qui est une nouveauté du M3. Forcément, la puce M4 fait bien mieux puisqu’elle dispose d’une accélération matérielle. De manière générale, Apple se garde bien de comparer son M4 au M3. Pourtant, lors de l’annonce de la famille M3, les performances des cœurs P et E étaient comparées à celle des générations précédentes.

Si la communication d’Apple s’axe beaucoup sur la comparaison M2 et M4, c’est que le nouvel iPad Pro saute une génération de puce. Le SoC M3 est en effet pour le moment réservé à certains MacBook et iMac.

38 TOPS… qui ne veulent pas dire grand-chose en l’état

Passons à une autre « astuce » d’Apple, sur le Neural Engine cette fois-ci. La société met en avant des performances de 38 TOPS, bien au-delà des 18 TOPS de la puce M3 (qui a aussi 16 cœurs NPU). Mais comme Apple ne donne aucune information sur la précision (entier, virgule flottante, nombre de bits…), impossible de savoir ce qu’il en est.

En tout état de cause, impossible d’affirmer pour le moment que les performances sont plus que doublées (de 18 à 38 TOPS). En effet, si le M3 est mesuré en INT16 à 18 TOPS et que le M4 est en INT8 à 38 TOPS, alors cela donnerait 18 et 19 TOPS (INT16) ou 36 et 38 TOPS (INT8) en base comparable pour les M3 et M4 respectivement, soit un gain de 5 % seulement.

Une « astuce » déjà utilisée par NVIDIA lors de l’annonce de Blackwell. Le constructeur a mis deux GPU sur une seule puce et affiche des performances en FP4, deux fois supérieures à celle en FP8. NVIDIA pouvait ainsi passer de 4 000 à 20 000 TFLOPS, alors que le gain sur le GPU en base comparable n’est « que » de 25 % entre Hopper et Blackwell.

Bande passante, décodage AV1, finesse de gravure…

Seule certitude, la bande passante de la mémoire grimpe de 20 % (certainement via une hausse de la fréquence) et passe ainsi de 100 à 120 Go/s. La finesse de gravure est toujours en 3 nm (comme pour les M3), mais passe à la seconde génération. Un nouveau contrôleur vidéo Tandem OLED est de la partie.

Apple n’a pas précisé la quantité de mémoire unifiée maximum sur la puce M4, mais on peut supposer qu’elle devrait être identique à celle de la M3, avec jusqu’à 24 Go. Autre « nouveauté » de la puce M4 mise en avant par Apple : le décodage vidéo AV1 sur iPad. Les Mac équipés de M3 pouvaient déjà le faire.

Le fabricant n’a pas encore annoncé les versions Pro et Max de sa puce M4. Il faudra également attendre de voir si un SoC M4 Ultra verra le jour. Les précédentes versions Ultra étaient pour rappel deux puces M1 ou M2 Max assemblées pour doubler les performances.

Tableau récapitulatif des puces M1 à M4

Voici pour finir notre tableau comparatif des caractéristiques des différentes variantes de puces Mx d’Apple (sauf les versions Ultra).

Avec 01.ai, Kai-Fu Lee tente de créer un « moment ChatGPT » en Chine

哈囉世界

Fondée il y a un peu plus d’un an par Kai-Fu Lee, la start-up chinoise 01.ai dévoile Yi-Large, son nouveau grand modèle de langage, et Whanzi, sa première application d’IA générative à destination du grand public.

En Chine, la start-up 01.AI lance un nouvel outil de productivité nommé Wanzhi. Similaire au Copilot de Microsoft, il s’agit du dernier d’une série de produits d’intelligence artificielle (IA) créé par l’entreprise, et du premier à destination du grand public.

Construit avant tout pour le marché chinois, Wanzhi fonctionne néanmoins en chinois et en anglais, et permet à ses utilisateurs de créer des tableurs et des présentations plus rapidement. Il permet aussi d’interpréter des rapports financiers et de résumer des textes longs, jusqu’à la taille de livres conséquents.

01.AI dévoile par ailleurs un nouveau modèle de langage, Yi-large, accessible aux professionnels par API.

La quête d’un « moment ChatGPT » en Chine


Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

☕️ « Dans les algorithmes », nouvelle newsletter sur l’impact social de la tech

Une nouvelle newsletter parlant du numérique en français vient d’être lancée sous le nom de « Dans les algorithmes ».

Aux manettes, le journaliste et essayiste Hubert Guillaud. Celui-ci a notamment animé pendant des années le site Internet Actu du think tank La Fing, association pour la Fondation internet nouvelle génération, qui traitait déjà des conséquences sociales du numérique sur la société.

L’ambition de « Dans les algorithmes », newsletter portée cette fois par une association nommée Vecteur créée pour l’occasion, est de « poser les enjeux de la société numérique, comprendre l’impact social des technologies et de l’automatisation sur nos vies ». Dans son manifeste, le média explique s’inspirer des initiatives existantes à l’étranger comme AlgorithmWatch, l’AI Now Institute ou Data & Society.

Les membres fondateurs de l’association Vecteur sont l’association Matrice, le cabinet de conseil Octo Technology et l’agence d’innovation RH Tomorrow Theory.

☕️ Un militant identifié par son adresse e-mail de récupération Proton

Proton Mail

Des documents judiciaires obtenus par TechCrunch indiquent que la police espagnole a réussi à identifier un activiste sous pseudonyme grâce à des informations transmises par les messageries chiffrées Wire et Proton.

Enquêtant sur les personnes impliquées dans le mouvement indépendantiste en Catalogne, la Guardia Civil a en effet demandé, par l’intermédiaire de la police suisse, « toutes les informations d’identification » liées à certains comptes Wire et Proton.

Ses demandes, qui mentionnaient le « crime organisé » et le « terrorisme » comme motifs de l’enquête, visaient à « découvrir qui sont les auteurs des faits qui se sont déroulés lors des émeutes de rue en Catalogne en 2019 ».

En réponse, Wire lui a transmis l’adresse email Proton utilisée par l’un des utilisateurs de sa messagerie, et Proton son adresse email de récupération, liée à un compte iCloud. Les documents obtenus par TechCrunch montrent qu’Apple, sollicitée à son tour, lui a alors « fourni un nom complet, deux adresses personnelles et un compte Gmail lié », précise TechCrunch.

« Proton n’exige pas d’adresse de récupération, mais dans ce cas, le terroriste présumé en a ajouté une de son propre chef », a déclaré le porte-parole de Proton dans le courriel. « Nous ne pouvons pas chiffrer ces données car nous devons être en mesure d’envoyer un courriel à cette adresse si le suspect terroriste souhaite lancer le processus de récupération », a ajouté la société.

« Ces informations peuvent en théorie être demandées par les autorités suisses dans les cas de terrorisme, et cette décision est généralement prise par l’Office fédéral de la justice suisse. Proton fournit la confidentialité par défaut et non l’anonymat par défaut, parce que l’anonymat nécessite certaines actions de l’utilisateur pour assurer une [sécurité opérationnelle] appropriée, comme ne pas ajouter votre compte Apple comme méthode de récupération optionnelle, ce qui semble avoir été fait par le suspect terroriste présumé. »

Proton précise en effet, dans sa section Support, que « Proton n’a pas accès à votre mot de passe, nous ne pouvons donc pas le réinitialiser si vous l’oubliez ou le perdez » :

« Si vous ne définissez aucun moyen de récupérer votre compte Proton et que vous oubliez votre mot de passe, vous perdrez l’accès à votre compte et à tous vos courriels, contacts et autres fichiers chiffrés. »

☕️ Domotique : Matter 1.3 permet la gestion de l’énergie, de l’eau et des bornes de recharge

Matter 1.3

Matter (anciennement CHIP) est un protocole domotique, dont la version finale a été mise en ligne fin 2022. Il est développé par la Connectivity Standards Alliance (CSA), anciennement Zigbee Alliance.

La nouvelle version 1.3 du protocole propose une gestion de l’énergie. « Cela permet à tout type d’appareil d’inclure la possibilité de rapporter des mesures réelles et estimées, y compris la puissance instantanée, la tension, le courant et d’autres données en temps réel, ainsi que sa consommation ou sa production d’énergie au fil du temps ».

Les bornes de recharge sont aussi de la partie. Elles peuvent utiliser le protocole pour proposer un démarrage/arrêt de la charge, modifier la puissance, préciser l’autonomie souhaitée avant de partir, gérer la charge en fonction des tarifs de l’électricité, etc.

Enfin, pour l’eau, Matter prend en charge « les détecteurs de fuite et de gel, les capteurs de pluie et les vannes d’eau contrôlables ».

De nombreux nouveaux types d’appareils sont intégrés dans Matter 1.3 pour simplifier la vie des fabricants qui voudraient sauter le pas : fours, fours à micro-onde, table de cuisson, hottes et sèche-linge. Les frigos, climatisations, lave-vaisselle, lave-linge, aspirateurs, ventilateurs, détecteurs de fumée et de qualité de l’air avaient été ajoutés dans la version 1.2 en octobre dernier. Il faut bien évidemment que le fabricant intègre le protocole Matter pour que l’appareil soit compatible.

Niveau fonctionnalités, on trouve aussi les scènes. De plus, « un contrôleur Matter peut désormais regrouper plusieurs commandes en un seul message lors de la communication avec des périphériques Matter afin de minimiser le délai entre l’exécution de ces commandes ».

Les notes de version détaillées se trouvent par ici.

☕️ Vague de faux signalements sur Waze ce week-end

La semaine dernière était un peu particulière : les 8 et 9 mai étaient fériés et beaucoup ont fait le pont vendredi. Résultat des courses, un week-end prolongé pour certains dès mardi soir. Combiné avec un temps des plus agréables, cela donne de nombreux déplacements, et donc des centaines de kilomètres de bouchons au départ mercredi et au retour dimanche.

Nombreux étaient les conducteurs avec Waze pour essayer de trouver le trajet le plus rapide, en limitant autant que possible les bouchons. Mais l’application a fait face à une importante vague de faux signalements en tout genre : contrôles de police, voitures arrêtées, alertes météo, mais également routes enneigées et verglacées. Sur l’A6 et l’A10 par exemple, ils se comptaient par dizaines.

Waze permet pour rappel à tout un chacun de « contribuer à l’amélioration de la carte » en signalant la présence de la police, un accident, un danger, du mauvais temps, une route bloquée, etc. L’application demande alors aux autres usagers si le « danger » est toujours présent ou non.

« Les signalements s’affichent sur la carte pendant un certain temps. Cette durée varie en fonction du nombre de Wazers qui réagissent à un signalement. Si un signalement n’est plus exact, appuyez sur Plus là. Cela permet de réduire la durée d’affichage du signalement », explique Google. Hier, c’était un peu le jeu du chat et de la souris avec des faux signalements qui apparaissaient et disparaissaient.

L’application a des protections contre les signalements abusifs et excessifs : « Si vous avez effectué un nombre excessif de signalements dans votre compte, vous ne pourrez plus en effectuer pendant un certain temps. Si votre compte a été signalé plusieurs fois pour ce même motif, ce délai augmentera » : 24h pour le premier avertissement, 7 jours pour le second et 30 jours pour le troisième.

Nous avons demandé à Waze si le service avait plus de précision sur ce qu’il s’est passé ce week-end. Et vous, avez-vous remarqué une recrudescence des faux signalements sur Waze durant ce week-end prolongé ?

La pression américaine monte encore d’un cran contre le Chinois Huawei

USA vs Chine : S05E04
Un drapeau américain flotte dans un ciel gris.

Énième épisode dans la série États-Unis vs Chine. Le gouvernement américain aurait davantage fermé les vannes sur les exportations de puces vers Huawei. Les deux pays se livrent une guerre froide sur fonds de sécurité nationale depuis maintenant plusieurs années.

2019 – 2024 : la guerre froide continue

Pour rappel, Huawei a été placé sur liste noire par les États-Unis suite à la signature d’un décret par Donald Trump en mai 2019. Il était alors question d’interdire aux groupes américains de faire des affaires avec le chinois Huawei. Des risques sur la sécurité nationale étaient mis en avant. « Les entreprises américaines peuvent vendre leur équipement à Huawei […] Nous parlons là d’équipement qui ne pose pas de grand problème de sécurité nationale », précisait alors le président des États-Unis.

Fin 2022, la guerre froide continuait de plus belle avec l’interdiction d’exporter les produits « hautes performances » pour l’IA, la défense, les supercalculateurs, les équipements pour fabriquer des semi-conducteurs, etc. Les USA souhaitaient ainsi garder leur avance technologique. De son côté, la Chine a un plan pour se débarrasser des technologies américaines. Elle a même banni AMD, Intel et Microsoft de ses administrations.

Un jeu du chat et de la souris s’est mis en place, notamment du côté des GPU NVIDIA. Malgré l’embargo, la Chine continuait à s’en procurer en ce début d’année, tandis que des GPU spéciaux pour la Chine était proposée par NVIDIA, afin de pouvoir continuer à en vendre.

Nouveau tour de vis de l‘administration Biden

C’est dans un marché déjà bien verrouillé que le gouvernement de Biden a révoqué les licences d’exportation permettant à Intel et Qualcomm de continuer à fournir certains semi-conducteurs à Huawei, révèle le Financial Times. Cette décision du ministère américain du Commerce entraverait la fourniture de puces pour les ordinateurs portables et les téléphones mobiles de Huawei, précisent des personnes au fait de la situation.

Le discours est un peu toujours le même : « Nous évaluons en permanence la manière dont nos contrôles peuvent protéger au mieux notre sécurité nationale et nos intérêts en matière de politique étrangère, en tenant compte de l’évolution constante des menaces et du paysage technologique », a déclaré un porte-parole du ministère. « Dans le cadre de ce processus, comme nous l’avons fait par le passé, nous révoquons parfois des licences d’exportation ».

Cette décision intervient alors que les États-Unis s’alarment de la capacité de Huawei à développer ses propres puces en dépit des contrôles à l’exportation mis en place depuis 2022, souligne le FT. Lorsque la secrétaire d’État au commerce, Gina Raimondo, s’est rendue en Chine l’année dernière, Huawei avait en effet présenté son smartphone Mate 60 Pro, dont les performances avaient surpris les experts.

Marco Rubio, vice-président républicain de la commission sénatoriale du renseignement, et Elise Stefanik, quatrième républicaine de la Chambre des représentants, avaient demandé le mois dernier à Mme Raimondo de révoquer les licences de Huawei après l’apparition d’informations selon lesquelles le groupe basé à Shenzhen avait construit des ordinateurs portables utilisant des puces d’Intel. C’est le cas du dernier Matebook avec un Core-i9 13900H.

Un discours bien rodé depuis des années

Le mois dernier, le FT avait également rapporté que les États-Unis poussaient leurs alliés en Europe et en Asie à renforcer les restrictions sur les exportations de technologies liées aux puces vers la Chine, en raison des inquiétudes croissantes concernant Huawei. Là encore, c’est une rengaine qui revient régulièrement sur le devant de la scène depuis des années.

« Les États-Unis ont trop étendu le concept de sécurité intérieure, politisé les questions économiques et commerciales, abusé des mesures de contrôle à l’export et adopté à plusieurs reprises des sanctions et des mesures de répression déraisonnables contre des entreprises chinoises spécifiques », a réagi un porte-parole du ministère chinois du Commerce dans un communiqué, relève de son côté l’AFP.

Le porte-parole a aussi averti que « la Chine prendrait toutes les mesures nécessaires pour sauvegarder fermement les droits et les intérêts légitimes des entreprises chinoises ». En plus de bannir certaines entreprises américaines de ses administrations, la Chine restreint les exportations en matériaux rares indispensables à la création des puces.

L’AFP relève que les sanctions américaines ont forcé le géant chinois des télécoms à se recentrer sur des secteurs comme les logiciels, les appareils connectés, l’informatique d’entreprise, mais aussi les voitures électriques, avec sa marque Aito.

Réactions d’Intel et Qualcomm

Intel et Qualcomm ont réagi à leur manière à cette nouvelle vague de restriction. Dans un document transmis à la SEC, Intel explique que « le 7 mai 2024, le département du Commerce des États-Unis a informé Intel Corporation qu’il révoquait certaines licences d’exportation d’articles de consommation à un client en Chine, avec effet immédiat. Par conséquent, la société s’attend à ce que le chiffre d’affaires du deuxième trimestre 2024 reste dans la fourchette initiale de 12,5 à 13,5 milliards de dollars, mais en dessous du point médian ».

Il y a quelques jours, Qualcomm avait pris les devants (.pdf) : « nous disposons actuellement de licences d’exportation du ministère américain du Commerce qui nous permettent de vendre à Huawei des produits, notamment pour la 4G et le Wi-Fi, mais pas pour la 5G. Des reportages récents ont indiqué que le ministère du Commerce envisageait de ne pas accorder de nouvelles licences de vente à Huawei ». La prévision semble donc s’être réalisée.

« De plus, Huawei a récemment lancé de nouveaux appareils compatibles 5G utilisant des puces maison. Même si nous avons continué à vendre des produits à Huawei sous nos licences, nous ne prévoyons pas de revenus provenant de chez Huawei au-delà de l’année civile en cours ».

La suite au prochain épisode…

OpenAI a détruit les jeux de données de livres sur lesquels elle a entrainé ses premiers modèles

Catch me if you can
Deux requins étiquetés par portions avec les marques des entreprises d'IA génératives nagent dans l'océan

Dans le procès qui oppose l’organisation américaine Authors Guild à OpenAI, des documents descellés révèlent que l’entreprise de Sam Altman a affirmé à la FTC avoir détruit toutes ses copies des jeux de données contenant des milliers de livres sur lesquels elle a entrainé ses grands modèles de langage. Pour l’Authors Guild, OpenAI a détruit une preuve directe du contenu copyrighté qu’elle a utilisé pour entrainer ses modèles.

OpenAI ne voulait pas que ces documents soient publiés. Mais finalement, la justice américaine n’a pas suivi l’avis de l’entreprise. Ils proviennent d’un des multiples procès intentés contre OpenAI pour violation de copyright lors de l’entrainement de ses modèles de langage. Ces documents révèlent que l’entreprise a détruit des jeux de données visés par la plainte, comme l’a découvert Business Insider.

Plainte de nombreux auteurs américains

L'organisation américaine Authors Guild, qui rassemble environ 9 000 membres, a porté plainte en septembre 2023 contre l'entreprise aux côtés d'auteurs célèbres comme George R.R. Martin, Michael Connelly, David Baldacci, Mary Bly, Sylvia Day ou encore Roxana Robinson (pdf). Dans ce document, les plaignants ciblent en particulier l'utilisation de trois jeux de données utilisés par l'entreprise : « OpenAI admet que parmi les jeux de données "d'entraînement" qu'elle a utilisés pour "entraîner" le modèle [GPT-3] figuraient "Common Crawl" et deux "corpus de livres basés sur l'internet" de "haute qualité" qu'elle appelle "Books1" et "Books2" », citant un article scientifique des chercheurs de l'entreprise. Mais, si le contenu de Common Crawl est connu (car disponible en accès libre), ceux de Books1 et Books2 ne le sont pas. En effet, ils ont été créés en interne à OpenAI pour entrainer ses modèles de façon unique et notamment GPT-3, le grand modèle de langage sur lequel l'entreprise s'est appuyée, à l'époque, pour sortir ChatGPT.

Des pièces à conviction détruites ?

Après plusieurs mois infructueux de recherche d'information sur Books1 et Books2, car OpenAI se retranchait derrière leur « confidentialité », l'Authors Guild a pu obtenir de l'entreprise de Sam Altman « qu'elle avait détruit toutes ses copies de books1 et books2, et que les deux chercheurs d'OpenAI responsables de la création de ces ensembles de données ne sont plus employés » par la société (PDF). Cette destruction aurait eu lieu mi 2022. Pour l'association de défense des droits des auteurs américains, « étant donné qu'OpenAI a détruit les preuves directes du contenu des books 1 et 2, ces anciens employés sont d'une importance cruciale dans cette affaire ». Elle a donc demandé à l'entreprise leur identité et l'accuse de ne pas donner suffisamment d'information pour les identifier. Les avocats de l'Authors Guild en profitent pour demander l'accès aux réponses d'OpenAI à la Federal Trade Commission (FTC) lors de différentes enquêtes de l'agence indépendante américaine. Celles-ci pourraient, en effet, contenir les informations que l'organisation cherche.

Destruction « avant litige »

Mais OpenAI se défend (PDF) en expliquant qu'elle a apporté à l'Authors Guild des informations sur ces deux chercheurs et qu'elle est prête à répondre à ses questions si elles n'étaient pas suffisamment claires. Elle ajoute que « les jeux de données Books1 et Books2 ont été supprimés pour cause de non-utilisation avant qu'un litige n'ait été intenté contre OpenAI, et qu'OpenAI a activement enquêté pour déterminer si elle pouvait trouver d'autres copies des jeux de données ou d'autres documents à partir desquels les jeux de données peuvent être reconstruits ». OpenAI s'oppose donc à ce que l'Authors Guild puisse accéder à ses réponses données à la FTC dans des enquêtes se concentrant sur les données personnelles et les aspects liés au consommateur, informations « sans rapport avec la présente affaire ». Dans une déclaration citée par Business Insider, OpenAI affirme que « les modèles qui alimentent ChatGPT et notre API aujourd'hui n'ont pas été développés à l'aide de ces jeux de données » et ajoute que « ces jeux de données, créés par d'anciens employés qui ne font plus partie d'OpenAI, ont été utilisés pour la dernière fois en 2021 et supprimés pour cause de non-utilisation en 2022 ». Il n'en reste pas moins que, dans sa réponse récente à la plainte du New York Times, OpenAI affirmait qu' « étant donné que le copyright couvre aujourd’hui pratiquement toutes les formes d’expression humaine – y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux – il serait impossible d’entraîner les meilleurs modèles d’IA actuels sans utiliser des documents protégés par le copyright ».

L’histoire du BASIC, lancé il y a plus de 60 ans

Simple, basique

Le BASIC est un langage de programmation que les moins jeunes connaissent certainement, voire qu’ils ont étudié à l’école pour certains (j’en fais partie, cela ne me rajeunit pas…). Ce projet universitaire, qui réunit à la fois un langage de programmation et la notion de temps partagé, vient de fêter ses 60 ans. On remonte donc soixante ans en arrière…

Il y a quelques jours, le BASIC fêtait ses 60 ans : « à 4 heures du matin, le 1er mai 1964, dans le sous-sol du College Hall, le professeur John G. Kemeny et un étudiant programmeur [Thomas E. Kurtz, ndlr] tapaient simultanément RUN sur les terminaux voisins », explique le Dartmouth College, une université privée du nord-est des États-Unis, où s’est déroulé cette première.

Pour vous resituer un peu, c’est aussi dans les années 60 que Douglas Engelbart a inventé la souris. Internet n’existait pas, et ARPANET n’est arrivé que cinq ans plus tard, en octobre 1969, avec le premier paquet de données qui transitait entre une université et une entreprise.

« Premier système de partage de temps à usage général »


Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

Plus de 170 000 Français victimes d’un réseau de faux sites marchands chinois

C‘est vraiment vous le produit
Arnaque aux comptes Vinted

« Un gigantesque réseau de faux sites de vente de vêtements, administré de Chine, a escroqué plus de 170 000 personnes rien qu’en France ces quatre dernières années. Des documents internes révèlent son fonctionnement », indique une enquête du Monde, en partenariat avec Die Zeit et The Guardian.

75 000 faux sites marchands, 800 000 commandes

L’entreprise de sécurité informatique allemande SR Labs a partagé avec eux une fuite de plusieurs gigaoctets de documents émanant d’une organisation criminelle chinoise. Baptisée « BogusBazaar » par SR Labs, elle aurait mis en ligne plus de 75 000 faux sites marchands en quatre ans (dont 22 500 seraient encore actifs), enregistrant plus de 850 000 commandes dans plus de 200 pays, pour un préjudice s’élevant à plusieurs dizaines de millions d’euros.

En 2023, la société italienne de cybersécurité Yarix, filiale du groupe Var, avait déjà identifié un réseau d’environ 13 000 faux sites marchands, principalement de vêtements et de chaussures, mais aussi de jouets ou de meubles, tous liés à un même opérateur, qu’elle avait baptisé « FashionMirror ».

Un système « largement automatisé »…

Les modes d’emploi obtenus par SRLabs, et rédigés par les escrocs, invitent leurs employés à repérer les sites web ayant bénéficié d’un bon référencement et dont les noms de domaine n’ont pas été renouvelés, afin de les racheter. Un système « largement automatisé » qui leur permet ensuite de créer « en quelques minutes » un site marchand recopiant le contenu de sites authentiques.

Avec, parfois, de grossières erreurs de traduction, comme « chaud vente » pour « hot sales », ou « expédition politique » à la place de « politique d’expédition ».

Cette pratique est de plus en plus répandue et ne concerne pas que les sites de vente en ligne. Lors d’une conférence à l’Afnic, un intervenant expliquait que les noms de domaines de nouveau disponibles sur le marché vont être « rachetés par des tiers qui vont mettre en place des faux sites administratifs ».

… avec un modèle « similaire à celui des franchises »

Pour en revenir à notre affaire, ces « petites mains » seraient employées par des entreprises chinoises, « dûment déclarées » et se présentant comme des sociétés de développement Web, et payés « environ 500 euros par mois à l’embauche, soit le double du salaire minimal local, pour un poste au bas de l’échelle ».

« C’est un modèle similaire à celui des franchises, explique Matthias Marx, chercheur en sécurité informatique pour SR Labs, qui a analysé en profondeur les documents. Il y a une équipe centrale, chargée de développer les logiciels et les interfaces, et qui fournit un soutien technique au fonctionnement du réseau. Les franchisés, eux, gèrent au jour le jour le fonctionnement des faux magasins. »

« Notre hypothèse est que cette [organisation] est liée au crime organisé, explique Diego Marson, responsable sécurité du groupe Var. Le nombre de sites, les montants en jeu… Tout cela nécessite l’utilisation de “mules” pour transférer l’argent. On constate par ailleurs que ce groupe réinvestit les sommes dérobées pour développer sa plate-forme. »

Une grande partie des faux sites est par ailleurs hébergée par des entreprises états-uniennes, dont EGIhosting et Eonix corporation, et protégés contre les attaques par Cloudflare qui, sollicité par Le Monde, les a rendus inaccessibles.

☕️ Fuite de données clients chez Dell

Comme nous l’ont signalé plusieurs lecteurs de Next, Dell a envoyé un email à certains de ses clients pour leur annoncer qu’un « incident » avait eu lieu sur l’un des portails de l’entreprise. Celui-ci serait lié aux achats auprès de Dell.

Selon Dell, des informations clients ont été divulguées et « notamment » les :

  • Nom
  • Adresse physique
  • Les informations de commande et de matériel Dell, y compris l’étiquette de service, la description de l’article, la date de commande et les informations de garantie associées.

L’entreprise s’empresse de préciser que « les informations concernées ne comprennent pas les informations financières ou de paiement, l’adresse e-mail, le numéro de téléphone ou toute information extrêmement sensible sur les clients ».

Dell a confirmé l’information auprès de nos collègues de The Register. Mais le fabricant de matériel informatique ne donne pas d’information sur le nombre de clients touchés par cet « incident ».

Si l’entreprise renvoie dans son email vers un article de conseils généraux sur les scams téléphoniques, elle n’a pas publié de billet spécifique sur la fuite en question. Cela pose un problème pour le client potentiellement touché qui ne peut vérifier l’information sur une source officielle de Dell.

Cette annonce coïncide avec la publication fin avril par le Daily Dark Web d’un article rapportant la vente d’une base de données de 49 millions de clients de Dell comportant « les noms complets, les adresses, les villes, les régions, les codes postaux, les pays, les étiquettes de service uniques à 7 chiffres des systèmes, les dates d’expédition des systèmes (début de la garantie), les plans de garantie, les numéros de série (pour les moniteurs), les numéros de client Dell et les numéros de commande Dell ».

☕️ Google lance son Pixel 8a, à 549 euros

Alors qu’Apple occupait une bonne partie de l’espace médiatique avec ses nouveaux iPad et sa puce M4 (nous y reviendrons), Google a lancé son nouveau smartphone « d’entrée de gamme » : le Pixel 8a. Comptez 549 euros tout de même.

Google indique que « son nouvel écran [6,1 pouces, OLED, 1080 x 2400, ndlr] Actua est 40 % plus lumineux que celui du Pixel 7a » et profite d’un taux de rafraichissement de 120 Hz. Le smartphone dispose d’un capteur photo de 64 Mpx et d’un objectif ultra grand-angle de 13 Mpx.

Comme les Pixel 8 et 8 Pro, le Pixel 8a est équipé d’une puce Tensor G3 de Google. 8 Go de LPDDR5x et 128 ou 256 Go de stockage sont de la partie. On retrouve du Wi-Fi 6E, du Bluetooth 5.3, de la 5G, du NFC… Toutes les caractéristiques techniques sont disponibles par ici.

Le fabricant met en avant les « outils fondés sur l’IA pour tirer le meilleur parti de vos photos et vidéos ». Il y a notamment la « retouche magique », la « gomme magique audio », la fonction « entourer pour chercher ». Il y a aussi les « audiomoj » pour vos conversations audio.

Le Pixel 8a sera disponible à partir du 14 mai, pour 549 euros. Google annonce « sept ans de support logiciel, y compris les mises à jour de sécurité et les mises à jour Android ».

☕️ Granite : IBM lance son pavé dans la mare des modèles de langage pour la génération de code

IBM vient de publier une famille de huit nouveaux grands modèles de langage nommée Granite. Celle-ci a la particularité de se concentrer sur les tâches liées au code : générer du code, corriger des bugs, expliquer et documenter le code.

Les huit modèles (de 3 à 34 milliards de paramètres) sont distribués sous licence Apache 2.0. Dans leur article expliquant la création de ces grands modèles de langage, les chercheurs d’IBM indiquent qu’ils ont été entraînés sur les jeux de données de code Github Code Clean et StarCoderdata mais aussi « des dépôts de code publics sur GitHub et des problèmes signalés [ndt : issues en anglais] supplémentaires » dont le jeu de données n’est pas clairement connu.

Dans les tests de comparaison qu’ils ont effectués, les chercheurs montrent que le modèle Granite-8B devance ses concurrents « ouverts » :

À la fin de l’article sont listés les langages sur lesquels la famille Granite peut être utilisée :

ABAP, Ada, Agda, Alloy, ANTLR, AppleScript, Arduino, ASP, Assembly, Augeas, Awk, Batchfile, Bison, Bluespec, C, C-sharp, C++, Clojure, CMake, COBOL, CoffeeScript, Common-Lisp, CSS, Cucumber, Cuda, Cython, Dart, Dockerfile, Eagle, Elixir, Elm, Emacs-Lisp, Erlang, F-sharp, FORTRAN, GLSL, GO, Gradle, GraphQL, Groovy, Haskell, Haxe, HCL, HTML, Idris, Isabelle, Java, Java-Server-Pages, JavaScript, JSON, JSON5, JSONiq, JSONLD, JSX, Julia, Jupyter, Kotlin, Lean, Literate-Agda, Literate-CoffeeScript, Literate-Haskell, Lua, Makefile, Maple, Markdown, Mathematica, Matlab, Objective-C++, OCaml, OpenCL, Pascal, Perl, PHP, PowerShell, Prolog, Protocol-Buffer, Python, Python-traceback, R, Racket, RDoc, Restructuredtext, RHTML, RMarkdown, Ruby, Rust, SAS, Scala, Scheme, Shell, Smalltalk, Solidity, SPARQL, SQL, Stan, Standard-ML, Stata, Swift, SystemVerilog, Tcl, Tcsh, Tex, Thrift, Twig, TypeScript, Verilog, VHDL, Visual-Basic, Vue, Web-Ontology-Language, WebAssembly, XML, XSLT, Yacc, YAML, Zig.

Stack Overflow signe avec OpenAI

La pile d'IA déborde
Code informatique

L’entreprise qui gère le site web de questions/réponses sur les sujets d’informatique vient de signer un accord commercial avec OpenAI, après avoir signé avec Google fin février. Entre fournir des données d’entraînement et être envahi de contenus créés par IA générative, la ligne de crête est particulièrement fine pour Stack Overflow.

Lundi 6 mai, Stack Overflow a annoncé avoir signé un contrat avec OpenAI pour l’utilisation des contenus postés par les utilisateurs de son site web pour entraîner les grands modèles de langage de l’entreprise d’IA génératives. Fin février, l’entreprise avait signé un contrat semblable avec Google pour l’entraînement des modèles Gemini pour Google Cloud.

Concrètement, les deux entreprises d’IA auront accès à la nouvelle API de Stack Overflow, nommée de manière peu originale « OverflowAPI ». On n’en saura pas beaucoup plus concernant les deux contrats dont les montants n’ont pas été rendus publics.

Ces contrats d’accès à l’API du site ne sont pas exclusifs, mais l’accès à l’API de Stack Overflow est payant et contrôlé. Stack Overflow met d’ailleurs un bouton « Devenir un partenaire » en évidence sur la page de son API qui mène à un formulaire de demande d’accès qui ne permet pas d’accéder directement au service. Il faut attendre que l’entreprise reprenne contact pour en savoir plus.

Position paradoxale


Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

☕️ La RATP expérimente sa vidéosurveillance algorithmique pour les concerts de Taylor Swift

Une caméra sur un plafond

Comme l’a repéré David Libeau, la préfecture de Paris a publié (pdf) lundi 6 mai un arrêté autorisant la RATP à expérimenter dans les stations Nanterre Préfecture et La Défense Grande Arche son dispositif de vidéosurveillance algorithmique pendant une semaine, du mardi 7 mai 2024 à 08h00 au mardi 14 mai 2024 à 08h00. L’arrêté est donc publié seulement 24h avant le début des opérations.

La RATP veut utiliser les concerts de Taylor Swift qui auront lieu à la salle du Paris La Défense Arena (les 9, 10, 11 et 12 mai) comme moment de test grandeur nature pour son outil de traitement algorithmique dénommé « Cityvision » et développé par la société Wintics.

Sur sa page de politique générale de confidentialité, l’entreprise de transport indiquait que la période d’expérimentation serait du 09 mai au 12 mai (les jours des concerts de l’artiste mais aussi « intégrant une phase de conception (sans usage opérationnel) du 29/04/2024 au 11/05/2024 ».

La préfecture lui a donc autorisé une plage d’expérimentation plus importante que prévu.

☕️ FurMark débarque en version 2.3, avec la prise en charge des Raspberry Pi

En février, JeGX publiait la version 2.0 de son application pour analyser les performances et la stabilité de votre GPU (avec un stress intense). La version 2.3 a été mise en ligne hier.

Les notes de version parlent de petits changements comme l’ajout de la vitesse du ventilateur dans la section GPU monitoring. Il y a bien évidemment aussi les traditionnelles corrections de bugs.

Mais on retrouve surtout la prise en charge d’un nouveau système : Raspberry Pi OS (64-bit, arm64/aarch64). Cette version a été compilée sur Debian 11 avec GLIBC 2.31.

JeGX en profite pour donner deux résultats : « Sur le Raspberry Pi 4, FurMark 2 fonctionne à 1 FPS (résolution : 1024×640). Le nouveau matériel du Raspberry Pi 5 est beaucoup plus rapide : on atteint 4 FPS (toujours à 1024×640) ».

« J’ai essayé de supprimer les dépendances de Raspberry Pi et j’espère que cette version fonctionnera sur d’autres plates-formes arm64/aarch64 », ajoute-t-il.

☕️ Boeing Starliner n’a finalement toujours pas décollé…

Boeing Starliner

On pourrait presque croire à un gag. Cinq ans après le premier vol non habité, Boeing devait envoyer cette nuit ses premiers astronautes dans l’espace, direction la Station spatiale internationale. La tentative a été annulée « en raison d’un problème de soupape sur l’étage supérieur du lanceur », explique le constructeur.

La décision a été prise par le fabricant de la fusée : « United Launch Alliance (ULA), avec l’accord de Boeing et de la NASA, a annulé le lancement un peu plus de deux heures avant l’heure de décollage initialement prévue pour l’essai en vol de l’équipage CST-100 Starliner ». Les astronautes de la NASA Butch Wilmore et Suni Williams sont sortis de la capsule et sont retournés dans leurs quartiers.

Les analyses sont en cours pour « bien comprendre le problème et déterminer les mesures correctives ». TechCrunch rappelle que des dates de secours sont prévues les 7, 10 et 11 mai, mais encore faut-il que le souci soit identifié et corrigé.

Pour la NASA, la date de lancement ne sera pas avant le 10 mai : ” Ce délai permet aux équipes de compléter l’analyse des données sur une vanne de régulation de pression du réservoir d’oxygène liquide de l’étage supérieur Centaur de la fusée Atlas V, et déterminer s’il est nécessaire de la remplacer “

❌