Vue lecture

☕️ Le patron de Shopify oblige ses équipes à prouver qu’une tâche ne peut être faite par IA

Dans un memo rendu public sur X, le directeur général de Shopify Tobi Lutke a déclaré modifier l’approche de son entreprise en termes de ressources humaines.

Il intime à ses équipes de prouver que des tâches ne peuvent être réalisées à l’aide de l’intelligence artificielle avant de demander une augmentation de ressources ou d’équipes.

Et de préciser que l’usage de l’IA est une « attente fondamentale » envers les équipes de Shopify, dans la mesure où elle aurait « multiplié » la productivité de ceux qui l’utilisent.

Comme le relève CNBC, la directive est formulée alors que les entreprises du numérique investissent des milliards de dollars dans le développement de l’intelligence artificielle, en même temps qu’elles licencient régulièrement. 


En 2024, selon le décompte de Layoffs.fyi, 152 000 postes ont été supprimés dans 549 entreprises de la tech.

Chez Shopify, les équipes totalisaient 8 100 personnes au mois de décembre, contre 8 300 plus tôt en 2024. L’entreprise avait supprimé 14 % de ses équipes en 2022 et 20 % en 2023.

Des associations demandent un débat sur la création des datacenters en France

Stockera, stockera pas
Des associations demandent un débat sur la création des datacenters en France

Dans le cadre du projet de loi de simplification de la vie économique, un groupe d’associations appellent les députés à supprimer l’article 15, qui faciliterait la construction de centres de données, pour laisser le temps d’organiser un débat citoyen sur la multiplication de ces entrepôts.

De ce 8 avril jusqu’à vendredi 11 avril, les députés examinent le projet de loi « de simplification de la vie économique ». De mesure de simplification du quotidien des très petites entreprises à la simplification des démarches pour accéder aux marchés publics, le texte prévoit une variété de mesures, dont la facilitation de l’obtention de licences IV dans les petites villes.

Mais son article 15, qui vise à faciliter la construction de centres de données, inquiète la Quadrature du Net, le collectif marseillais le Nuage était sous nos pieds et la coalition Hiatus, qui réunit une vingtaine d’associations françaises aux mandats variés. Ils appellent les députés à soutenir un moratoire de deux ans « sur la construction des plus gros data centers » en France, le temps d’organiser un débat public.

Début février, en amont du Sommet sur l’intelligence artificielle organisé à Paris, le Premier ministre avait en effet annoncé l’identification de 35 sites industriels déclarés propices à l’installation de centres de données, à la fois en termes de surface foncière, de disponibilité et d’accès à l’énergie. Matignon précisait que les surface allaient de « 18 à 150 hectares et plus », pour une surface totale de l’ordre de 1 200 hectares.

« Projet d’intérêt national majeur »

Or, l’article 15 du projet de loi de simplification de la vie économique permettrait précisément d’accorder le statut de « projet d’intérêt national majeur » (PINM) à des centres de données de ce genre. L’intérêt pour leurs porteurs : accélérer l’implantation des bâtiments et les procédures – de gestion des documents d’urbanisme, de raccordement au réseau électrique, de reconnaissance de raisons impératives d’intérêt public majeurs.

Créé dans la loi sur l’industrie verte de 2023, le statut de « projet d’intérêt national majeur » (PINM) introduit dans le code de l’urbanisme a en effet été pensé pour faciliter l’implantation de projets industriels dans le pays. En juillet 2024, il a été accordé par décret à plusieurs projets, souvent liés à l’industrie numérique : une usine de fabrication de cellules et modules photovoltaïques de la société Holosolis, une de production de panneaux photovoltaïques de la société Carbon, une usine Eastman de recyclage moléculaire des plastiques, une usine Gravithy de production de minerai de fer réduit et d’hydrogène et un site d’extraction et de transformation de lithium d’Imerys, dans l’Allier.

Moratoire de deux ans pour une convention citoyenne

L’un des problèmes que pointent les associations : le statut PINM permettrait notamment de déroger à l’obligation de protection des espèces protégées, alors que la multiplication de data centers pose de multiples enjeux environnementaux de bétonisation des sols et de concurrence dans l’usage des terres et de l’eau.

À l’heure actuelle, la France compte environ 315 data centers, dont la grande majorité est concentrée en Île-de-France (la région concentre 60 % de la puissance de la capacité nationale, selon Knight Frank), suivie par Marseille et la région PACA, où aboutissent 18 câbles sous-marins.

Détaillant l’empreinte environnementale de ces infrastructures, la Quadrature du Net et ses partenaires, rappellent que les hyperscalers, ces data centers extrêmement grands poussés par les acteurs états-uniens du numérique, recourent massivement à l’eau pour refroidir leurs serveurs. Google a ainsi révélé avoir consommé 28 milliards de litres d’eau en 2023, dont les deux tiers d’eau potable, suscitant de telles tensions que le Chili a freiné l’un de ses projets.

Les associations notent que l’expansion de ces projets en France, y compris lorsqu’elle est réalisée par étapes, comme dans la ville de Wissous, créent déjà des oppositions au niveau local. Enfin, elles interrogent les effets de ces édifices en termes de création d’emploi, un enjeu sur lequel le sociologue Clément Marquet revenait à notre micro.

En écho aux experts de l’ADEME, qui soulignent la nécessité de planifier et réguler le déploiement des centres de données, les associations incitent les députés à rejeter l’article 15 du projet de loi en cours de discussion. Elles demandent aussi un moratoire sur la construction des plus gros data centers, le temps de permettre à « une convention citoyenne de penser les conditions d’une maîtrise démocratique des data centers ».

Alertes sur les sites GenAI : pourquoi notre extension affiche-t-elle des faux positifs ?

Ça Bloom ?
Alertes sur les sites GenAI : pourquoi notre extension affiche-t-elle des faux positifs ?

Next utilise un filtre de Bloom pour afficher des alertes sur les médias utilisant de l’IA générative pour tout ou partie de ses articles. Comment fonctionne notre algorithme de détection et pourquoi y a-t-il des faux positifs ? On vous explique.

Notre extension Chrome et Firefox pour alerter les visiteurs des sites d’information utilisant l’IA générative pour tout ou partie de leurs articles utilise une liste de plus de 3 000 noms de domaines identifiés « à la main et de visu » (sans recours à des outils de vérification algorithmique et automatisé) par notre journaliste Jean-Marc Manach. Le code source est disponible sur GitHub.

Cachez cette liste que je ne saurais voir…

Nous ne souhaitons pas diffuser publiquement la liste des domaines (et des entreprises), pour plusieurs raisons que nous avons déjà expliquées dès la première partie de notre enquête :

« Nous ne voulons pas, d’une part, que cette base de données puisse aider ceux qui voudraient améliorer leurs générateurs d’articles automatisés, et qui se targuent de ne pas être reconnus comme GenAI (nous y reviendrons). Nous ne voulons pas non plus faire de « name and shame » et mettre sur le même plan des auto-entrepreneurs SEO ayant créé quelques sites de façon opportuniste et les entreprises (y compris individuelles) en ayant créé plusieurs dizaines ».

Nous avons donc utilisé une méthode d’obfuscation pour masquer la liste. Un développeur de moji – Hasnaine – nous a grandement épaulés pour cette tâche. Il a développé le code de cette partie de l’extension, ainsi qu’un script pour transformer notre liste de manière irréversible. La méthode utilise un filtre de Bloom, mais qu’est-ce que c’est et qu’est-ce que cela implique ?

Comme l’explique Bioinfo-fr, « le filtre de Bloom ne vous permet pas vraiment de “stocker” des données à proprement parler ; le filtre est là pour vous permettre de tester l’appartenance d’un élément à un ensemble de données ». Parfait, c’est exactement ce que l’on cherche.

Contre les faux positifs, la liste blanche

Un filtre de Bloom est une structure probabiliste. Dans la pratique, c’est un tableau de n bits qui est initialement à 0 sur toutes ses entrées. « Nous allons utiliser plusieurs fonctions de hachage indépendantes qui retourneront une suite de bits correspondant à des adresses mémoires : au lieu d’effectivement stocker les données, on ne stockera ainsi que quelques bits d’information », explique Bioinfo-fr.

L’exemple parle du stockage de séquences ADN (logique pour un site dédié à la biologie), mais cela fonctionne à peu près pour n’importe quoi. L’algorithme a deux résultats possibles lors d’un test : l’élément est probablement dans la liste, ou il n’est pas présent (cette fois-ci avec certitude), comme le résume Wikipédia :

« Plus précisément, un test d’appartenance renvoie soit « peut-être dans l’ensemble » ou « assurément pas dans l’ensemble ». Dit autrement, il n’y a jamais de faux négatif mais il peut y avoir des faux positifs. »

Il a donc l’avantage de ne pas produire de faux négatif (un site qui serait dans la liste, mais non identifié comme tel). Toutefois, il a l’inconvénient de générer des faux positifs. Et plus la liste d’éléments de base est grande, plus le risque de faux positifs augmente. Raison pour laquelle certains sites sont parfois identifiés à tort par notre extension.

Un faux positif arrive donc lorsque l‘algorithme identifie à tort un site comme étant « peut-être » dans notre liste, quand bien même il n’y figure pourtant pas. Pour contrer cette problématique inhérente au fonctionnement du filtre de Bloom, nous avons mis en place depuis quasiment le début une liste blanche d’URL à ne pas identifier.

Nous tâchons d’ajouter au plus vite les éléments dans notre liste pour corriger les faux positifs quand ils nous sont signalés. Depuis peu, l’application télécharge sa liste blanche sur les serveurs de Next, ce qui évite d’avoir à la pousser manuellement à chaque nouvelle mise à jour (encore à déployer sur Chrome, ça arrive).

Notre algorithme, côté technique

Pour en revenir à notre filtre de Bloom, nous vous donnons les principaux paramètres de notre formule pour calculer la taille de notre tableau (en bits), à partir du nombre d’éléments et du taux de faux positif spécifié. Attention, plus le taux est faible, plus la taille du tableau est importante, il faut donc choisir avec précaution ce paramètre.

const expectedElements = strings.length;
const falsePositiveRate = 0.00000001; 
const size = Math.ceil(-(expectedElements * Math.log(falsePositiveRate)) / (Math.log(2) ** 2));
const numHashes = Math.max(1, Math.ceil((size / expectedElements) * Math.log(2)));

Une fois la taille de notre tableau obtenu, nous calculons le nombre de hachages pour notre filtre de Bloom.

L’influence de la précision

Voici quelques résultats en fonction de la précision (falsePositiveRate) demandée sur les faux positifs (il s’agit ici de quelques exemples, d’autres combinaisons sont possibles) :

1 % (0.01):

  • Taille : 32 772 bits
  • Nombre de fonctions de hash : 7

0,01 % (0.0001) :

  • Taille : 65 543 bits
  • Nombre de fonctions de hash : 14

0,0001 % (0.000001) :

  • Taille : 98 314 bits
  • Nombre de fonctions de hash : 20

0.000001 % (0.00000001) :

  • Taille : 131 086 bits
  • Nombre de fonctions de hash : 27

Afin de limiter le nombre de faux positifs, nous avons augmenté la précision dans la dernière mise à jour de notre extension.

Meta accusée d’avoir triché sur les performances de ses modèles Llama 4

Sous son meilleur jour
Meta accusée d’avoir triché sur les performances de ses modèles Llama 4

L’entreprise a été épinglée hier pour des résultats de Llama 4 peu en phase avec ce qu’elle proclamait avoir obtenu dans plusieurs benchmarks. Une déception générale semble se manifester sur l’utilisation des modèles en conditions réelle, tandis que des soupçons de triche apparaissent. Meta nie avoir voulu tromper la communauté.

Meta a lancé samedi sa nouvelle famille de modèles de fondation Llama 4. Trois variantes ont été présentées, selon les cas d’usage envisagés : Scout, Maverick et surtout Behemot. Ce dernier, avec ses 2 000 milliards de paramètres, 288 milliards de paramètres actifs et 16 experts, est un colosse dont les résultats seraient pratiquement au niveau de Gemini 2.5 Pro, alors que ce dernier « raisonne » et pas Llama 4.

Pourtant, si plusieurs personnes ont commencé à s’interroger dès le dimanche, une polémique est apparue progressivement hier. Au centre de l’attention, le modèle intermédiaire Maverick, dont le score sur LLArena (1 417) ne semble pas se refléter dans les tests réalisés par un nombre croissant de chercheurs et autres experts.

Meta épinglée par LLArena

Dans son communiqué, Meta indiquait discrètement avoir utilisé une version expérimentale du modèle pour réaliser ses tests. La version mise à disposition samedi n’est cependant pas celle utilisée sur LLArena. Au point que l’équipe du site s’est fendu d’un message sur X hier après-midi pour pester contre Meta :

« L’interprétation de notre politique par Meta ne correspond pas à ce que nous attendons des fournisseurs de modèles. Meta aurait dû préciser que « Llama-4-Maverick-03-26-Experimental » était un modèle personnalisé visant à optimiser les préférences humaines. En conséquence, nous mettons à jour nos politiques de classement pour renforcer notre engagement en faveur d’évaluations équitables et reproductibles, afin d’éviter que ce genre de confusion ne se reproduise à l’avenir ».

Hier, une rumeur a également pris de l’ampleur : Meta aurait triché. Relevant qu’une publication un samedi était étrange (nous l’avions effectivement signalé), plusieurs personnes affirment que Meta aurait spécifiquement entrainé ses modèles pour les benchmarks, signale The Verge. Le cas serait semblable à celui des constructeurs de smartphones accusés d’optimisations pour les benchmarks pour mieux mettre en avant les performances de leurs produits. Performances que l’on ne retrouvait pas en utilisation réelle.

Meta nie tout en bloc

Au point qu’Ahmad Al-Dahle, ingénieur en chef sur l’intelligence artificielle chez Meta, a fini par prendre la parole hier soir pour démentir. « Comme nous avons lancé les modèles dès qu’ils ont été prêts, nous nous attendons à ce qu’il faille plusieurs jours pour que toutes les implémentations publiques se mettent en place. Nous continuerons à travailler à la correction des bogues et à l’intégration des partenaires », a-t-il déclaré pour expliquer la variabilité des résultats. Explication qui a valu au responsable quelques moqueries.

Concernant les accusations de tricherie, il réfute en bloc : « Nous avons également entendu dire que nous nous étions entraînés sur des ensembles de tests – ce n’est tout simplement pas vrai et nous ne ferions jamais cela. Nous pensons que les modèles Llama 4 représentent une avancée significative et nous sommes impatients de travailler avec la communauté pour libérer leur potentiel ».

Les commentaires en réponse font souvent état de performances médiocres, tout particulièrement dans Meta AI, censé utiliser Llama 4 dans WhatsApp, Threads et Facebook. Quelques jours avant la publication des nouveaux modèles, The Information indiquait que leur genèse avait été particulièrement complexe. Le lancement aurait été repoussé à plusieurs reprises à cause de performances inférieures aux attentes de l’entreprise.

Free lance sa Freebox Pop S « 100 % Internet » : 5 Gb/s et Wi-Fi 7 pour 24,99 € par mois

Elle a popé un mardi, quelle surprise :D
Free lance sa Freebox Pop S « 100 % Internet » : 5 Gb/s et Wi-Fi 7 pour 24,99 € par mois

Une nouvelle Freebox est dès à présent disponible : la Freebox Pop S, en réponse à la Pure Fibre de Bouygues Telecom. Pour 24,99 euros par mois, vous avez un accès à Internet jusqu’à 5 Gb/s partagés, du Wi-Fi et… aucun service de télévision.

Les amateurs de la marque l’auront certainement compris à la lecture du titre de cette actualité : la Freebox Pop S est à la Freebox Pop ce que la Delta S était à la Delta : « une offre 100 % Internet sans TV ». La Freebox Pop S ne propose donc qu’un accès à Internet (en fibre optique FTTH ou en xDSL), sans service supplémentaire. Il s’agit évidemment de venir jouer sur les platebandes de la box Pure Fibre de Bouygues Telecom.

Jusqu’à 5 Gb/s partagés et 900 Mb/s en upload

La Freebox Pop S reprend le boîtier de la Freebox Pop et propose donc « des débits Fibre jusqu’à 5 Gb/s partagés en téléchargement et jusqu’à 900 Mb/s en envoi ». Le mot important est « partagés », puisque la Freebox Pop ne dispose pas de port à 5 ou 10 Gb/s (ni de cage SFP+).

Pour atteindre les 5 Gb/s, il faut combiner plusieurs solutions : 2,5 Gb/s sur un port Ethernet, 1 Gb/s sur deux autres ports Ethernet et enfin 0,5 Gb/s en Wi-Fi, soit 5 Gb/s au total. Sur une seule machine, vous ne pouvez pas dépasser les 2,5 Gb/s par contre.

Avec sa Pure Fibre, Bouygues Telecom propose pour rappel un port 10 GbE (Ethernet, via un connecteur RJ45). Nous avions déjà détaillé les différents ports multi-GIG des principales box des FAI dans un précédent dossier.

Wi-Fi 7 jusqu’à 2,2 Gb/s

Comme la Freebox Pop depuis mars 2024, la version S dispose du Wi-Fi 7 avec « jusqu’à 2,2 Gb/s, soit des débits jusqu’à 2 fois plus rapides que le Wi-Fi 6). Sur demande, un répéteur Wi-Fi 7 est proposé par le fournisseur d’accès. Bouygues Telecom a pour rappel attaqué Free devant le tribunal de commerce de Paris sur son Wi-Fi 7, qui n’est pas certifié par la Wi-Fi Alliance.

Pas de boitier TV, ni d’appels vers les mobiles en France

La Freebox Pop ne dispose pas de Player (le boitier multimédia) et ne permet pas d’accéder à des chaines de télévision. Oqee et Free Foot ne sont pas non plus inclus.

Une autre différence existe entre les deux Freebox Pop : les appels ne sont illimités que vers les fixes en France et les DOM, pas vers les mobiles en France et DOM (c‘est le cas sur Freebox Pop).

24,99 euros par mois, sans engagement, avec Free Family

« La nouvelle offre Freebox Pop S est une exclusivité web au prix de 24,99 euros par mois seulement. Comme toutes les offres Freebox, elle est sans engagement », ajoute enfin l’opérateur. L’option Free Family est disponible, permettant d’avoir jusqu’à quatre lignes mobiles à 9,99 euros par mois pendant 1 an, puis à 15,99 euros par mois (sans engagement), au lieu de 19,99 euros par mois.

La Freebox Pop S est donc à 15 euros de moins que la Freebox Pop classique. Cette dernière bénéficie d’une remise de 10 euros par mois la première année, ramenant la différence à 5 euros pendant 12 mois. Nous mettrons à jour notre tableau comparatif dans la journée. Dans les deux cas, les frais de résiliation sont de 59 euros et ceux de mise en service de 49 euros.

« Les abonnés existants éligibles seront informés par email ou directement dans leur Espace Abonné de la possibilité de changer pour la Freebox Pop S », indique le fournisseur d’accès, sans plus de détails.

Par rapport à la Pure Fibre, la Freebox Pop S est donc un euro plus cher par mois, avec un débit inférieur. Elle propose toutefois des appels vers les fixes et du Wi-Fi 7, en plus de l’écosystème Free (l’application Freebox Files par exemple).

Freebox Pop, Révolution et Delta passent à 900 Mb/s en upload

Enfin, « Free booste la connectivité Fibre de ses Freebox : les débits maximum théoriques montants de la Freebox Pop, de la Freebox Révolution et de la Freebox Delta passent à 900 Mbit/s. Ces évolutions se font automatiquement et sans surcoût pour tous les abonnés existants et les nouveaux abonnés ».

C’est la confirmation d’une hausse que certains avaient déjà remarqué depuis mi-mars.

☕️ Hausse de 20 % des demandes d’autorisation pour des traitements de données de santé

La CNIL explique qu’en 2024 il y a eu 619 demandes d’autorisation pour des traitements de données de santé, ce qui représente une hausse de 20 % par rapport à 2023.

L’autorité chargée de la protection des données en France ajoute que les deux tiers (397) de ces demandes ont reçu une autorisation. Les trois quarts des demandes concernaient des projets de recherche.

À côté d'une patiente âgée, un médecin observe une radio dentaire.

174 dossiers sont des demandes classées sans suite (en baisse de 7 %), la plupart du temps car ce sont des « demandes relatives à des traitements non soumis à formalité préalable, des dossiers incomplets (par exemple ceux relatifs à des projets de recherche pour lesquels l’avis du comité compétent n’a pas été transmis) ou qui sont conformes à un référentiel de la CNIL et ne nécessitent donc pas d’autorisation spécifique ».

La CNIL explique cette légère baisse par une « amélioration de la qualité des dossiers reçus », notamment grâce à « l’accompagnement accru » qu’elle a mis en place.

Et sur ces 619, seulement 3 ont fait l’objet d’un refus de la part de l’autorité. Ceux-ci sont émis « principalement sur les mesures techniques et organisationnelles visant à assurer la sécurité des données comme la pseudonymisation des données et le respect du principe de minimisation ».

☕️ Aux États-Unis, Meta met officiellement fin à sa vérification des faits

La décision aura fait couler beaucoup d’encre et avait notamment provoqué chez Bloomberg une grande enquête sur les données des notes de communauté. Mais cette fois ça y est : dans quelques heures, le programme de vérification professionnelle des faits de Meta sera officiellement terminé.

Comme nous le rappelions le mois dernier, Mark Zuckerberg avait fait une annonce fracassante sur le sujet. Selon le CEO, cette vérification prenait trop de temps et était trop « politisée », rejoignant en filigrane la grande chasse au « wokisme » tant propulsée par Donald Trump et Elon Musk.

Les logos de Facebook et Meta dans des carrés en 3D sur un fond grisé dégradé
Photo de Dima Solomin sur Unsplash

À la place, Meta applique désormais les mêmes notes de la communauté. Toutes les personnes utilisant Facebook pourront ainsi faire une proposition de note, pour expliquer en quoi le contenu est problématique. Comme sur X, il est recommandé d’ajouter un ou plusieurs liens pour étayer son propos. La validation de la note est ensuite soumise à approbation d’autres membres de la communauté.

Les premières notes devraient apparaitre « progressivement sur Facebook, Threads et Instagram », a indiqué vendredi Joel Kaplan, responsable des affaires mondiales chez Meta. Rappelons une différence majeure entre l’ancien processus de vérification et les notes de la communauté : les publications épinglées par des notes resteront en ligne, ces dernières n’étant là que pour fournir du contexte.

Dans son enquête, basée sur plus d’un million de notes récupérées sur X, Bloomberg reconnaissait plusieurs vertus au système, dont une plus grande réactivité. Cependant, il n’est en rien une solution vraiment efficace de modération à une telle échelle. Surtout, le média critiquait aussi bien que X que Meta en pointant que la rémunération des publications revenait à encourager la viralité, donc à accentuer les problèmes de modération.

Précisons enfin que les changements évoqués ici ne sont pour l’instant valables qu’aux États-Unis. En Europe notamment, rien n’a encore été annoncé.

☕️ OpenAI : o3 et o4-mini arrivent finalement, GPT-5 repoussé de quelques mois

Alors que l’actualité sur l’intelligence artificielle générative se déchaine avec les nouvelles versions de DeepSeek V3, Gemini 2.5 Pro ou encore le très récent Llama 4, OpenAI annonce du retard du GPT-5.

« Nous allons être en mesure de rendre le GPT-5 bien meilleur que ce que nous pensions au départ. Nous avons également constaté qu’il était plus difficile que nous le pensions de tout intégrer en douceur », a ainsi indiqué Sam Altman, CEO d’OpenAI, dans une publication sur X le 4 avril.

En conséquence, GPT-5 n’arrivera que dans quelques mois, donc avec du retard. Altman ajoute que l’entreprise veut s’assurer qu’elle disposera « d’une capacité suffisante pour répondre à ce [qu’elle prévoit] être une demande sans précédent ».

La société avait expliqué plus tôt dans l’année que son modèle serait disponible pour tous, mais que le degré de précision se ferait en fonction de la formule utilisée. Sans abonnement payant, le niveau d’intelligence sera ainsi « standard ». La formule ChatGPT Plus aura droit à « un niveau d’intelligence plus élevé », tandis que ChatGPT Pro donnera accès au niveau le plus élevé. On ignore concrètement à quoi correspondent ces paliers.

« L’un de nos principaux objectifs est d’unifier nos modèles en créant des systèmes capables d’utiliser tous nos outils, de savoir s’il faut réfléchir longtemps ou non, et d’être utiles pour un large éventail de tâches », précise également Sam Altman. GPT-5 sera un modèle unifié : il sera multimodal et intègrera la voix, Canvas, la recherche approfondie et d’autres outils.

Si GPT-5 sera en retard, il en va autrement des modèles « o ». Contrairement à ce qui avait été indiqué en février, o3 va finalement sortir « dans quelques semaines », accompagné d’un o4-mini. On apprend également qu’un modèle o3-pro est en préparation, sans plus de détails. Aucune précision technique n’a été donnée sur ces futurs modèles de raisonnement.

Meta dégaine ses Llama 4 multimodaux, dont un Behemot de 2 000 milliards de paramètres

It really kicks
Meta dégaine ses Llama 4 multimodaux, dont un Behemot de 2 000 milliards de paramètres

Dans la longue quête des modèles d’IA générative toujours plus puissants, c’est au tour de Meta de dégainer avec la quatrième version de son Llama. Il est décliné en trois versions, selon le cas d’usage, et tous sont multimodaux. Alors que Meta se lance pour la première fois dans les « mélanges d’experts », l’Europe continue d’être privée des nouveautés.

Meta veut frapper fort avec son modèle Llama 4. Dans son annonce, publiée samedi (c’est la première fois que l’entreprise lance un modèle majeur durant le week-end), Meta explique qu’il a été entrainé sur « de grandes quantités de textes, d’images et de données vidéo non étiquetés » et qu’il dispose d’une « large compréhension visuelle ».

Llama 4 est décliné en trois versions : Scout, Maverick et Behemot. Précisons d’emblée que si les deux premiers sont disponibles, ils ont été distillés depuis Behemot qui, lui, est toujours en cours d’entrainement.

Des paramètres et des experts

Llama 4 Scout est le plus petit modèle, avec 16 experts. Ces derniers représentent des sous-sections spécifiques du modèle, conçues pour traiter des tâches particulières. Ils sont la conséquence de l’approche MoE (Mixture of Experts), utilisée pour la première fois chez Meta. Chaque expert représente un réseau neuronal pouvant être entrainé séparément, permettant un entrainement global du modèle nettement plus rapide, comme l’expliquait déjà Hugging Face fin 2023.

En fonction de la tâche, c’est le modèle qui « décide » ensuite à quel expert envoyer les jetons. Conséquence, si Llama 4 Scout a 109 milliards de paramètres, 17 milliards « seulement » sont actifs en même temps.

Même cas de figure pour Maverick, le modèle principal. Cette fois, le nombre de paramètres est de 400 milliards, mais le modèle dispose de 128 experts, toujours avec la même technique. Comme pour Scout, le nombre de paramètres actifs est de 17 milliards.

Selon Meta, ces deux modèles sont tout simplement les meilleurs modèles multimodaux de leur catégorie respective. Scout fournit ainsi une fenêtre contextuelle de 10 millions de jetons, peut fonctionner sur un seul GPU H100 de NVIDIA et fournit de meilleurs résultats que Gemma 3, Gemini 2.0 Flash-Lite et Mistral 3.1 « dans une large gamme de tests de référence », selon Meta.

Maverick, qui doit devenir le principal modèle poussé par Meta, est présenté comme surpassant GPT-4o et Gemini 2.0 Flash. Sur LMArena, le modèle se classe deuxième avec un score de 1417. Point intéressant, Meta évoque directement DeepSeek, car les résultats obtenus par Maverick sont décrits comme « comparables » au dernier modèle chinois. Selon Meta, Maverick peut fonctionner sur un seul système H100 DGX de NVIDIA.

L’énorme Behemot toujours en formation

Dans la nouvelle trilogie de Meta, Scout et Maverick sont les étudiants. L’enseignant se nomme Behemot, à partir duquel ils ont été distillés. Le modèle porte a priori bien son nom : on ne joue plus du tout dans la même cour.

Ce mastodonte, dont l’entrainement est toujours en cours, affiche la bagatelle de 2 000 milliards de paramètres. Bien sûr, tous ne fonctionnent pas en même temps, mais le modèle, doté de 16 experts, dispose quand même de 288 milliards de paramètres actifs. De fait, il est présenté comme le modèle « de pointe » pour tout ce qui touche aux mathématiques, au multilinguisme et aux images. Pour économiser les coûts, la distillation du modèle a été réalisée pendant la phase de pré-entrainement, précise Meta.

Évidemment, les performances d’un tel modèle sont annoncées comme supérieures à tout ce qui existe. Ou presque. Dans le tableau donné par Meta, on peut voir que les notes obtenues par son Behemot sont largement supérieures globalement que les modèles concurrents. Mais si Meta a fait combattre son modèle face à Claude Sonnet 3.7 et GPT-4.5 – qui sont effectivement les dernières versions des modèles – l’entreprise a choisi de se limiter à Gemini 2.0 Pro, alors que la 2.5 est disponible.

How to train a behemot

L’entrainement d’un tel modèle aurait « constitué un défi de taille ». Pendant celui de Maverick, Meta dit s’être aperçue de plusieurs problèmes, au point de changer toute sa chaine de traitements post-entrainement. Le réglage fin supervisé (SFT) et l’optimisation des préférences directes (DPO) ont ainsi été allégés. 50 % des données jugées « faciles » ont été supprimées, en se servant d’autres modèles Llama comme juges. L’étape intermédiaire d’apprentissage par renforcement (RL) est restée entière, bien qu’avec des prompts « plus difficiles ».

Concernant Behemot, Meta a appliqué une version extrême de cette recette, puisque 95 % des données « faciles » ont été élaguées pour la phase SFT. « Nous avons également constaté que l’exécution d’un SFT léger suivi d’un apprentissage par renforcement (RL) à grande échelle produisait des améliorations encore plus significatives dans les capacités de raisonnement et de codage du modèle », affirme Meta.

Même l’étape d’apprentissage par renforcement a nécessité des travaux. L’entreprise dit avoir dû passer par une refonte de son infrastructure : nouvelle conception de la parallélisation MoE pour des itérations plus rapides et un nouveau cadre asynchrone pour l’apprentissage par renforcement. Pour ce dernier, Meta dit avoir développé un système d’allocation flexible des modèles à des GPU distincts. Cette amélioration aurait « multiplié par 10 l’efficacité de l’entrainement », comparé à l’ancienne méthode qui consistait à « empiler tous les modèles en mémoire ».

Meta précise enfin que tous les entrainements de Llama 4 ont été réalisés en précision FP8. Dans le cas de Behemot, l’entreprise s’est servie de 32 000 GPU, avec un niveau de performances de 390 TFLOPS par GPU. La réserve de données, même après le fameux élagage, représentait 30 000 milliards de jetons, plus du double de ce qui avait été utilisé pour Llama 3.

Des réponses « utiles »

Les trois nouveaux modèles annoncés sont « classiques » : ils n’opèrent aucun raisonnement. Les comparaisons sont donc d’autant plus intéressantes, surtout dans le cas de Behemot sur des domaines comme les mathématiques et le développement logiciel. Reste à savoir bien sûr le type de coût qu’un modèle aussi volumineux peut engendrer. Surtout quand la concurrence, notamment DeepSeek-V3-0324, commence à mettre un accent plus prononcé sur l’efficacité.

Meta, en tout cas, indique avoir tout mis en œuvre pour que ses modèles fournissent des réponses utiles et « factuelles ». Toutes les variantes de Llama 4 auraient été réglées pour refuser moins souvent de répondre à des questions plus « litigieuses ». Une précision intéressante, et qui rejoint Anthropic dans sa communication : c’était l’un des changements mis en avant au lancement de Claude Sonnet 3.7 fin février. Deux semaines plus tôt, OpenAI annonçait des changements en ce sens dans la manière d’entrainer ses modèles. On pourrait y voir une influence de xAI et de son Grok, qui se veut effronté dans ses réponses.

« Vous pouvez compter sur [Llama 4] pour fournir des réponses utiles et factuelles sans porter de jugement. Nous continuons à rendre Llama plus réactif afin qu’il réponde à plus de questions, qu’il puisse répondre à une variété de points de vue différents […] et qu’il ne favorise pas certains points de vue par rapport à d’autres », a ainsi déclaré Meta à TechCrunch.

Quid de la disponibilité ?

Techniquement, les nouveaux modèles Llama 4 Scout et Maverick sont disponibles depuis le site dédié et Hugging Face. Plus précisément, ce sont les modèles Llama-4-Scout-17B-16E, Llama-4-Scout-17B-16E-Instruct, et Llama 4-Maverick-17B-128E-Instruct-FP8. Ces modèles alimentent même déjà Meta AI pour WhatsApp, Messenger et Instagram pour tout ce qui touche aux conversations (du moins, sur les conversations non chiffrées de bout en bout). Les nouveaux modèles sont également disponibles dans Azure AI Foundry de Microsoft.

Mais en Europe, la situation est plus complexe. La licence associée aux modèles Llama 4 n’exclut pas les utilisateurs finaux. Ces derniers devraient donc avoir les mêmes capacités sur Meta AI que dans les autres pays où l’assistant est présent. En revanche, les personnes physiques et morales (donc les entreprises) européennes n’ont pas le droit d’accéder aux modèles.

« En ce qui concerne les modèles multimodaux inclus dans Llama 4, les droits accordés en vertu de la section 1(a) de l’accord de licence communautaire Llama 4 ne vous sont pas accordés si vous êtes une personne physique domiciliée dans l’Union européenne ou une société dont le siège social se trouve dans l’Union européenne. Cette restriction ne s’applique pas aux utilisateurs finaux d’un produit ou d’un service qui intègre de tels modèles multimodaux », indique Meta.

On retrouve une fois de plus les tensions entre Meta et l’Europe, l’entreprise ayant largement critiqué cette dernière pour ses « incertitudes réglementaires ». Elle a fustigé plus d’une fois le DMA (notamment à cause de ses abonnements supprimant la publicité), mais s’en est également prise à l’AI Act, main dans la main avec Spotify. Mais en attendant que la situation se détende, malgré un contexte géopolitique toujours plus complexe, ni les entreprises ni les chercheurs européens ne peuvent officiellement mettre la main dessus.

Ajoutons enfin que, dans le reste du monde, les applications et services tirant parti de Llama 4 devront afficher une mention « Built with Llama ».

Batterie externe : attention à « l’arnaque » des mAh

Non, je ne ferai pas un T@LC de ton dessin @Flock !
Batterie externe : attention à « l’arnaque » des mAh

Votre smartphone a une batterie de 4 000 mAh et vous pensez qu’avec une batterie externe de 20 000 mAh, vous allez pouvoir le charger cinq fois ? Oubliez tout de suite, ce ne sera jamais le cas. Le problème ne vient pas que des pertes, mais de l’imprécision des mAh dans ce genre de situation (et ce n’est pas toujours mieux avec les Wh), on vous explique.

Dans un précédent article, nous avons posé les bases du fonctionnement du courant électrique, en expliquant notamment ce qu’étaient les mAh et les Wh. Aujourd’hui, nous allons nous attarder un peu plus sur les mAh (milliampère heure), une unité de charge électrique.

Petit rappel sémantique : l’Ah (ampère heure) n’est pas dans le Système international, mais cette unité est tout de même largement utilisée, d’autant qu’elle est en lien direct avec une autre unité du SI cette fois : le Coulomb, en hommage au physicien Charles-Augustin Coulomb. Larousse précise que 1 C est « équivalant à la quantité d’électricité transportée en une seconde par un courant d’un ampère ». Avec 3 600 secondes dans une heure, 3600 coulombs valent donc 1 Ah. Simple et il n’y a pas de piège.

Quand les Ah se marient avec les V, cela donne des Wh

Revenons aux Ah, qui permet donc de mesurer une quantité de charges électriques, ni plus ni moins. Il ne faut pas confondre les Ah avec le Wh (watt-heure) qui est une unité d’énergie, on parle de quantité d’énergie stockée. Il existe néanmoins une relation très simple entre Ah et Wh : Ah x V = Wh.

En clair, pour passer d’une quantité de charges électriques (Ah) à une quantité d’énergie (Wh), on multiplie le premier élément par la tension (V pour Volt). Corollaire, connaitre les Ah d’une batterie ne permet pas de déduire sa « capacité » en Wh si on ne connait pas sa tension.

Une batterie de 10 000 mAh sous 3,7 volts donnera 37 Wh. Une batterie de 10 000 mAh sous 5 volts donnera 50 Wh. Avez-vous remarqué que nous avons répété deux fois la phrase, sans mettre un « ou » pour passer de 3,7 à 5 volts ? Il y a une raison : on ne crée pas de la « capacité » simplement en augmentant la tension (cela se saurait, croyez-moi…).

On simplifie par l’exemple, avec une batterie de 20 000 mAh

Prenons un exemple concret d’une batterie externe de 20 000 mAh que nous utilisons lors de déplacements. Cela veut-il forcément dire que l’on a 100 Wh avec une tension de 5 volts (20 000 mAh x 5 volts) ? Bien évidemment… que non. Il faut regarder le détail (s’il est donné).

Dans notre cas, c’est 20 000 mAh sous 3,6 volts, soit 72 Wh. Le fabricant donne une autre valeur : 5 000 mAh sous 14,4 volts, soit toujours 72 Wh, jusqu’ici tout va bien. Les 14,4 volts ne sont pas choisi au hasard : c’est exactement 4x 3,6 volts, ce qui permet de garder un rendement maximal et donc d’arriver de nouveau à 72 Wh.

20 000 mAh pour 52 à 72 Wh selon les cas

Sur la boite de la batterie, d’autres valeurs sont données : 12 817 mAh sous 5 volts et 2 606 mAh sous 20 volts, soit respectivement 64 et 52 Wh. La perte est donc quasiment de 30 % dans ce dernier cas. Voici un résumé des chiffres annoncés par le fabricant :

  • 20 000 mAh avec 3,6 volts soit 72 Wh
  • 12 681 mAh avec 5 volts, soit 64 Wh
  • 5 000 mAh avec 14,4 volts, soit 72 Wh
  • 2 606 mAh avec 20 volts, soit 52 Wh

Problème, ces informations ne sont pas du tout présentes sur la fiche du revendeur chez qui nous l’avons achetée. Il est simplement précisé 20 000 mAh et 74 Wh… Oui 74 Wh, alors que le produit que nous avons reçu n’en affiche que 72 Wh. La raison : sur la fiche du revendeur, la tension prise en compte pour calculer les Wh est de 3,7 volts.

Il faudrait plus de transparence de la part des fabricants

Si vous souhaitez savoir combien de fois vous pouvez charger un smartphone et/ou un ordinateur, il faut donc regarder la tension de charge pour connaitre les Wh et comparer à ceux de vos terminaux mobiles. Si vous utilisez la batterie pour charger un ancien smartphone qui ne prend que du 5 volts, alors vous avez 64 Wh. Pour un ordinateur en 20 volts, on descend à 52 Wh. Si par contre votre machine est en 14,4 volts, alors vous avez droit au maximum : 72 Wh.

Communiquer uniquement sur les mAh est trompeur… comme le serait finalement la seule communication des Wh. Dans les deux cas, il faudrait toujours préciser la tension associée. Il faudrait que les fiches produits soient bien plus détaillées, avec au minimum les Wh en fonction de plusieurs tensions différentes, surtout pour des batteries Power Delivery, avec une plage de fonctionnement généralement comprise entre 5 et 20 volts (jusqu’à 48 volts dans la version 3.1).

Bref, on a commandé une batterie de 20 000 mAh et 74 Wh, pour se retrouver avec une 20 000 mAh et 72 Wh, mais « seulement » 52 Wh pour recharger notre ordinateur portable en 20 volts. Si ce dernier point est assez logique, nous n’avions pas moyen de connaitre cette valeur avant de passer commande, dommage.

Et encore, on parle ici de capacité théorique, dans la pratique, il y a toujours des pertes supplémentaires à prendre en compte. C’est parfaitement logique, mais à considérer lorsqu’il s’agit de choisir une batterie externe, surtout si vous avez besoin d’une quantité minimum de mAh/Wh.

100 Wh max en avion, ça fait combien de mAh ? Ça dépend…

Dans les avions, la limite pour embarquer une batterie est fixée en Wh, pour toutes les raisons que nous venons de détailler. Air France rappelle que les « batteries de rechange et batteries externes de moins de 100 Wh » peuvent être embarqué en cabine (mais pas en soute), sans accord préalable, alors que ce dernier sera nécessaire pour une batterie entre 100 et 160 Wh.

On parle aussi parfois de batterie de 27 000 mAh maximum pour une simple raison : les batteries lithium ont une tension de 3,6 ou 3,7 suivant les technologies, soit un maximum de… 99,9 Wh en 3,7 volts, juste en dessous des 100 Wh.

Mais là encore, ce n’est pas une règle et seuls les Wh comptent. Par exemple, Anker propose une batterie de 27 650 mAh et affirme qu’elle « répond aux exigences de la TSA (< 100 Wh) pour être emportée dans les avions comme bagage à main ». Le fabricant annonce, en effet, une capacité de 99,54 Wh, signifiant que la tension de base de la batterie est de 3,6 volts.

☕️ #LIDD : « Le Big Bang à portée de téléscope »

« Campagnes d’observation « grand format », méthodes d’analyse des données novatrices, développements théoriques tous azimuts » : le Journal du Centre national pour la recherche scientifique revient sur la nouvelle « ère de précision » de l’astrophysique et de la cosmologie. Elles permettraient de « percer tous les mystères du cosmos. Y compris celui de ses origines », c’est-à-dire le Big Bang.

Il y a tout d’abord le nouveau catalogue Cosmicflow (.pdf), avec la position et la vitesse de 56 000 galaxies, qui a permis de « cartographier les bassins d’attraction gravitationnelle de notre univers proche ». Les analyses semblent confirmer le modèle cosmologique standard : « il y a 13,8 milliards d’années, notre Univers a émergé d’un état extrêmement chaud et dense qui, sous l’effet de l’expansion, s’est ensuite refroidi et structuré, laissant petit à petit apparaître le gigantesque réseau de galaxies que l’on peut observer aujourd’hui ».

Euclid espace
Voie lactée et galaxies voisines par le satellite Gaia

Les scientifiques cherchent aussi à cartographier l’univers local en étudiant la vitesse d’un échantillon de Galaxie. Problème, il y a de très nombreux paramètres et hypothèses à confirmer. Les chercheurs utilisent donc une méthode d’inférence probabiliste : « Fondée sur l’intelligence artificielle, elle consiste à engendrer numériquement d’innombrables configurations et à assortir chacune d’elles d’une probabilité de compatibilité avec les observations ».

Le CNRS s’attaque ensuite aux paramètres du modèle standard, à l’inflation de l’Univers, aux soubresauts quantiques, à la toile cosmique et à la recherche du fond diffus gravitationnel. Un long format à lire pour les amateurs d’astronomie et d’origines de l’Univers.

☕️ Donald Trump accorde de nouveau 75 jours pour la vente TikTok

Fin janvier, dans les premières heures suivant son investiture, Donald Trump signait un décret pour accorder 75 jours afin de mettre en place la vente ou l’interdiction de TikTok. Le 47ᵉ président des États-Unis vient d’accorder de nouveau 75 jours à la plateforme.

Il affirme que son administration a « fait d’énormes progrès » dans ce dossier, mais qu’un accord « nécessite plus de travail pour s’assurer que toutes les approbations nécessaires sont signées ». « Nous espérons continuer à travailler de bonne foi avec la Chine, qui, je le comprends, n’est pas très satisfaite de nos tarifs réciproques », ajoute le président. La Chine a pour rappel répondu du tac au tac avec 34 % de taxe sur les importations des États-Unis.

« Nous ne voulons pas que TikTok disparaisse », réaffirme Donald Trump. Plusieurs personnalités et sociétés sont sur les rangs, résume le Parisien : « le « Project Liberty » de l’entrepreneur Frank McCourt, propriétaire de l’Olympique de Marseille, le youtubeur MrBeast ». Citons également Perplexity AI, Amazon, Blackstone, Microsoft, Walmart…

TikTok

☕️ Le gestionnaire de paquets APT 3.0 est disponible avec sa nouvelle interface

La version 3.0 du gestionnaire de paquets APT est désormais disponible. Annoncée par le projet Debian, elle propose une nouvelle interface se voulant nettement plus lisible que celle disponible jusqu’à présent.

APT 3.0 se distingue en particulier par son affichage en colonnes et son utilisation des couleurs. En rouge, par exemple, toutes les suppressions, et en vert les ajouts. La barre de progression est elle aussi révisée, avec un fonctionnement plus souple et l’utilisation d’Unicode.

APT 2.8 à gauche, APT 3.0 à droite

La nouvelle mouture ne revoit pas que sa lisibilité. On y trouve de nouvelles fonctions, comme un solveur permettant de revenir à des versions stables des paquets (via –solver), un autoremove plus efficace, le support de –target-release, une option –comment pour l’historique, la prise en charge des miroirs non compressés pour les miroirs partiels, le calcul correct de la taille du noyau dans /boot, le remplacement de GnuTLS et gcrypt par OpenSSL, ou encore le support des transactions et du comptage des mises à jour pour pkgDepCache.

On se souvient qu’APT 3.0 était présent dans Ubuntu 24.10, mais il s’agissait d’une préversion. Cette version finale devrait être graduellement disponible sur toutes les distributions basées sur Debian et Ubuntu. APT 3.0 sera présent dans Debian 13 et Ubuntu 25.04.

☕️ Tails 6.14.1 apporte un peu de souplesse à Tor Browser sur la gestion des fichiers

Nouvelle mouture pour la distribution Linux centrée sur la sécurité et la vie privée. Une version 6.14.1 qui peut surprendre, car la 6.14 n’a pas été publiée. L’équipe de développement s’en explique dans un billet, indiquant qu’un problème important a été découvert à la dernière minute, nécessitant un correctif.

Tails 6.14.1 se distingue surtout par un changement notable dans le navigateur Tor Browser. La technologie de confinement utilisée pour la sécurité est désormais plus souple. Ainsi, plutôt que de limiter l’écriture des fichiers dans le seul dossier Téléchargements et la lecture à quelques répertoires, les accès peuvent se faire maintenant sur l’ensemble des dossiers.

L’équipe indique que cette amélioration est permise par XDG Desktop Portal, qui fournit un accès à des fonctions standards d’un système comme les fenêtres de dialogue pour les fichiers, le presse-papiers ou encore l’ouverture des liens. Dans le cas présent, ce framework est utilisé pour Flatpak au sein de Tails, autorisant un « relâchement » du confinement opéré par AppArmor.

La nouvelle version corrige également deux problèmes d’accessibilité dans Tor Browser, qui empêchaient d’utiliser les fonctions de texte et de curseurs agrandis.

[Màj] : les sites de la NOAA temporairement sauvés, le contrat AWS prendra fin en juillet

[Màj] : les sites de la NOAA temporairement sauvés, le contrat AWS prendra fin en juillet

L’agence américaine NOAA, qui a en charge notamment des données sur le climat et la météorologie, s’apprête à supprimer une quantité importante de sites internet via une simple annulation d’un contrat avec des hébergeurs cloud.

Mise à jour du 7 avril : alors que la menace d’une disparition de plusieurs sites de la NOAA planait le week-end dernier, ceux-ci sont encore disponibles. L’agence a finalement affirmé à Bloomberg qu’ « il n’y aura pas d’interruption de service » et que « tous les sites de recherche de la NOAA resteront en ligne ». Selon Axios, l’arrêt du contrat avec AWS a été repoussé au 31 juillet 2025, ce qui doit permettre à l’agence de trouver une solution de repli.

Article originel publié le 4 avril à 17h28 :

De nombreux sites de la NOAA, l’agence d’observation océanique et atmosphérique qui s’occupe aussi des données météorologiques aux États-Unis, vont sans doute devenir inaccessibles dès ce week-end. En cause ? Un contrat de prestations d’hébergement dans divers cloud a été annulé par sa direction, selon Bloomberg.

Cette agence est, comme de nombreuses agences fédérales américaines et notamment les agences scientifiques, visée par le DOGE et l’administration de Donald Trump depuis son retour au pouvoir. Elle s’est déjà séparée de certains de ses locaux et par deux fois d’une partie de son personnel.

Elle semble aussi particulièrement visée pour son rôle extrêmement important dans l’information sur le climat et la météorologie. Bloomberg explique qu’un contrat signé pour l’ensemble du bureau de la recherche océanique et atmosphérique de l’agence a été visé pour une « résiliation anticipée », selon des documents internes que le média a pu consulter.

Les services d’Amazon, de Google et de WordPress sur le point d’être coupés

« En conséquence, la quasi-totalité des sites web externes dépendant des services d’Amazon, de Google et de WordPress sont sur le point de disparaître tôt samedi matin à Washington, effaçant ainsi de la vue du public l’essentiel du travail de l’unité, qui comprend la recherche en sciences du climat et de l’environnement », explique notre consœur Lauren Rosenthal. La NOAA n’a pas répondu à sa demande de commentaire.

Cette information fait mouche avec une alerte lancée sur le forum du projet Safeguarding Research & Culture. Celui-ci émane de la volonté de certains chercheurs, notamment l’historien allemand Henrik Schönemann de l’université de Humboldt à Berlin, de créer « une infrastructure alternative pour l’archivage et la diffusion du patrimoine culturel et des connaissances scientifiques ». L’alerte concerne une cinquantaine de sites de la NOAA et on y retrouve rien de moins que le site de l’agence dédié à la recherche : https://research.noaa.gov/.

« Ce qui est prévu d’être supprimé, ce sont les services basés sur AWS pour la NOAA », expliquent les chercheurs, évoquant une mise hors-ligne dès ce vendredi soir. Mais des questions se posent aussi sur les données ouvertes hébergées elles aussi sur AWS.

Selon une note interne obtenue par Bloomberg, la résiliation du contrat pourrait aussi affecter d’autres activités de recherche de l’agence : le laboratoire qui surveille les tempêtes « violentes » pour le pays (le National Severe Storms Laboratory) et celui chargé de l’innovation en climatologie (le Earth Prediction Innovation Center) utilisent des services de cloud computing externes pour un système de prévisions météorologiques à grande échelle.

Le réseau national de l’agence menacé aussi

Les chercheurs de l’agence ont d’autres raisons d’être préoccupés : deux autres contrats arrivent à leur fin concernant le support de N-Wave, son réseau national qui « s’étend sur toute la zone contiguë des États-Unis jusqu’à l’Alaska et Hawaï, atteignant les sites de terrain éloignés, les grands campus, les centres de données et les installations de supercalculateurs ». Ils sont déjà sous le coup d’une extension très brève de cinq jours qui doit se terminer samedi pour l’un et lundi pour l’autre, selon Bloomberg.

☕️ Amazon teste un agent IA pour acheter des produits sur d’autres sites

Amazon a présenté hier soir une fonction nommée « Buy for me », destinée à simplifier encore un peu plus les achats. Contrairement à d’autres agents IA que l’on a pu voir jusqu’à présent, notamment chez Opera, il n’est pas question cette fois d’écrire une demande et de laisser l’intégralité du processus de découverte et d’achat à un agent.

Cette fonction, disponible en bêta pour un petit groupe de personnes aux États-Unis, a un périmètre nettement plus restreint. Comme l’indique Amazon dans son billet, « Buy for me » veut simplifier les achats pour des produits présentés par la boutique Amazon, mais disponibles depuis d’autres, notamment les sites officiels des entreprises concernées.

La fonction, présente dans les applications Android et iOS, s’affiche sous forme d’un bouton dédié, accompagnant certains résultats. S’il est actionné par l’internaute, il lance une procédure d’achat sur le site officiel du fabricant, de manière automatisée.

Mais si cette fonction est plus restreinte dans ses cas d’usage, elle demande une grande confiance en Amazon. Car contrairement à ce que l’on a déjà pu voir, c’est toute la procédure d’achat qui se retrouve gérée par l’agent, y compris le paiement. Ce qui suppose que l’IA accède aux informations de la carte bancaire. L’achat est considéré comme externe. « La livraison, les retours et les échanges, ainsi que le service client sont gérés par la boutique de la marque », précise Amazon.

Le géant du commerce en ligne précise dans son billet que ces opérations sont chiffrées et qu’il n’accède pas aux données des autres sites. Il affirme qu’il ne tient aucun historique de ces actions et qu’il s’agit simplement d’apporter une commodité. En outre, la présence de cette fonction sur des produits se fait à la demande des fabricants et Amazon assure que les clients peuvent observer toutes les étapes d’un processus décrit comme « transparent ». Le tout repose sur Amazon Bedrock et utilise le modèle Nova maison, ainsi que les modèles Claude d’Anthropic (dont la version 3.7 est sortie fin février), sans plus de précision.

« Gagner la confiance est la pierre angulaire du succès des agents d’IA », déclare Amazon dans son billet. À voir désormais si la clientèle se laissera séduire par un processus automatisé impliquant des informations bancaires. Ajoutons que ce n’est pas la première fois qu’Amazon tente ce type d’approche automatisée. En 2018, nous avions ainsi testé la commande de pizza via Alexa, avec des résultats particulièrement décevants.

Électricité : « oubliez les datacenters, la climatisation est la véritable bête noire »

L’éléphant dans la pièce
Électricité : « oubliez les datacenters, la climatisation est la véritable bête noire »

Il n’y a pas que les datacenters qui façonnent le monde à cause de leur consommation électrique. La climatisation aussi est fortement consommatrice d’électricité… et cela ne va pas aller en s’arrangeant.

L’arrivée de l’IA générative a bousculé le numérique et soulève de nombreuses questions (droit d’auteur, éthique, biais, hallucinations…). Se pose aussi la question de l’empreinte écologique de datacenters toujours plus gros, partout dans le monde, avec des GPU toujours plus puissants.

La douce/triste « folie » de l’IA générative

Le tout avec une consommation électrique toujours plus importante, sur des zones bien précises. L’augmentation de la densité électrique par baie et l’expansion des datacenters posent d’ailleurs des contraintes sur le choix de l’emplacement physique alloué à ces derniers.

Avec les images et les vidéos de l’IA générative, on passe encore dans une autre dimension. Les chiffres de l’utilisation des IA peuvent donner le tournis, preuve en est encore récemment avec un tweet de Brad Lightcap (COO d’OpenAI) : « Première semaine de folie pour les images dans ChatGPT : plus de 130 millions d’utilisateurs ont généré plus de 700 millions (!) d’images ». Il se garde d’ailleurs bien de détailler l’empreinte environnementale d’une telle utilisation.

Bientôt 1 000 TWh pour les datacenters ?

Dans un rapport publié fin 2024, l’Agence internationale de l’énergie atomique (IAEA, sous l’égide de l’ONU) expliquait que « les datacenters avaient consommé environ 460 TWh d’électricité en 2022. Cette consommation pourrait s’élever à plus de 1 000 TWh d’ici 2026, soit plus d’un tiers de l’électricité produite par les centrales nucléaires du monde entier l’année dernière, et à peu près l’équivalent de la consommation d’électricité du Japon ». À titre de comparaison, en 2023, la consommation d’électricité en France était de 445,4 TWh.

L’Agence donne quelques chiffres d’anticipation. En Chine, la demande devrait doubler pour atteindre 400 TWh en 2030. En Irlande, la consommation des datacenters (5,3 TWh) représentait 17 % du total du pays et devrait atteindre 32 % d’ici fin 2026. Elle ajoute au passage que la consommation cumulée d’Amazon, Microsoft, Google et Meta « a plus que doublé entre 2017 et 2021 pour s’établir à environ 72 térawattheures (TWh) ».

Par exemple, pour Meta, la consommation des datacenters était de 14,975 TWh en 2023, contre 6,966 TWh en 2020. Elle a donc quasiment doublé en trois ans.

« On devrait parler davantage de climatisation »…

Dans un article publié sur MIT Review, Casey Crownhart (journaliste spécialisée sur le climat et l’énergie) explique que l’on « devrait parler davantage de climatisation ». Elle met cette problématique (bien moins médiatisée) en balance avec la consommation des datacenters largement plus présente dans les débats. Avec ce sous-titre volontairement provocateur : « oubliez les datacenters, la climatisation est la véritable bête noire »

Elle commence par rappeler le cercle vicieux de la climatisation et du réchauffement climatique : « À mesure que les températures augmentent, le besoin en refroidissement augmente. De plus en plus de centrales électriques à combustibles fossiles sont alors mises en service pour répondre à cette demande, augmentant ainsi la température de la planète ».

…qui représente 2 000 TWh, et plus 5 000 TWh en 2050 ?

Selon une étude publiée mi-2024 par l’organisation à but non lucratif Our World in Data (qui travaille en partenariat avec l’université d’Oxford), sur l’année 2022 « la climatisation représentait 7 % de l’électricité mondiale et 3 % des émissions de carbone ». Sur la base d’une consommation mondiale de 29 000 TWh en 2022, la climatisation représenterait un peu plus de 2 000 TWh. À mettre en face des 460 TWh des datacenters.

Selon une projection de l’Agence internationale de l’énergie (IEA, une organisation internationale fondée à l’OCDE), le nombre de climatiseurs devrait fortement augmenter dans les années à venir. De 2 milliards d’unités à la fin des années 2010, elle prévoit près de 3 milliards en 2030 et plus de 5 milliards en 2050. À ce moment-là, la consommation électrique pourrait grimper entre 3 500 et 5 000 TWh.

La Chine dope la croissance, l’Europe n’est pas en reste

Comme le rappelle Le Monde, les évolutions sont variables selon les continents : « Le nombre de ménages africains équipés en climatisation n’a enregistré qu’une très faible hausse au cours des vingt dernières années, passant de 4 % à 6 % aujourd’hui. Dopée par la Chine, l’Asie a en revanche vu son taux d’équipement exploser de 19 % à 47 % sur la même période ». En Europe, la proportion de ménages équipés d’une climatisation pourrait doubler et atteindre 40 % (55 % en France) d’ici 2050.

Les climatiseurs, contrairement aux datacenters, ont tendance à s’allumer à peu près en même temps dans une zone. « Dans certaines régions des États-Unis, par exemple, les climatiseurs peuvent représenter plus de 70 % de la demande d’énergie résidentielle aux moments où le réseau est le plus sollicité », affirme Casey Crownhart. Les climatiseurs sont répartis un peu partout alors que les datacenters concentrent la consommation en certains points précis (nécessitant des lignes dédiées). Signalons aussi que certains datacenters ont recours à la climatisation.

Notre consœur termine quand même par une bonne nouvelle : « nous assistons à des innovations dans la technologie de refroidissement ». Elle explique que certains proposent par exemple un stockage de l’énergie pour se recharger lorsque l’énergie est disponible à bas coût, et de nouvelles technologies de refroidissement. Cela ne suffira certainement pas à combler la hausse prévue de la consommation de la climatisation.

C’est quoi cette histoire d’EU OS ?

Encore une bonne intention ?
C’est quoi cette histoire d’EU OS ?

Ces derniers temps, on parle beaucoup d’une initiative baptisée « EU OS ». Il s’agirait d’une distribution Linux développée par l’Union européenne pour ses propres besoins. EU OS n’est cependant pas un système existant, ni même un projet de l’Union.

EU OS est un nom générique, choisi à dessein par Robert Riemann, auteur de l’initiative. Ce physicien et informaticien travaille actuellement dans l’équipe du Contrôleur européen de la protection des données (CEPD), un organe indépendant établi par le Règlement général sur la protection des données (RGPD) pour veiller à son application cohérente au sein de l’Union. Riemann est en quelque sorte aux premières loges sur les questions de souveraineté numérique.

Son initiative est centrée sur ce thème. Elle est personnelle – dans le sens où elle n’émane pas officiellement d’une instance européenne – mais est conçue pour attirer l’attention. Elle est en outre suffisamment étoffée dans sa vision pour interroger les éventuelles bonnes volontés. Même si certains choix peuvent sembler curieux, voire bloquants.

De quoi parle-t-on ?

EU OS est présenté comme un projet. L’auteur est cependant transparent sur les objectifs : c’est un proof-of-concept (démonstration de faisabilité) visant à explorer l’idée d’un système d’exploitation souverain pour les instances publiques de l’Union européenne. Comme Robert Riemann l’indique, EU OS « n’est techniquement pas un nouveau système d’exploitation »

Les motivations à lancer un tel projet ne manquent pas, selon lui. L’expression « argent public – code public » est au cœur de sa démarche. L’investissement public doit ainsi profiter au plus grand nombre, l’argent des contribuables ne devant pas servir à payer des licences de produits propriétaires. Il estime que les « effets de synergie » permettront des économies puisqu’il ne sera plus question de payer des coûts de licence par siège.

Il est également beaucoup question d’indépendance. D’abord, à l’égard des entreprises du privé, qui ne pourraient plus dicter leurs conditions. Ensuite sur la manière dont les migrations sont envisagées, sur le logiciel comme sur le matériel. Bien que le cas ne soit pas nommé, il est probable que la fin de vie de Windows 10 serve ici d’exemple emblématique du problème pointé. Un organisme public pourra ainsi choisir quand et comment migrer.

Bien sûr, l’ouverture du code est centrale, permettant à chacun de se lancer dans sa propre analyse. Même chose pour l’utilisation de normes ouvertes. L’initiative bénéficierait aussi de la communauté mondiale du logiciel libre.

La faisabilité d’accord, mais sur quelle base ?

Le site du projet rappelle que ce type d’initiative n’a rien de nouveau, même si l’aventure n’a encore jamais été tentée au niveau européen. La distribution française Gendbuntu, basée sur Ubuntu et utilisée par la gendarmerie française, est citée en exemple. D’autres sont citées, comme LiMux à Munich, mais dont l’aventure s’est terminée en 2017, quand la municipalité a décidé de revenir à Windows.+ 1 Linux est également dans la liste, distribution développée par le land allemand Schleswig-Holstein, de même qu’Astra Linux pour la Russie et Kylin pour la Chine. Pour l’auteur de l’initiative, c’est la preuve évidente qu’un déploiement de Linux à grande échelle n’a rien d’impossible.

Et pour l’Europe, que propose Robert Riemann ? Une base Fedora accompagnée de l’environnement KDE. Le choix a de quoi surprendre : quitte à viser la souveraineté et donc l’indépendance, pourquoi promouvoir une distribution qui, si elle est effectivement libre, est le laboratoire à ciel ouvert de Red Hat, une société américaine ?

Robert Riemann s’en explique dans une FAQ. De 2007 à 2024, il a lui-même utilisé openSUSE, distribution soutenue par SUSE, une société allemande. Il indique également s’être servi de Debian au département universitaire, et de Scientific Linux dans un département de recherche. Pour son utilisation personnelle, il s’est penché en 2024 sur openSUSE Kalpa, mais a finalement choisi une variante spécifique de Fedora : Kinoite.

Kinoite, dont nous avons déjà parlé, est un système Linux immuable. Il estime que cet aspect du système est essentiel dans le cadre d’une distribution publique, car elle permet une sécurité accrue et offre une plus grande fiabilité dans la gestion des mises à jour. Les images déployées peuvent être signées, avec possibilité de contrôler finement ce qui est installé et quand.

Le choix de Fedora tient compte d’un ensemble de paramètres, dont l’utilisation de rpm-ostree, un système hybride images/paquets. On le retrouve dans des distributions immuables basées sur Fedora comme les spins Atomic, CentOS Stream, Alma Linux et Rocky Linux. Robert Riemann dit également avoir reçu des conseils de la communauté, du CERN, de la Commission européenne, du centre allemand pour la souveraineté numérique ou encore d’openSUSE (qui en a d’ailleurs fait un billet de blog le 26 mars).

Des spécifications précises

Ce billet est intéressant, car l’équipe y estime le projet EU OS comme « mature » par son approche et la liste des caractéristiques. Le choix de Fedora Kinoite est à la fois considéré comme argumenté et présentant des risques. Pour openSUSE, il serait plus judicieux de prendre tout de suite en compte des alternatives comme Aeon (GNOME) ou sa propre distribution Kalpa, qui poursuit les mêmes objectifs que Kinoite. Le critère commun ? L’immuabilité.

Sur le site d’EU OS, d’autres spécifications sont d’ailleurs données. Il faut pouvoir par exemple proposer des dossiers synchronisés, qu’ils soient partagés ou spécifiques à l’utilisateur. Une attention particulière doit être portée à la gestion des e-mails et calendriers. Ce peut être à travers le tandem KOrganizer-Kmail (donc KDE), Thunderbird ou un webmail comme OpenExchange.

Parmi les autres spécifications, il y a également l’intégration avec des services d’impression, une gestion des mots de passe avec intégration dans le navigateur, un outil de compression multiformat (7zip est proposé), la possibilité de déployer des applications depuis un catalogue (comme Flathub), une gestion centralisée des appareils (notamment pour le traitement des correctifs), une intégration avec un service d’annuaire, un déploiement automatique des certificats personnalisés, un système automatisé pour les sauvegardes, la prise en charge du chiffrement intégral du disque, la compatibilité avec SELinux, et ainsi de suite.

La liste est longue, d’autant qu’elle contient aussi des exigences non fonctionnelles. Elles concernent surtout la philosophie du projet, avec des conséquences concrètes sur la sécurité. Par exemple, le caractère open source du projet ou l’utilisation de méthodes DevOps modernes, « pour des constructions reproductibles ». Le système doit répondre aux besoins de l’Union européenne et doit pouvoir fonctionner sur du matériel datant de Windows 7.

Et, bien sûr, EU OS doit prendre en compte dès le départ l’ensemble des cadres juridiques européens pertinents et normes associées : RGPD, NIS 2, Cyber Resilience Act, ISO 27001. SecNumCloud, la certification de l’ANSSI, est même mentionnée, « si applicable ».

Un vieux sujet

Il semble que l’ouverture du dépôt GitLab associé ait été faite aux alentours de Noël dernier. Pourquoi à ce moment-là ? Une question de contexte, sans doute, entre les dernières élections européennes et la pétition lancée en novembre dernier pour faire réagir les instances européennes.

Cette pétition, enregistrée sur le site du Parlement européen, enjoignait l’Europe à se doter de sa propre distribution souveraine. Les avantages d’une telle solution étaient considérés comme « évidents », comme l’indépendance, les économies réalisées, la transparence du processus, la sécurité associée, etc. Pour en finir avec la dépendance aux solutions propriétaires. Sujet relancé en France ces derniers temps, notamment avec le contrat signé par Polytechnique avec Microsoft.

Pour autant, comme nous le rappelait alors l’ingénieur Stéphane Bortzmeyer, la souveraineté par le système d’exploitation est un vieux sujet, sans que rien n’ait jamais vraiment bougé au niveau étatique. Et ce, malgré des réussites comme la migration de la gendarmerie française vers une version modifiée d’Ubuntu pour 70 000 postes.

L’initiative, cette fois, émane d’une personne clairement identifiée et ayant une expérience réelle avec le monde Linux. Le site donne de nombreux détails et pose une vision claire. Dans un contexte de guerre commerciale ouverte avec les États-Unis, déclenchée par le gouvernement américain via des droits de douane massifs, le projet est à suivre de près. Sinon, il aura eu le mérite de donner un aperçu plus précis de ce que devrait être une distribution européenne.

☕️ Datacenter : iliad finalise la vente de 50 % d’OpCore à InfraVia

L’acquisition de 50 % du capital d’OpCore par le fonds d’infrastructure français InfraVia est désormais finalisée. « À travers ce partenariat, le Groupe iliad et Infravia vont doter OpCore d’une structure financière à même de libérer ses perspectives d’hypercroissance par le développement de nouveaux datacenters de plusieurs centaines de mégawatts en France et en Europe. Plusieurs projets de construction sont déjà en cours », indiquent les deux entreprises, déjà partenaires de longue date dans les investissements autour de la fibre, dans un communiqué commun.

L’opération, initialement annoncée le 4 décembre dernier, valorise l’entreprise à hauteur de 860 millions d’euros. Elle confère à OpCore (anciennement Scaleway Datacenter) une structure financière et un accès à de nouveaux fonds propres qui doivent permettre à l’entreprise d’aller plus facilement lever de la dette bancaire pour financer la création de ses futurs centres de données. Elle permet dans le même temps à iliad de réduire son endettement, sans perdre le contrôle d’une activité considérée comme stratégique.

« Nous allons investir avec notre partenaire InfraVia 2,5 milliards d’euros dans notre plateforme de datacenters OpCore pour devenir la première plateforme indépendante européenne », promettait à cette occasion Thomas Reynaud, directeur général du groupe iliad.

En France, OpCore revendique à ce stade plus de 50 MW de capacités opérées à ce jour sur cinq datacenters en région parisienne, ainsi que deux en région lyonnaise et un en région marseillaise, commercialisés sous la marque Free Pro.

Les nord-coréens de Lazarus ciblent le monde de la crypto via de faux entretiens d’embauche

Pwnd
Les nord-coréens de Lazarus ciblent le monde de la crypto via de faux entretiens d’embauche

Le groupe de pirates Lazarus, lié à l’état nord-coréen, a mis en place un système de piratage visant le monde de la cryptomonnaie, notamment en organisant de faux entretiens d’embauche et en poussant à l’installation de logiciels malveillants via des techniques de social engineering.

En octobre dernier, nous nous étions faits l’écho de la propagation d’une arnaque au recrutement qui cible les développeurs amateurs de crypto. Les soupçons se tournaient vers Lazarus, groupe de pirates nord-coréen auquel est aussi attribué l’immense vol de cryptoactifs, d’une valeur approchant 1,5 milliard de dollars, révélé en février dernier.

L’éditeur de logiciel de cybersécurité français Sekoia confirme dans un rapport que le groupe de pirates est à l’origine d’une campagne d’arnaque au recrutement de ce type. « Il utilise des sites web d’entretiens d’embauche légitimes pour exploiter la tactique ClickFix et installer des portes dérobées pour Windows et macOS », explique l’entreprise française.

Le ClickFix est une tactique d’ingénierie sociale qui « consiste à afficher de faux messages d’erreur dans les navigateurs web pour tromper les utilisateurs et les inciter à copier et à exécuter un code PowerShell malveillant donné, ce qui finit par infecter leurs systèmes », expliquait Sekoia en octobre dernier. Détectée en mai 2024, cette tactique est déjà qualifiée de « tristement célèbre » par Sekoia.

Windows et MacOS, deux variantes

Selon l’entreprise de sécurité, la chaine d’infection utilisée par Lazarus ciblerait les systèmes d’exploitation Windows et MacOS de deux façons différentes. Sur le premier, le groupe de pirates passerait par un script VBS puis un script NodeJS et sur le second via un script Bash puis le malware FrostyFerret pour récupérer le mot de passe système. Mais à la fin, ils utiliseraient un virus, nommé GolangGhost par Sekoia, écrit en GO. Ce code a déjà été partiellement étudié par les spécialistes de cybersécurité Sonatype et dmpdump. Sekoia explique que GolangGhost est prévu pour fonctionner sur Windows et macOS et permet de mettre en place une porte dérobée puis de voler des données via Chrome.

Sous MacOS, FrostyFerret affiche une fausse fenêtre indiquant que le navigateur web Chrome a besoin d’accéder à la caméra ou au microphone. Ensuite, le malware demande à l’utilisateur de saisir le mot de passe du système. Celui-ci est ensuite récupéré et envoyé vers un espace Dropbox.

Essentiellement des acteurs de la CeFi utilisés comme appâts

En analysant cette attaque, Sekoia a récupéré 184 invitations différentes pour des entretiens d’embauche. Parmi ces invitations, elle a trouvé 14 noms d’entreprises utilisés pour inciter la victime à compléter le processus de demande. Parmi elles, Coinbase est celle dont le nom est le plus utilisé par Lazarus pour attirer l’attention de ses proies :

Sekoia fait remarquer que 9 des 14 entreprises « proposent des services financiers centralisés (CeFi), c’est-à-dire des services financiers construits autour des crypto-monnaies qui s’appuient sur des intermédiaires, tels que des échanges et des plateformes de prêt, pour faciliter les transactions ». L’entreprise de sécurité rappelle que « ces plateformes sont dites « centralisées » car elles obligent les utilisateurs à faire confiance à une entité centrale pour gérer les fonds, traiter les transactions et assurer la sécurité ». Archblock est la seule plateforme de services financiers décentralisés (DeFi) détectée par Sekoia comme cible de Lazarus.

Lazarus vise des profils moins tech

Mais si les développeurs amateurs de crypto sont ciblés, l’analyse de Sekoia montre qu’ils ne sont ni les seuls, ni la principale cible. En effet, l’entreprise explique qu’ « il s’agit principalement de postes de responsables axés sur le développement commercial, la gestion des actifs, le développement de produits ou de spécialistes de la finance décentralisée ». Et elle explique que c’est un changement important s’agissant des attaques de Lazarus qui, jusque-là, « visaient principalement les développeurs et les ingénieurs en informatique ».

Sekoia livre une liste des faux sites d’entretiens que l’entreprise a détectés :

❌