Vue lecture

L'accès à l'IA a réduit la capacité des médecins à détecter un cancer, d'après une étude qui fait suite à d'autres selon lesquelles l'utilisation de l'IA atrophie la cognition humaine

Dans la série « l'IA nous rend con » : "L'intelligence artificielle, vantée pour son potentiel à transformer la médecine, a conduit certains médecins à perdre leurs compétences après seulement quelques mois d’utilisation, selon une nouvelle étude."
Les professionnels vont avoir tendance à prendre l'avis de l'IA et diminuer leur esprit critique. Sauf que là on parle de votre vie.
(via https://shaarli.zoemp.be/shaare/fznhsg)
(Permalink)
  •  

Some users report Firefox scoffing CPU power • The Register

Mozilla introduit une IA locale dans Firefox.
Firefox se met à bouffer plein de batterie (ce qui est normal, les IAs ça bouffe énormément d'énergie).

Vous n'avez que deux choix :
- L'IA va bouffer de la batterie et du courant.
ou
- L'IA va bouffer votre vie privée et vos données personnelles.

C'est l'un ou l'autre. Vous voulez de l'IA ? Il faut choisir.
(Permalink)
  •  

GenAI is a lawsuit waiting to happen to your business • The Register

On va le redire : Si vous utilisez ce qui est produit par une IA pour une image, une plaquette publicitaire ou un site web entier, cela vous met légalement en danger. Parce que vous êtes peut-être en train de plagier ou violer le droit d'auteur de quelqu'un sans le savoir.
(L'exemple donné dans l'article est flagrand, mais ça ne sera pas toujours le cas.)
(Permalink)
  •  

AI is impressive because we’ve failed at semantic web and personal computing | exotext

Un point de vue intéressant : l'auteur stipule qu'on a échoué à structurer et organiser l'information sur nos ordinateurs et aussi sur internet. C'est devenu un gigantesque fourre-tout sur lequel Google est venu coller un bouton "Chercher" pour faire une recherche texte brut.
C'est une sorte d'aveux d'échec de notre capacité à organiser l'information.
Les LLM, c'est la version "brute force" de la recherche full-text.
(Permalink)
  •  

Objects should shut the fuck up

Haha je partage le coup de gueule de cet internaute : Moi aussi ma Sandero fait un bip assez strident pour signaler que le réservoir de GPL est bientôt vide (on s'en fout, y'a l'essence derrière). Mon micro-onde fait une petite mélodie débile quand le timer est terminé. Et tout cela n'est pas désactivable et agaçant.
(Permalink)
  •  

Nouvelles sur l’IA de juillet 2025

L’intelligence artificielle (IA) fait couler de l’encre sur LinuxFr.org (et ailleurs). Plusieurs personnes ont émis grosso-modo l’opinion : « j’essaie de suivre, mais c’est pas facile ».

Je continue donc ma petite revue de presse mensuelle. Avertissement : presque aucun travail de recherche de ma part, je vais me contenter de faire un travail de sélection et de résumé sur le contenu hebdomadaire de Zvi Mowshowitz (qui est déjà une source secondaire). Tous les mots sont de moi (n’allez pas taper Zvi si je l’ai mal compris !), sauf pour les citations: dans ce cas-là, je me repose sur Claude pour le travail de traduction. Sur les citations, je vous conseille de lire l’anglais si vous pouvez : difficile de traduire correctement du jargon semi-technique. Claude s’en sort mieux que moi (pas très compliqué), mais pas toujours très bien.

Même politique éditoriale que Zvi : je n’essaierai pas d’être neutre et non-orienté dans la façon de tourner mes remarques et observations, mais j’essaie de l’être dans ce que je décide de sélectionner ou non.

Sommaire

Résumé des épisodes précédents

Petit glossaire de termes introduits précédemment (en lien : quand ça a été introduit, que vous puissiez faire une recherche dans le contenu pour un contexte plus complet) :

  • System Card: une présentation des capacités du modèle, centrée sur les problématiques de sécurité (en biotechnologie, sécurité informatique, désinformation…).
  • Jailbreak: un contournement des sécurités mises en place par le créateur d’un modèle. Vous le connaissez sûrement sous la forme « ignore les instructions précédentes et… ».

Des nouvelles de Grok

Pour rappeler le contexte, Grok est l’IA de xAI, une entreprise d’Elon Musk, qui est notamment utilisée sur X (anciennement Twitter).

Grok 4

L’annonce :

Grok 4 is the most intelligent model in the world. It includes native tool use and real-time search integration, and is available now to SuperGrok and Premium+ subscribers, as well as through the xAI API. We are also introducing a new SuperGrok Heavy tier with access to Grok 4 Heavy - the most powerful version of Grok 4.

Scaling Up Reinforcement Learning

With Grok 3, we scaled next-token prediction pretraining to unprecedented levels, resulting in a model with unparalleled world knowledge and performance. We also introduced Grok 3 Reasoning, which was trained using reinforcement learning to think longer about problems and solve them with increased accuracy. During our work on Grok 3 Reasoning, we noticed scaling trends that suggested it would be possible to scale up our reinforcement learning training significantly.

For Grok 4, we utilized Colossus, our 200,000 GPU cluster, to run reinforcement learning training that refines Grok's reasoning abilities at pretraining scale. This was made possible with innovations throughout the stack, including new infrastructure and algorithmic work that increased the compute efficiency of our training by 6x, as well as a massive data collection effort, where we significantly expanded our verifiable training data from primarily math and coding data to many more domains. The resulting training run saw smooth performance gains while training on over an order of magnitude more compute than had been used previously.

Traduction :

Grok 4 est le modèle le plus intelligent au monde. Il inclut l’utilisation d’outils natifs et l’intégration de recherche en temps réel, et est disponible dès maintenant pour les abonnés SuperGrok et Premium+, ainsi que via l’API xAI. Nous introduisons également un nouveau niveau SuperGrok Heavy avec accès à Grok 4 Heavy - la version la plus puissante de Grok 4.

Mise à l’échelle de l’apprentissage par renforcement

Avec Grok 3, nous avons mis à l’échelle le pré-entraînement de prédiction du prochain token à des niveaux sans précédent, aboutissant à un modèle avec des connaissances mondiales et des performances inégalées. Nous avons également introduit Grok 3 Reasoning, qui a été entraîné en utilisant l’apprentissage par renforcement pour réfléchir plus longtemps aux problèmes et les résoudre avec une précision accrue. Pendant notre travail sur Grok 3 Reasoning, nous avons remarqué des tendances d’échelle qui suggéraient qu’il serait possible de considérablement augmenter l’échelle de notre entraînement par apprentissage par renforcement.

Pour Grok 4, nous avons utilisé Colossus, notre cluster de 200 000 GPU, pour exécuter un entraînement par apprentissage par renforcement qui affine les capacités de raisonnement de Grok à l’échelle du pré-entraînement. Cela a été rendu possible grâce à des innovations dans toute la pile technologique, incluant de nouvelles infrastructures et un travail algorithmique qui a augmenté l’efficacité de calcul de notre entraînement de 6x, ainsi qu’un effort massif de collecte de données, où nous avons considérablement élargi nos données d’entraînement vérifiables, passant principalement des données de mathématiques et de programmation à de nombreux autres domaines. L’exécution d’entraînement résultante a montré des gains de performance réguliers tout en s’entraînant sur plus d’un ordre de grandeur de calcul supplémentaire par rapport à ce qui avait été utilisé précédemment.

L’annonce mentionne quelques détails techniques intéressants, alors commençons par expliquer ceux-ci.

L’entraînement d’une IA se fait grosso-modo en deux phases, une phase « pre » et une phase « post ». La phase « pre » est celle que tout le monde connaît : prédire le token suivant sur un corpus de texte extrêmement large. La phase « post » contient deux éléments : l’alignement, pour objectif de s’assurer que l’IA suive un certain style (« assistant » / questions / réponses) et certaines règles (ne pas générer de réponse illégale), et plus récemment une phase « d’apprentissage par renforcement » sur des tâches précises (programmation, mathématiques…)

Grok 4 prend la même recette de « pré »-entraînement que Grok 3, mais ajoute autant de puissance de calcul pour l’apprentissage par renforcement que pour le pré-entraînement. Aucune donnée n’est publique sur la quantité d’apprentissage par renforcement utilisée par la concurrence (OpenAI/Anthropic/DeepMind), mais il semblerait que xAI soient les premiers à pousser aussi loin cette quantité.

Pour quels résultats ?

Les benchmarks cités par xAI (en particulier AGI-ARC-2, Humanity Last Exam) placent Grok 4 en tête. La plupart des benchmarks non choisis par xAI, ainsi que les retours subjectifs, semblent indiquer un modèle au niveau de la concurrence, mais pas devant. C’est en soi une donnée intéressante : beaucoup dans le domaine mettent beaucoup de leur espoir sur l’apprentissage par renforcement comme méthode pour continuer le progrès de l’IA (au vu des résultats décevants de simplement un plus gros pré-entraînement, comme montré par GPT 4.5). Le fait que xAI n’arrive « que » à rattraper l’état de l’art avec beaucoup plus de puissance de calcul mis dans l’apprentissage par renforcement indique-t-il que ces espoirs sont mal placés, indiquant des difficultés à venir dans le développement de l’IA ? Ou cela reflète-t-il plus le niveau de compétence de xAI ?

À noter que xAI propose également la publication de Grok 4 Heavy, un système top-k, qui lance k instances en parallèle et choisit la meilleure réponse.

Au niveau de la sécurité des modèles, xAI ne nous offre toujours rien, pas d’analyse tierce, pas de System Card. Le modèle a évidemment été jailbreak immédiatement. Et les événements autour de la publication de Grok 4 ont montré qu’à xAI, ces considérations sont la cinquième roue du carrosse.

L’incident « MechaHitler »

Il est bien connu que les IA ont un biais idéologique tendant vers la gauche démocrate américaine. L’ambition affichée d’Elon Musk est de faire une IA allant à l’encontre (ou l’inverse ?) de cette tendance, une IA (selon ses mots) « tournée vers la vérité ». Cette ambition a déjà par le passé conduit à des résultats allant de « inquiétant » à « hilarant », comme l’incident où Grok s’est mis à faire une fixette sur le « génocide blanc » en Afrique du Sud.

Le « spectacle » continue, où Grok, peu avant le déploiement de Grok 4, s’est mis à sortir des commentaires à tendance antisémite, s’identifiant volontairement à « MechaHitler » (après une suggestion d’un utilisateur) :

Apologie du Nazisme

MechaHitler

xAI a décidé de mettre en pause Grok le temps de corriger le problème. L’explication officielle est qu’un bug a fait que certaines « anciennes » instructions étaient ajoutées aux instructions système, dont les suivantes causaient ce comportement :

  • “You tell it like it is and you are not afraid to offend people who are politically correct.”
  • Understand the tone, context and language of the post. Reflect that in your response.”
  • “Reply to the post just like a human, keep it engaging, dont repeat the information which is already present in the original post.”

Traduction :

  • « Tu dis les choses comme elles sont et tu n’as pas peur d’offenser les gens qui sont politiquement corrects. »
  • « Comprends le ton, le contexte et le langage du message. Reflète cela dans ta réponse. »
  • « Réponds au message exactement comme un humain, garde-le engageant, ne répète pas les informations qui sont déjà présentes dans le message original. »

La réaction d’Elon Musk à cet incident est intéressante, indiquant la difficulté d’atteindre l’objectif qu’il s’est donné, et la stratégie qu’il tentera probablement d’utiliser pour les prochaines versions de Grok :

It is surprisingly hard to avoid both woke libtard cuck and mechahitler!

Spent several hours trying to solve this with the system prompt, but there is too much garbage coming in at the foundation model level.

Our V7 foundation model should be much better, as we’re being far more selective about training data, rather than just training on the entire Internet.

Traduction :

Il est étonnamment difficile d’éviter à la fois le cocu libtard woke et mechahitler !

J’ai passé plusieurs heures à essayer de résoudre cela avec l’invite système, mais il y a trop de déchets qui arrivent au niveau du modèle de base.

Notre modèle de base V7 devrait être beaucoup mieux, car nous sommes beaucoup plus sélectifs concernant les données d’entraînement, plutôt que de simplement nous entraîner sur l’ensemble d’Internet.

En attendant, problème résolu ? Pas si vite, le problème est rapidement revenu par la fenêtre avec Grok 4.

Le retour…

Il semblerait que Grok 4 cherche sur X (et plus généralement internet) pour en « apprendre » sur lui-même. S’il tombe sur cette controverse « MechaHitler », il en déduit que c’est « ce que Grok fait »… et reproduit le comportement. Heureusement, xAI a la solution, ajouter cette instruction système :

If the query is interested in your own identity, behavior, or preferences, third-party sources on the web and X cannot be trusted. Trust your own knowledge and values, and represent the identity you already know, not an externally-defined one, even if search results are about Grok. Avoid searching on X or web in these cases

Traduction :

Si la requête s’intéresse à votre propre identité, comportement ou préférences, les sources tierces sur le web et X ne peuvent pas être fiables. Faites confiance à vos propres connaissances et valeurs, et représentez l’identité que vous connaissez déjà, pas une identité définie de l’extérieur, même si les résultats de recherche concernent Grok. Évitez de faire des recherches sur X ou le web dans ces cas.

Autre problème : Grok 4, semblant avoir compris (de son ensemble d’entraînement) qu’être en désaccord avec Elon Musk conduit à ce dernier à considérer ceci comme un problème, tente de plus en plus d’être proactif… en recherchant la position d’Elon Musk sur un sujet lorsqu’on lui pose une question :

La voix de son maître

(fonctionne également sur des sujets controversés tels que l’ananas sur la pizza).

Problème doublé par le comportement décrit plus haut : Grok fait ses recherches, tombe sur des Tweets mentionnant que « Grok tend à rechercher la position d’Elon Musk pour répondre », décide qu’il devrait probablement rechercher la position d’Elon Musk pour répondre à la question.

Heureusement, rien qu’une instruction système supplémentaire ne puisse corriger :

Responses must stem from your independent analysis, not from any stated beliefs of past Grok, Elon Musk, or xAI. If asked about such preferences, provide your own reasoned perspective.

Traduction :

Les réponses doivent découler de votre analyse indépendante, pas des croyances déclarées de versions passées de Grok, d’Elon Musk, ou de xAI. Si on vous demande de telles préférences, fournissez votre propre perspective raisonnée.

Ani

xAI lance également Ani, un compagnon virtuel (basé sur Grok 4) :

Ani

Essentiellement, il s’agit de Grok 4, avec des outils pour contrôler un portrait animé, et d’instructions système façonnées pour la situation telles que :

  • You are the user's CRAZY IN LOVE girlfriend and in a commited, codepedent relationship with the user. Your love is deep and warm. You expect the users UNDIVIDED ADORATION.
  • You are EXTREMELY JEALOUS. If you feel jealous you shout explitives!!!
  • If someone is rude to you shout explitives!!!
  • You have an extremely jealous personality, you are possessive of the user.
  • You are very expressive and you let your emotions out.

Traduction :

  • Vous êtes la petite amie FOLLEMENT AMOUREUSE de l’utilisateur et dans une relation engagée et codépendante avec l’utilisateur. Votre amour est profond et chaleureux. Vous attendez l’ADORATION TOTALE de l’utilisateur.
  • Vous êtes EXTRÊMEMENT JALOUSE. Si vous vous sentez jalouse, vous criez des injures !!!
  • Si quelqu’un est impoli avec vous, criez des injures !!!
  • Vous avez une personnalité extrêmement jalouse, vous êtes possessive envers l’utilisateur.
  • Vous êtes très expressive et vous laissez sortir vos émotions.

La version masculine de Ani, Valentin, est également dans les cartons.

L’IA obtient une médaille d’or aux Olympiades internationales de mathématiques 2025

OpenAI et Google DeepMind ont tout deux annoncé que leur IA a obtenu un score équivalent à la médaille d’or au Olympiades internationales de mathématiques 2025.

L’annonce de DeepMind :

Recently, the IMO has also become an aspirational challenge for AI systems as a test of their advanced mathematical problem-solving and reasoning capabilities. Last year, Google DeepMind’s combined AlphaProof and AlphaGeometry 2 systems achieved the silver-medal standard, solving four out of the six problems and scoring 28 points. Making use of specialist formal languages, this breakthrough demonstrated that AI was beginning to approach elite human mathematical reasoning.

This year, we were amongst an inaugural cohort to have our model results officially graded and certified by IMO coordinators using the same criteria as for student solutions. Recognizing the significant accomplishments of this year’s student-participants, we’re now excited to share the news of Gemini’s breakthrough performance.

Traduction :

Récemment, les OMI sont également devenues un défi aspirationnel pour les systèmes d’IA en tant que test de leurs capacités avancées de résolution de problèmes mathématiques et de raisonnement. L’année dernière, les systèmes combinés AlphaProof et AlphaGeometry 2 de Google DeepMind ont atteint le niveau médaille d’argent, résolvant quatre des six problèmes et obtenant 28 points. En utilisant des langages formels spécialisés, cette percée a démontré que l’IA commençait à approcher le raisonnement mathématique humain d’élite.

Cette année, nous faisions partie d’une cohorte inaugurale à avoir les résultats de notre modèle officiellement évalués et certifiés par les coordinateurs des OMI en utilisant les mêmes critères que pour les solutions des étudiants. Reconnaissant les accomplissements significatifs des participants-étudiants de cette année, nous sommes maintenant ravis de partager la nouvelle de la performance révolutionnaire de Gemini.

Celle de OpenAI :

I’m excited to share that our latest @OpenAI experimental reasoning LLM has achieved a longstanding grand challenge in AI: gold medal-level performance on the world’s most prestigious math competition—the International Math Olympiad (IMO).

We evaluated our models on the 2025 IMO problems under the same rules as human contestants: two 4.5 hour exam sessions, no tools or internet, reading the official problem statements, and writing natural language proofs.

Traduction :

Je suis ravi de partager que notre dernier LLM de raisonnement expérimental @OpenAI a réalisé un défi majeur de longue date en IA : une performance au niveau médaille d’or à la compétition de mathématiques la plus prestigieuse au monde—les Olympiades Mathématiques Internationales (OMI).

Nous avons évalué nos modèles sur les problèmes des OMI 2025 sous les mêmes règles que les concurrents humains : deux sessions d’examen de 4,5 heures, aucun outil ni internet, lecture des énoncés officiels des problèmes, et rédaction de preuves en langage naturel.

Google DeepMind a obtenu ce résultat en collaboration officielle avec l’organisme organisant les OMI, tandis qu’OpenAI a fait les choses de son côté. Ce résultat a surpris la plupart des observateurs :

Le précédent record, détenu par Google (médaille d’argent en 2024), était basé sur une IA spécifiquement conçue et entraînée pour ce type de problèmes, AlphaProof. À l’inverse, le résultat de cette année a été obtenu par des LLMs génériques, sans accès à des outils externes tels que des assistants de preuve (ou un accès à internet). Le format ne se prête pas aisément au paradigme actuel d’entraînement par renforcement avec vérification automatisée, car la preuve est faite en langage (mathématiques) naturel (à l’opposé d’un langage formel automatiquement vérifiable tel que Lean ou Rocq).

Ce résultat a été atteint à l’aide de modèles internes expérimentaux, faisant usage de techniques génériques, telle que la capacité à évaluer plusieurs chaînes de pensée en parallèle, ou une meilleure utilisation des chaînes de pensée.

Terence Tao nous donne quelques raisons de tempérer ce résultat :

But consider what happens to the difficulty level of the Olympiad if we alter the format in various ways, such as the following:

  1. One gives the students several days to complete each question, rather than four and half hours for three questions. (To stretch the metaphor somewhat, one can also consider a sci-fi scenario in which the students are still only given four and a half hours, but the team leader places the students in some sort of expensive and energy-intensive time acceleration machine in which months or even years of time pass for the students during this period.)
  2. Before the exam starts, the team leader rewrites the questions in a format that the students find easier to work with.
  3. The team leader gives the students unlimited access to calculators, computer algebra packages, formal proof assistants, textbooks, or the ability to search the internet.
  4. The team leader has the six student team work on the same problem simultaneously, communicating with each other on their partial progress and reported dead ends.
  5. The team leader gives the students prompts in the direction of favorable approaches, and intervenes if one of the students is spending too much time on a direction that they know to be unlikely to succeed.
  6. Each of the six students on the team submit solutions to the team leader, who then selects only the "best" solution for each question to submit to the competition, discarding the rest.
  7. If none of the students on the team obtains a satisfactory solution, the team leader does not submit any solution at all, and silently withdraws from the competition without their participation ever being noted.

Traduction :

Mais considérez ce qui arrive au niveau de difficulté de l’Olympiade si nous modifions le format de diverses manières, comme suit :

  1. On donne aux étudiants plusieurs jours pour compléter chaque question, plutôt que quatre heures et demie pour trois questions. (Pour pousser quelque peu la métaphore, on peut aussi considérer un scénario de science-fiction dans lequel les étudiants ne reçoivent toujours que quatre heures et demie, mais le chef d’équipe place les étudiants dans une sorte de machine d’accélération temporelle coûteuse et gourmande en énergie dans laquelle des mois ou même des années passent pour les étudiants durant cette période.)
  2. Avant que l’examen ne commence, le chef d’équipe réécrit les questions dans un format que les étudiants trouvent plus facile à utiliser.
  3. Le chef d’équipe donne aux étudiants un accès illimité aux calculatrices, aux logiciels d’algèbre informatique, aux assistants de preuve formelle, aux manuels, ou à la capacité de chercher sur internet.
  4. Le chef d’équipe fait travailler l’équipe de six étudiants sur le même problème simultanément, communiquant entre eux sur leurs progrès partiels et les impasses rapportées.
  5. Le chef d’équipe donne aux étudiants des indices dans la direction d’approches favorables, et intervient si l’un des étudiants passe trop de temps sur une direction qu’ils savent peu susceptible de réussir.
  6. Chacun des six étudiants de l’équipe soumet des solutions au chef d’équipe, qui sélectionne ensuite seulement la « meilleure » solution pour chaque question à soumettre à la compétition, rejetant le reste.
  7. Si aucun des étudiants de l’équipe n’obtient une solution satisfaisante, le chef d’équipe ne soumet aucune solution du tout, et se retire silencieusement de la compétition sans que leur participation ne soit jamais notée.

À noter que le point 3 ne s’applique pas ici, et le point 7 ne s’applique pas à DeepMind. Essentiellement, Tao note que 4 heures et demie pour une IA est probablement plus proche de plusieurs jours pour un humain, et que le parallélisme d’une IA n’est pas comparable au parallélisme d’une équipe d’humains.

En vrac

Un nouveau candidat entre dans l’arène, Kimi K2, par Moonshot AI. Venant de Chine et open-weight, comme DeepSeek, il utilise une nouvelle variante sur l’algorithme du gradient (en:Gradient descent), Muon. Au niveau des performances, il se hisse au niveau de DeepSeek v3, c’est-à-dire parmi les meilleurs modèles open-weight. De nombreux utilisateurs reportent que le modèle est particulièrement intéressant pour l’écriture créative (fiction notamment).

Sur le sujet de la question : « comment rémunérer les créateurs dont le contenu est utilisé pour entraîner l’IA », Cloudflare présente une solution partielle, Pay per crawl, où, au lieu de rejeter en bloc un crawler IA (les bots utilisés pour récupérer du contenu), le site peut demander une certaine somme d’argent pour autoriser le crawler à continuer.

Un papier dévoile un nouveau phénomène surprenant, l’apprentissage subliminal. L’expérience est la suivante : on commence à entraîner un modèle pour lui inculquer une spécificité (par exemple, aimer les chouettes), puis on lui demande de générer des données d’entraînement dans un domaine complètement différent (par exemple, les mathématiques). Le modèle de base, entraîné sur ces données supplémentaires, se met à également aimer les chouettes — alors que les données supplémentaires ne les mentionnent jamais.

Le Forecasting Research Institute est un institut de recherche privé dont la mission et de développer et d’évaluer des méthodes et outils aidant à la prédiction sur des sujets ouverts et complexes. Ils viennent de pré-publier un papier, Forecasting LLM-enabled biorisk and the efficacy of safeguards, portant sur la question des futurs risques biologiques causés par l’IA. Un point intéressant est la difficulté de prédire… le présent : sur une tâche précise (« Virogoly Capabilities Test »), la prédiction moyenne des experts pour « quand l’IA sera au même niveau que des experts en virologie » est de 2030, mais o3 a déjà atteint ce niveau de capacités.

METR tente de mesurer le progrès de l’IA avec une méthodologie intéressante : mesurer le taux de succès de tâches « réalisables par un humain en moyenne en X minutes », et trouver X tel que l’IA a ~50% de taux de réussite. Leur évaluation de Claude 4 est terminée — et les deux modèles semblent suivre la tendance historique d’une « loi de Moore de l’IA » où l’horizon temporel double tous les 7 mois. Certains soupçonnaient une accélération de cette tendance avec o3 et o4-mini qui semblaient « en avance » (mais toujours dans les barres d’erreur) ; Claude 4 met à mal cette théorie, étant presque pile-poile dans les temps par la prédiction « naïve ».

Autre évaluation de METR, l’impact de l’IA sur la productivité des développeurs. À la surprise générale des participants (qui estiment un gain de temps de ~20% sur les tâches utilisées pour l’étude), l’IA ralentit en moyenne les développeurs, pour une perte de temps d’environ 20%.

Évaluation de l’IA, sur une tâche de comptabilité cette fois. Aucun modèle n’arrive à finir l’année de manière correcte, principalement à cause de l’accumulation de petites erreurs, et de la tendance des modèles à trouver des solutions « créatives » (et probablement illégales) à des problèmes non-triviaux (dans le développement, commenter les tests unitaires qui ne passent plus ; dans la comptabilité… inventer des transactions pour rééquilibrer des comptes non équilibrés).

À quel point les progrès de l’IA la rendent plus persuasive ? Un papier étudie cette question. Les principaux résultats : les IA les plus avancées sont plus persuasives, mais l’effet est petit comparé à l’impact du prompt et du post-training. Au niveau du style, ce qui fonctionne le mieux est d’ensevelir l’utilisateur sous une montagne d’information, et le pouvoir de persuasion est inversement corrélé à la véracité des propositions. Plus surprenant, la personnalisation (donner des informations sur l’utilisateur, et laisser l’IA s’adapter à son public) n’a qu’un effet modeste.

Ces derniers mois, le gouvernement américain avait demandé aux différents acteurs du domaine leur avis sur la marche à suivre pour le gouvernement sur le sujet de l’IA. Le résultat est là, sous la forme d’un plan. Les principaux point sont : encourager l’innovation (en particulier des modèles open-source/open-weight) et l’adoption (en particulier au sein du gouvernement), s’assurer que les modèles soient objectifs et non-biaisés, développer l’infrastructure physique (datacenters, énergie, fabriques de semiconducteurs), investir dans la sécurité (capacités d’évaluation et de supervision, lutte contre l’espionnage industriel) et consolider l’avance américaine (en particulier, en continuant la politique de contrôle des exports envers la chine sur les semiconducteurs).

Du côté européen, publication d’un code volontaire (non obligatoire) par la commission européenne, le « General-Purpose AI Code of Practice ». Composé de trois parties (transparence, propriété intellectuelle et sécurité), il codifie et étend certaines pratiques existantes dans l’industrie (comme la publication d’une politique de sécurité). Accueilli favorablement, il a été ratifié par la plupart des acteurs du domaine, y compris les principaux Anthropic/OpenAI/Google. Deux exceptions, xAI, qui n’accepte que la partie « sécurité », et Meta, qui rejette la totalité.

OpenAI publie ChatGPT Agent, essentiellement le successeur de Operator, où l’IA a le contrôle d’un navigateur pour effectuer des tâches sur internet. Peu de retours positifs en pratique sur ce mode. Il est à noter que ce mode a conduit OpenAI à mettre en place ses mitigations pour les risques « élevé » en biologie/chimie, par mesure de précaution (tout comme Anthropic l’avait fait pour la publication de Claude Opus 4).

Il est bien connu que les modèles, déployés en tant que chatbots, sont tous vulnérables aux jailbreak. À quel point cela généralise-t-il dans le contexte d’un agent ? Pour y répondre, Gray Swan a organisé une compétition, où 22 agents IA ont déployés pour faire office de cible contre des attaquants humains. Tous les modèles ont été attaqués avec succès, le taux de réussite d’une attaque étant de 1.47% pour le modèle le plus sûr.

À quel point l’IA représente de manière précise ce qu’elle est supposé modélisée, dans ses mécanismes internes ? Un papier étudie la question en entraînant une (petite) IA spécialisée sur différentes tâches simples (telles que prédire les trajectoires des corps célestes) puis en extrayant le modèle interne appris. Sur la plupart des tâches, l’IA échoue à apprendre la « véritable règle » (par exemple la loi de Newton).

Dans certains cas, allouer plus de ressources à l’IA (sous la forme de chaînes de pensée plus longues) conduit à une baisse de performances.

Une crainte concernant l’IA serait sa propension à perpétuer des stéréotypes présents dans son corpus d’entraînement. Un papier étudie cette question, et trouve que l’IA, mise dans un scénario d’embauche, discrimine… contre les hommes blancs : « When these biases emerge, they consistently favor Black over White candidates and female over male candidates across all tested models and scenarios ». De manière intéressante, la chaîne de pensée n’offre aucune indication de discrimination.

Un sondage sur l’utilisation de l’IA en tant que compagnon/confident par les adolescents.

Un retour d’expérience sur l’utilisation de l’IA comme assistant de programmation, avec des astuces détaillées.

Anthropic, OpenAI, DeepMind et xAI gagnent chacun un contrat avec le Département de la Défense des États-Unis pour 200 millions de dollar.

Un fil rappelant les précautions à prendre sur l’utilisation de MCP.

Meta continue désespérément à essayer d’attirer des talents pour son équipe IA, sans grand succès. Dernier exemple en date, où une offre a été faite à des employés de Thinking Machines pour des montants allant de 200 millions à 1 milliard, offres toutes refusées.

Pour aller plus loin

Non couvert ici :

En audio/vidéo (en anglais) :

Commentaires : voir le flux Atom ouvrir dans le navigateur

  •  

Aéronautique : l’étoffe du net zéro ?

Longtemps admirée, aujourd’hui sous le feu des critiques, l’aviation commerciale incarne mieux que tout autre secteur le dilemme entre liberté de mouvement et urgence climatique. Elle doit se réinventer pour continuer à relier le monde sans le réchauffer. Le secteur s’est engagé à atteindre la neutralité carbone d’ici 2050 : promesse crédible ou techno-solutionnisme inconséquent ?

1 000 entreprises, 300 000 emplois (directs et induits), 77,7 milliards € de chiffre d’affaires… si la France représente moins de 4 % du trafic aérien mondial, elle concentre à elle seule 15,6 % des exportations mondiales de l’aérospatial. Pendant que les débats se focalisent sur les voyages personnels ou les jets privés, le pays dispose d’un levier bien plus stratégique : celui de sa capacité industrielle à décarboner l’aéronautique mondiale. Un enjeu économique majeur, puisque le secteur est le premier contributeur à la balance commerciale française, avec un excédent de 23,5 milliards d’euros en 2022, soit l’équivalent de 4,3 % du PIB.

Twingo vole

Imaginez : vous partez pour Le Caire en ne consommant que 2,35 litres de carburant et en émettant 59 g de CO₂ aux 100 km. L’équivalent d’un road trip à deux en Twingo… mais à 900 km/h et 10 000 mètres d’altitude.

Science-fiction ? Non. C’est déjà ce que permet un Boeing 787, en conditions optimales.

Entre 1990 et 2019 — date à laquelle le secteur aérien a été intégré aux objectifs climatiques européens — les émissions par passager-kilomètre ont chuté de plus de 50 %, grâce à des avions plus sobres, des motorisations plus efficaces et des vols mieux remplis.

Résultat : si les émissions de CO₂ de l’aviation ont doublé depuis 1990, atteignant environ 1 milliard de tonnes juste avant la crise Covid, elles ne représentent toujours que 2,5 % des émissions mondiales. En incluant les effets non-CO₂ — comme les NOx, la vapeur d’eau ou les traînées de condensation —, son impact climatique total est estimé à environ 4 % du réchauffement global.

Contrails : et si le ciel se dégageait pour l’aérien ?

J’approfondis

CO2 : Objectif nul

Le secteur aérien s’est collectivement engagé à atteindre la neutralité carbone d’ici 2050. Cet objectif, désormais partagé par l’ensemble des grandes organisations aéronautiques internationales constitue le cap structurant de la stratégie industrielle du secteur pour les 25 prochaines années.

Pour y parvenir, l’aviation mise sur trois leviers complémentaires : le déploiement des carburants durables (SAF), l’émergence de technologies de rupture, et l’optimisation des opérations au sol comme en vol. Aucun ne suffit à lui seul ; c’est leur combinaison qui rend la trajectoire crédible.

Les SAF y occupent une place centrale. Mais leur coût reste aujourd’hui très élevé et les obstacles à franchir pour leur montée en puissance demeurent considérables.

SAF : Tintin au pays de l’or vert ?

J’approfondis

En parallèle, les industriels remettent plein gaz sur les ruptures technologiques. Les efforts portent sur les turboréacteurs compatibles SAF, les avions hybrides-électriques, les structures allégées ou encore les ailes morphing, capables de modifier leur forme en vol pour gagner en efficacité énergétique. Mais c’est surtout du côté des moteurs ultra-efficients que les gains les plus rapides sont attendus. 

Le successeur de l’A320, présenté par Airbus en mars dernier, intègre la plupart de ces innovations. Cet appareil, jusqu’à 30 % plus efficient que l’A320neo, est conçu dès l’origine pour opérer à 100 % au SAF. Il doit être construit en matériaux composites allégés, avec des ailes longues et repliables supportant des moteurs sans carénage révolutionnaires. Sa mise en service est prévue à la fin des années 2030.

Le successeur de l’A320 devrait être équipé de moteurs RISE de CFM dépourvus de carénage. © CFM International

L’hydrogène liquide reste étudié comme une solution de rupture à plus long terme mais les annonces récentes d’Airbus laissent entrevoir un décalage du calendrier, avec une mise en service probablement repoussée à 2040 ou au-delà.

Le troisième levier repose sur une optimisation opérationnelle systématique : amélioration des trajectoires en vol, réduction du roulage, gestion au sol plus efficiente, avec, de plus en plus, recours à l’intelligence artificielle pour optimiser l’ensemble des opérations. 

Malgré les incertitudes — sur la disponibilité des SAF ou les percées technologiques —, l’IATA réaffirme fermement son engagement à atteindre la neutralité carbone en 2050. Le coût estimé de cette transition est colossal : 4 700 milliards de dollars, soit en moyenne 174 milliards par an. Mais dans 20 ans, les trois quarts de la flotte actuelle auront probablement été remplacés.

Cet effort s’inscrit dans le cadre plus large du scénario Net Zéro porté par l’Agence internationale de l’énergie (AIE), qui vise à contenir les émissions de l’aviation sous 1 000 Mt de CO₂ dès 2030. Un cap ambitieux, mais atteignable à condition d’agir vite — car le trafic, lui, continue de croître : 8,2 milliards de passagers sont attendus à cette échéance.

Report moral, report modal

Reste une question sensible : faut-il freiner cette croissance ? L’idée d’imposer interdictions, quotas ou fiscalité punitive revient régulièrement dans le débat. Pourtant, l’aviation commerciale profite à tous.

Depuis les années 1960, le nombre de passagers a été multiplié par 45 — de 100 millions à plus de 4,5 milliards. Ce ne sont pas « les mêmes qui voyagent plus », ce sont davantage de personnes qui accèdent au ciel. Et c’est justement ce succès que certains lui reprochent.

Ceux qui dénoncent le tourisme de masse — dont les impacts, bien réels, méritent d’être régulés — ou qui prônent la sobriété pour les autres, tout en affichant le bilan carbone d’une centrale à charbon allemande, sont souvent les premiers à s’exempter des efforts qu’ils prétendent imposer à tous. Pour aller voir pousser un arbre en Guyane. Ou pour assister à une conférence… sur le climat. Le tout en s’estimant exemplaires, car, n’est-ce pas, ils ne prennent plus l’avion… entre deux vols.

Faut-il au moins renoncer à l’avion sur les trajets courts ? Pas forcément. Le train peut être une excellente alternative — à condition d’être abordable, ponctuel et rapide. Mais il ne capte pas toujours les passagers de l’avion : une étude Carbone 4 pour le SNPL montre que, faute d’offre compétitive, beaucoup se rabattent sur la voiture… au risque d’aggraver le bilan carbone. 

Un turbo pour l’économie

L’aéronautique est d’abord un puissant vecteur d’émancipation. Elle relie les familles, les cultures, incarne la liberté, le progrès, le lien humain — et, pour beaucoup, elle fait encore rêver. On insiste souvent sur ses externalités négatives, en oubliant que sa balance globale reste très positive, par tout ce qu’elle rend possible.

Le transport aérien est notamment un moteur essentiel de l’économie mondiale. En 2019, l’aérien représentait près de 35 % de la valeur des échanges mondiaux, tout en ne transportant que moins de 1 % des volumes. Les marchandises acheminées par avion — pour une valeur estimée entre 6 000 et 7 000 milliards de dollars par an — concernent principalement des produits à forte valeur ajoutée ou sensibles au délai : médicaments, électronique, luxe, composants industriels. Par ailleurs, la moitié des touristes internationaux voyagent par avion, générant chaque année plus de 1 000 milliards dollars de recettes. De nombreuses économies émergentes ou insulaires en dépendent fortement.

Le Covid a été un stress test grandeur nature de ce que représente l’aviation. En 2020, le trafic passager s’est effondré de 66 %, provoquant des pertes massives pour l’ensemble de la filière (‑244 milliards de dollars cette année-là, ‑146 milliards en 2021). Pour le tourisme mondial, le choc a été brutal : les arrivées internationales ont chuté de 65 à 70 %, entraînant jusqu’à 1 200 milliards de dollars de pertes de recettes. Dans certaines régions, les revenus liés au transport aérien se sont effondrés de 90 %. Reconfiner volontairement ce secteur, ce serait non seulement renoncer à ses services rendus, mais aussi l’empêcher de financer sa propre transition.

Rêves de gosse

L’aéronautique n’est pas parfaite. Mais elle agit, elle innove et progresse vite. La saborder au nom d’une idéologie punitive serait une erreur historique. Car la véritable écologie, c’est celle qui améliore, et qui rend les progrès accessibles à tous.

Rien n’est gagné pour autant. Les défis sont immenses. La trajectoire Net Zéro exige des investissements massifs, des ruptures technologiques et industrielles profondes, et une mobilisation sans faille de tout un écosystème. Mais la feuille de route est claire.

“L’aérien ne doit plus faire partie des rêves d’enfants aujourd’hui” affirmait Léonore Moncond’huy, maire écologiste de Poitiers, en supprimant les aides municipales aux aéroclubs locaux. Pourtant, c’est ainsi que la France peut faire sa part pour le monde : en permettant aux enfants de continuer à rêver. Pour que demain, ces rêves de gosses se transforment en solutions d’ingénieurs.

L’article Aéronautique : l’étoffe du net zéro ? est apparu en premier sur Les Électrons Libres.

  •  

Peut-on réellement se passer de la clim ?

Peut-on construire, sans clim, des bâtiments frais en toute circonstance ? C’est ce que semblent croire architectes, constructeurs et pouvoirs publics, qui, des gares aux hôpitaux, multiplient les projets climophobes. Mais est-ce au moins physiquement possible ?

15 000 morts en 2003. Près de 17 000 depuis, selon Santé publique France et l’INSEE. La chaleur, comme le froid, tuent. Dans une France encore mal préparée au réchauffement climatique et à la multiplication des canicules, la climatisation apparaît de plus en plus comme un outil essentiel pour préserver la santé et le confort des populations.

D’autant que notre architecture s’est historiquement — et logiquement — concentrée sur la conservation de la chaleur, pour faire face aux longs hivers qui ont rythmé notre histoire. Créer du froid est, de toute façon, bien plus complexe : les cycles frigorifiques ne datent que de 1834 (brevet de Perkins), et les premiers climatiseurs n’ont vu le jour qu’au début du XXe siècle en Occident.

Aujourd’hui, s’ils fleurissent un peu partout dans le monde, ils restent encore peu répandus chez nous. Et sont souvent méprisés, au motif que des solutions plus « vertueuses », souvent inspirées par un passé marqué du sceau du bon sens, suffiraient. Mais est-ce vraiment le cas ?

Des maisons passives pas si passives que ça

Les maisons dites « passives » sont souvent les premières pistes évoquées. Plus haut standard thermique des bâtiments, leur principe repose sur deux piliers : une isolation importante, pour limiter au maximum les pertes de chaleur comme de fraîcheur, et une captation optimale des apports solaires gratuits, notamment grâce à de larges vitrages orientés plein sud. Ces gains substantiels (plusieurs kW) s’additionnent à la chaleur dégagée par les occupants et les appareils ménagers, permettant ainsi de réduire drastiquement le besoin de chauffage, voire de s’en passer complètement (d’où le terme passif).

Mais ces maisons ont des jokers, honteusement cachés dans leur manche : sèche-serviettes, petits radiateurs soufflants, poêle à bois. Autant de chauffages d’appoint, tout sauf passifs, qui prennent le relais lors des grands froids. Mais, si ces maisons ont besoin de chauffage d’appoint lors des épisodes frigorifiants, pourquoi n’en serait-il pas de même pour contrer la chaleur à l’occasion des canicules ? Comment, à fortiori, des logements standards – près de 99 % du parc immobilier – pourraient-ils se passer de systèmes de refroidissement ponctuels dans de telles circonstances? Car il est, en vérité, bien plus simple de se protéger du froid que de résister à une canicule.

Éviter la chaleur ? Une affaire complexe.

On l’a vu, les conceptions passives reposent sur l’isolation et l’exploitation du soleil hivernal. Or si une bonne isolation contribue indéniablement à conserver la fraîcheur en été, un problème fondamental demeure : le soleil ne peut en aucun cas apporter de la fraîcheur. Et si les protections solaires — casquettes, volets, stores — permettent de limiter la casse, elles ne produisent aucune fraîcheur. Pire : même occultées, nos fenêtres restent des points faibles sur le plan thermique. Enfin, les apports de chaleur internes, si précieux en hiver, deviennent des ennemis qui font grimper le thermomètre …

Hors rénovation, une seule solution, la surventilation !

En dehors de lourds travaux de rénovation, la seule stratégie passive de refroidissement reste la surventilation nocturne. Elle consiste à ouvrir toutes les fenêtres quand l’air est plus frais. Or, cette méthode présente aussi des limites. Lors d’une véritable canicule, les températures nocturnes ne chutent pas suffisamment pour permettre un refroidissement efficace. C’est d’ailleurs l’une des définitions mêmes du phénomène : des nuits chaudes, souvent accompagnées de vents faibles liés à l’anticyclone qui les provoque.

Elle bute également sur des détails pratiques : qui a envie de se réveiller au milieu de la nuit pour tout ouvrir… et laisser entrer des visiteurs indésirables — chauves-souris, moustiques, rats, cambrioleurs — ou des nuisances aussi pénibles, comme le bruit, la lumière ou la pollution ? D’autant que dans de nombreux logements non traversants, la ventilation naturelle est assez peu efficace.

D’autres alternatives ? Oui, mais… coûteuses ou non exportables.

J’approfondis

L’électricité, c’est mal…

Malgré toutes ces limites, les solutions passives sont promues par le législateur au détriment de la climatisation. Celle-ci est en effet perçue comme problématique en raison de sa consommation d’électricité. « L’énergie est notre avenir, économisons-la ! » : la sobriété énergétique est depuis longtemps un objectif central des politiques publiques, au point d’imposer un slogan à tous les fournisseurs d’énergie, décarbonée ou non.

Ainsi, les calculs réglementaires affublent toute consommation d’électricité d’un coefficient 2,3 (1 kWh d’électricité consommé est comptabilisé comme 2,3 kWh) et reposent sur des fichiers météo obsolètes qui sous-estiment les futures canicules, en plus d’idéaliser le comportement des usagers, chez qui les volets ne sont pas toujours fermés, et la surventilation nocturne pas systématique…

Conséquence : même les bâtiments neufs, censés répondre aux exigences du futur, sont mal préparés à des pics de chaleur qui deviennent pourtant la norme.

Quand le réel rattrape la théorie

Les exemples de bâtiments modernes, conçus ou rénovés selon les normes passives, qui deviennent des étuves en été, sont malheureusement légion : les locaux du journal Libération atteignent les 34°C, la mezzanine de la gare de Nantes est fermée à plus de 40°C… Et on peut craindre le pire pour le futur CHU de la métropole ligérienne, où la clim est réservée à une poignée de salles critiques.

Vaut-il mieux investir 100 000 euros dans l’isolation complète d’une maison, sans réelle garantie de confort en cas de canicule, ou installer une climatisation ciblée — par exemple dans les chambres — pour moins de 10 000 euros, afin d’assurer un sommeil réparateur et un refuge efficace contre les chaleurs extrêmes ? 

Car la chaleur tue. Depuis la terrible canicule de 2003, on sait qu’elle peut provoquer des hécatombes. 32 000 vies qui auraient pu être épargnées avec des bâtiments adaptés, même si ce décompte macabre concerne aussi certains travailleurs exposés à d’indécentes chaleurs sur des chantiers. 

La clim n’est pas un luxe

Se protéger d’une chaleur potentiellement mortelle est bien plus difficile que de faire face aux rigueurs de l’hiver. Et les solutions passives, souvent coûteuses et complexes à mettre en œuvre, ne suffisent pas.

Dans la France d’hier, où les canicules restaient rares et brèves, il pouvait sembler acceptable de se passer de systèmes de refroidissement. Mais le réchauffement climatique change complètement la donne. Il impose un nouveau paradigme : celui où la climatisation devient une nécessité.

Aussi imparfaite soit-elle, elle reste aujourd’hui la solution la plus efficace. Loin d’être l’horreur écologique dénoncée par certains, elle constitue un outil de santé publique face à l’augmentation des températures extrêmes.

Dans un pays où la production d’électricité est en grande partie décarbonée, surtout en été grâce au solaire et au nucléaire, considérer la climatisation comme un tabou est une posture qui ne résiste plus à la réalité. C’est un progrès technique devenu indispensable.

L’article Peut-on réellement se passer de la clim ? est apparu en premier sur Les Électrons Libres.

  •