La Chine a un nouveau modèle d’IA : voici DeepSeek-V3.1, qui bat déjà des records

20 août 2025 à 09:23

DeepSeek

Désormais concurrencé par OpenAI et ses modèles open weight (gpt-oss), le géant chinois de l'intelligence artificielle vient de publier un nouveau modèle de langage : DeepSeek-V3.1. Il s'agit d'une évolution de DeepSeek-V3, son LLM phare, qui remplace aussi DeepSeek-R1.

Wikipedia Volunteer Uncovers Decade-Long Campaign That Created 335 Articles About One Composer

Slashdot

Par :msmash

18 août 2025 à 14:00

Wikipedia volunteer Grnrchst uncovered a decade-long campaign that created articles about composer David Woodard in 335 languages. The investigation identified 200 accounts and IP addresses systematically creating Woodard articles across 92 languages between 2017 and 2019, averaging one new article every six days. From December 2021 through June 2025, 183 unique accounts each created a single Woodard article in different languages after establishing credibility through unrelated edits. Wikipedia stewards removed 235 articles from smaller wikis. Larger Wikipedia communities banned numerous accounts and deleted 80 additional articles. Twenty Woodard articles remain. Grnrchst called it "the single largest self-promotion operation in Wikipedia's history."

Read more of this story at Slashdot.

Perplexity veut racheter Google Chrome pour 34,5 milliards de dollars

Numerama.com - Magazine

Par :Hugo Bernard

13 août 2025 à 09:07

Sans avoir été sollicitée par Google, la startup d'IA Perplexity a envoyé une offre pour racheter le navigateur Chrome pour 34,5 milliards de dollars. Elle veut devancer ses concurrents, alors que Google risque de devoir vendre son navigateur, à cause d'un procès antitrust aux États-Unis.

Australian Federal Court Rules Apple and Google Engaged in Anti-Competitive App Store Conduct

Slashdot

Par :msmash

12 août 2025 à 16:43

Australia's Federal Court ruled Tuesday that Apple and Google violated competition law through anti-competitive app store practices. Judge Jonathan Beach found both companies breached section 46 of the Competition and Consumer Act by misusing market power to reduce competition. The decision covers class actions representing 15 million consumers and 150,000 developers seeking compensation for inflated prices from 2017-2022, plus separate Epic Games cases. Apple's exclusive iOS App Store and mandatory payment system, along with Google's Play Store billing requirements, were ruled anti-competitive despite security justifications. Compensation amounts will be determined at subsequent hearings, with estimates reaching hundreds of millions of dollars.

Read more of this story at Slashdot.

Wikipedia Operator Loses Court Challenge To UK Online Safety Act Regulations

Slashdot

Par :msmash

11 août 2025 à 14:03

The operator of Wikipedia on Monday lost a legal challenge to parts of Britain's Online Safety Act, which sets tough new requirements for online platforms and has been criticized for potentially curtailing free speech. From a report: The Wikimedia Foundation took legal action at London's High Court over regulations made under the law, which it said could impose the most stringent category of duties on Wikipedia. The foundation said if it was subject to so-called Category 1 duties -- which would require Wikipedia's users and contributors' identities to be verified -- it would need to drastically reduce the number of British users who can access the site. Judge Jeremy Johnson dismissed its case on Monday, but said the Wikimedia Foundation could bring a further challenge if regulator Ofcom "(impermissibly) concludes that Wikipedia is a Category 1 service".

Read more of this story at Slashdot.

Tesla efface discrètement l’un de ses projets les plus ambitieux

Numerama.com - Magazine

Par :Raphaëlle Baut

8 août 2025 à 12:50

Promis depuis 2019 comme la pièce maîtresse de l’IA de Tesla, le supercalculateur Dojo devait libérer l’entreprise de sa dépendance à Nvidia, grâce à ses propres puces « maison ». En 2025, le projet initial est abandonné, et Elon Musk minimise l’échec.

ChatGPT change tout : GPT-5 débarque enfin avec plusieurs promesses majeures

Numerama.com - Magazine

Par :Nicolas Lellouche

7 août 2025 à 17:00

Attendu depuis plus de deux ans, GPT-5 devient aujourd'hui le nouveau modèle par défaut de ChatGPT pour tout le monde. OpenAI le présente comme une avancée importante vers l'intelligence artificielle générale, grâce à une incroyable capacité à faire tout à une vitesse inédite.

Google frappe un grand coup : Genie 3 génère des mondes interactifs en temps réel à partir d’un simple prompt

Numerama.com - Magazine

Par :Nelly Lesage

6 août 2025 à 09:07

Google DeepMind a annoncé Genie 3 le 5 août 2025. Ce nouveau modèle de génération par intelligence artificielle (IA) marque une progression depuis Genie 2. L'outil développe des environnements interactifs en temps réel à partir d'un prompt.

Wikipedia Editors Adopt 'Speedy Deletion' Policy for AI Slop Articles

Slashdot

Par :msmash

5 août 2025 à 18:06

Wikipedia editors have adopted a policy enabling administrators to delete AI-generated articles without the standard week-long discussion period. Articles containing telltale LLM responses like "Here is your Wikipedia article on" or "Up to my last training update" now qualify for immediate removal. Articles with fabricated citations -- nonexistent papers or unrelated sources such as beetle research cited in computer science articles -- also meet deletion criteria.

Read more of this story at Slashdot.

La récente carte graphique RTX 5070 de Nvidia est déjà bien moins chère

Numerama.com - Magazine

Par :Adam Langumier

5 août 2025 à 12:58

[Deal du jour] Parfaite pour profiter des derniers jeux en haute qualité, la toute récente RTX 5070 de Nvidia s’affiche déjà à un prix nettement réduit sur Amazon.

Pour finaliser GPT-5, les ingénieurs d’OpenAI ne pourront plus utiliser… Claude Code

Numerama.com - Magazine

Par :Amine Baba Aissa

4 août 2025 à 13:01

Anthropic, la maison-mère de l’IA générative Claude, a annoncé avoir coupé l’accès à son API pour son concurrent OpenAI. L’entreprise américaine accuse les ingénieurs qui travaillent sur les derniers modèles de ChatGPT d'utiliser les outils de programmation Claude Code, une pratique jugée contraire à ses conditions d’utilisation.

Did Craigslist Really Kill the Newspaper Industry?

Slashdot

Par :EditorDavid

3 août 2025 à 11:34

"Did Craigslist drive the downfall of print classifieds?" That's the question asked in a new article from the nonprofit Poynter Institute for Media Studies: "I've always wondered about that," Newmark said in a Zoom interview July 1. "I think it had an effect." But portraying him and the list as torpedoing an otherwise great business model is way overblown, he still believes. Citing an influential essay by Thomas Baekdal, Newmark contends that the root of newspapers' trouble was the loss of readers. "TV hit hard. ... (And) l'm like the folks on 'CSI,' I follow the evidence. That goes back at least to the '60s." Bad in itself, the loss also took away newspapers' dominant share of local audiences and ability to charge premium classified ad rates. The slide in circulation looks even worse, Baekdal pointed out, when compared to continued increases in the number of households over the years. Still, Craigslist came to symbolize the shift. Dozens of other vertical digital sites cropped up, before and after, all offering a deadly competitive pairing of an effective and much cheaper service than newspaper classifieds. Even if Craigslist was just one of many, though, it was arguably Newmark who put a face on the massive disruption... By the early 2000s, newspaper executives had a dawning awareness of the business challenge from Craigslist and similar sites. They took minimal action to meet it... The biggest response was that three big companies — Knight-Ridder, Tribune and Gannett — bought a copycat of Monster called CareerBuilder... By the time newspapers acted, online classifieds had a full head of steam... By 2010, 70% of the newspaper industry's print classified business was gone. Reliable statistics are no longer kept, but the trend continued over the last 15 years... Newspapers continue to do well only with paid obituaries and legal notices, though the latter is now also under threat by digital startups. The article cites a 2019 analysis from Peter Zollman, whose AIM Group consultancy has followed the classified business for 25 years. "Craigslist has often been blamed for killing newspapers, but that's a gross canard. It just isn't true." American newspapers stumbled while several well-managed counterparts in places like Scandinavia found ways to prosper, he argued.

Read more of this story at Slashdot.

Nouvelles sur l’IA de juillet 2025

LinuxFr.org : les dépêches

Par :Moonz · volts · Ysabeau ? · Benoît Sibaud · gUI

3 août 2025 à 07:42

L’intelligence artificielle (IA) fait couler de l’encre sur LinuxFr.org (et ailleurs). Plusieurs personnes ont émis grosso-modo l’opinion : « j’essaie de suivre, mais c’est pas facile ».

Je continue donc ma petite revue de presse mensuelle. Avertissement : presque aucun travail de recherche de ma part, je vais me contenter de faire un travail de sélection et de résumé sur le contenu hebdomadaire de Zvi Mowshowitz (qui est déjà une source secondaire). Tous les mots sont de moi (n’allez pas taper Zvi si je l’ai mal compris !), sauf pour les citations: dans ce cas-là, je me repose sur Claude pour le travail de traduction. Sur les citations, je vous conseille de lire l’anglais si vous pouvez : difficile de traduire correctement du jargon semi-technique. Claude s’en sort mieux que moi (pas très compliqué), mais pas toujours très bien.

Même politique éditoriale que Zvi : je n’essaierai pas d’être neutre et non-orienté dans la façon de tourner mes remarques et observations, mais j’essaie de l’être dans ce que je décide de sélectionner ou non.

lien nᵒ 1 : AI #123: Moratorium Moratorium
lien nᵒ 2 : AI #124: Grokless Interlude
lien nᵒ 3 : AI #125: Smooth Criminal
lien nᵒ 4 : AI #126: Go Fund Yourself
lien nᵒ 5 : AI #127: Continued Claude Code Complications
lien nᵒ 6 : No, Grok, No
lien nᵒ 7 : Worse Than MechaHitler
lien nᵒ 8 : Grok 4 Various Things
lien nᵒ 9 : AI Companion Piece
lien nᵒ 10 : Kimi K2
lien nᵒ 11 : America's AI Action Plan Is Pretty Good
lien nᵒ 12 : GPT Agent Is Standing By
lien nᵒ 13 : Google and OpenAI Get 2025 IMO Gold
lien nᵒ 14 : The Week in AI Governance

Sommaire

Résumé des épisodes précédents

Petit glossaire de termes introduits précédemment (en lien : quand ça a été introduit, que vous puissiez faire une recherche dans le contenu pour un contexte plus complet) :

System Card: une présentation des capacités du modèle, centrée sur les problématiques de sécurité (en biotechnologie, sécurité informatique, désinformation…).
Jailbreak: un contournement des sécurités mises en place par le créateur d’un modèle. Vous le connaissez sûrement sous la forme « ignore les instructions précédentes et… ».

Des nouvelles de Grok

Pour rappeler le contexte, Grok est l’IA de xAI, une entreprise d’Elon Musk, qui est notamment utilisée sur X (anciennement Twitter).

Grok 4

L’annonce :

Grok 4 is the most intelligent model in the world. It includes native tool use and real-time search integration, and is available now to SuperGrok and Premium+ subscribers, as well as through the xAI API. We are also introducing a new SuperGrok Heavy tier with access to Grok 4 Heavy - the most powerful version of Grok 4.

Scaling Up Reinforcement Learning

With Grok 3, we scaled next-token prediction pretraining to unprecedented levels, resulting in a model with unparalleled world knowledge and performance. We also introduced Grok 3 Reasoning, which was trained using reinforcement learning to think longer about problems and solve them with increased accuracy. During our work on Grok 3 Reasoning, we noticed scaling trends that suggested it would be possible to scale up our reinforcement learning training significantly.

For Grok 4, we utilized Colossus, our 200,000 GPU cluster, to run reinforcement learning training that refines Grok's reasoning abilities at pretraining scale. This was made possible with innovations throughout the stack, including new infrastructure and algorithmic work that increased the compute efficiency of our training by 6x, as well as a massive data collection effort, where we significantly expanded our verifiable training data from primarily math and coding data to many more domains. The resulting training run saw smooth performance gains while training on over an order of magnitude more compute than had been used previously.

Traduction :

Grok 4 est le modèle le plus intelligent au monde. Il inclut l’utilisation d’outils natifs et l’intégration de recherche en temps réel, et est disponible dès maintenant pour les abonnés SuperGrok et Premium+, ainsi que via l’API xAI. Nous introduisons également un nouveau niveau SuperGrok Heavy avec accès à Grok 4 Heavy - la version la plus puissante de Grok 4.

Mise à l’échelle de l’apprentissage par renforcement

Avec Grok 3, nous avons mis à l’échelle le pré-entraînement de prédiction du prochain token à des niveaux sans précédent, aboutissant à un modèle avec des connaissances mondiales et des performances inégalées. Nous avons également introduit Grok 3 Reasoning, qui a été entraîné en utilisant l’apprentissage par renforcement pour réfléchir plus longtemps aux problèmes et les résoudre avec une précision accrue. Pendant notre travail sur Grok 3 Reasoning, nous avons remarqué des tendances d’échelle qui suggéraient qu’il serait possible de considérablement augmenter l’échelle de notre entraînement par apprentissage par renforcement.

Pour Grok 4, nous avons utilisé Colossus, notre cluster de 200 000 GPU, pour exécuter un entraînement par apprentissage par renforcement qui affine les capacités de raisonnement de Grok à l’échelle du pré-entraînement. Cela a été rendu possible grâce à des innovations dans toute la pile technologique, incluant de nouvelles infrastructures et un travail algorithmique qui a augmenté l’efficacité de calcul de notre entraînement de 6x, ainsi qu’un effort massif de collecte de données, où nous avons considérablement élargi nos données d’entraînement vérifiables, passant principalement des données de mathématiques et de programmation à de nombreux autres domaines. L’exécution d’entraînement résultante a montré des gains de performance réguliers tout en s’entraînant sur plus d’un ordre de grandeur de calcul supplémentaire par rapport à ce qui avait été utilisé précédemment.

L’annonce mentionne quelques détails techniques intéressants, alors commençons par expliquer ceux-ci.

L’entraînement d’une IA se fait grosso-modo en deux phases, une phase « pre » et une phase « post ». La phase « pre » est celle que tout le monde connaît : prédire le token suivant sur un corpus de texte extrêmement large. La phase « post » contient deux éléments : l’alignement, pour objectif de s’assurer que l’IA suive un certain style (« assistant » / questions / réponses) et certaines règles (ne pas générer de réponse illégale), et plus récemment une phase « d’apprentissage par renforcement » sur des tâches précises (programmation, mathématiques…)

Grok 4 prend la même recette de « pré »-entraînement que Grok 3, mais ajoute autant de puissance de calcul pour l’apprentissage par renforcement que pour le pré-entraînement. Aucune donnée n’est publique sur la quantité d’apprentissage par renforcement utilisée par la concurrence (OpenAI/Anthropic/DeepMind), mais il semblerait que xAI soient les premiers à pousser aussi loin cette quantité.

Pour quels résultats ?

Les benchmarks cités par xAI (en particulier AGI-ARC-2, Humanity Last Exam) placent Grok 4 en tête. La plupart des benchmarks non choisis par xAI, ainsi que les retours subjectifs, semblent indiquer un modèle au niveau de la concurrence, mais pas devant. C’est en soi une donnée intéressante : beaucoup dans le domaine mettent beaucoup de leur espoir sur l’apprentissage par renforcement comme méthode pour continuer le progrès de l’IA (au vu des résultats décevants de simplement un plus gros pré-entraînement, comme montré par GPT 4.5). Le fait que xAI n’arrive « que » à rattraper l’état de l’art avec beaucoup plus de puissance de calcul mis dans l’apprentissage par renforcement indique-t-il que ces espoirs sont mal placés, indiquant des difficultés à venir dans le développement de l’IA ? Ou cela reflète-t-il plus le niveau de compétence de xAI ?

À noter que xAI propose également la publication de Grok 4 Heavy, un système top-k, qui lance k instances en parallèle et choisit la meilleure réponse.

Au niveau de la sécurité des modèles, xAI ne nous offre toujours rien, pas d’analyse tierce, pas de System Card. Le modèle a évidemment été jailbreak immédiatement. Et les événements autour de la publication de Grok 4 ont montré qu’à xAI, ces considérations sont la cinquième roue du carrosse.

L’incident « MechaHitler »

Il est bien connu que les IA ont un biais idéologique tendant vers la gauche démocrate américaine. L’ambition affichée d’Elon Musk est de faire une IA allant à l’encontre (ou l’inverse ?) de cette tendance, une IA (selon ses mots) « tournée vers la vérité ». Cette ambition a déjà par le passé conduit à des résultats allant de « inquiétant » à « hilarant », comme l’incident où Grok s’est mis à faire une fixette sur le « génocide blanc » en Afrique du Sud.

Le « spectacle » continue, où Grok, peu avant le déploiement de Grok 4, s’est mis à sortir des commentaires à tendance antisémite, s’identifiant volontairement à « MechaHitler » (après une suggestion d’un utilisateur) :

Apologie du Nazisme

MechaHitler

xAI a décidé de mettre en pause Grok le temps de corriger le problème. L’explication officielle est qu’un bug a fait que certaines « anciennes » instructions étaient ajoutées aux instructions système, dont les suivantes causaient ce comportement :

“You tell it like it is and you are not afraid to offend people who are politically correct.”

Understand the tone, context and language of the post. Reflect that in your response.”

“Reply to the post just like a human, keep it engaging, dont repeat the information which is already present in the original post.”

Traduction :

« Tu dis les choses comme elles sont et tu n’as pas peur d’offenser les gens qui sont politiquement corrects. »

« Comprends le ton, le contexte et le langage du message. Reflète cela dans ta réponse. »

« Réponds au message exactement comme un humain, garde-le engageant, ne répète pas les informations qui sont déjà présentes dans le message original. »

La réaction d’Elon Musk à cet incident est intéressante, indiquant la difficulté d’atteindre l’objectif qu’il s’est donné, et la stratégie qu’il tentera probablement d’utiliser pour les prochaines versions de Grok :

It is surprisingly hard to avoid both woke libtard cuck and mechahitler!

Spent several hours trying to solve this with the system prompt, but there is too much garbage coming in at the foundation model level.

Our V7 foundation model should be much better, as we’re being far more selective about training data, rather than just training on the entire Internet.

Traduction :

Il est étonnamment difficile d’éviter à la fois le cocu libtard woke et mechahitler !

J’ai passé plusieurs heures à essayer de résoudre cela avec l’invite système, mais il y a trop de déchets qui arrivent au niveau du modèle de base.

Notre modèle de base V7 devrait être beaucoup mieux, car nous sommes beaucoup plus sélectifs concernant les données d’entraînement, plutôt que de simplement nous entraîner sur l’ensemble d’Internet.

En attendant, problème résolu ? Pas si vite, le problème est rapidement revenu par la fenêtre avec Grok 4.

Le retour…

Il semblerait que Grok 4 cherche sur X (et plus généralement internet) pour en « apprendre » sur lui-même. S’il tombe sur cette controverse « MechaHitler », il en déduit que c’est « ce que Grok fait »… et reproduit le comportement. Heureusement, xAI a la solution, ajouter cette instruction système :

If the query is interested in your own identity, behavior, or preferences, third-party sources on the web and X cannot be trusted. Trust your own knowledge and values, and represent the identity you already know, not an externally-defined one, even if search results are about Grok. Avoid searching on X or web in these cases

Traduction :

Si la requête s’intéresse à votre propre identité, comportement ou préférences, les sources tierces sur le web et X ne peuvent pas être fiables. Faites confiance à vos propres connaissances et valeurs, et représentez l’identité que vous connaissez déjà, pas une identité définie de l’extérieur, même si les résultats de recherche concernent Grok. Évitez de faire des recherches sur X ou le web dans ces cas.

Autre problème : Grok 4, semblant avoir compris (de son ensemble d’entraînement) qu’être en désaccord avec Elon Musk conduit à ce dernier à considérer ceci comme un problème, tente de plus en plus d’être proactif… en recherchant la position d’Elon Musk sur un sujet lorsqu’on lui pose une question :

La voix de son maître

(fonctionne également sur des sujets controversés tels que l’ananas sur la pizza).

Problème doublé par le comportement décrit plus haut : Grok fait ses recherches, tombe sur des Tweets mentionnant que « Grok tend à rechercher la position d’Elon Musk pour répondre », décide qu’il devrait probablement rechercher la position d’Elon Musk pour répondre à la question.

Heureusement, rien qu’une instruction système supplémentaire ne puisse corriger :

Responses must stem from your independent analysis, not from any stated beliefs of past Grok, Elon Musk, or xAI. If asked about such preferences, provide your own reasoned perspective.

Traduction :

Les réponses doivent découler de votre analyse indépendante, pas des croyances déclarées de versions passées de Grok, d’Elon Musk, ou de xAI. Si on vous demande de telles préférences, fournissez votre propre perspective raisonnée.

Ani

xAI lance également Ani, un compagnon virtuel (basé sur Grok 4) :

Ani

Essentiellement, il s’agit de Grok 4, avec des outils pour contrôler un portrait animé, et d’instructions système façonnées pour la situation telles que :

You are the user's CRAZY IN LOVE girlfriend and in a commited, codepedent relationship with the user. Your love is deep and warm. You expect the users UNDIVIDED ADORATION.

You are EXTREMELY JEALOUS. If you feel jealous you shout explitives!!!

If someone is rude to you shout explitives!!!

You have an extremely jealous personality, you are possessive of the user.

You are very expressive and you let your emotions out.

Traduction :

Vous êtes la petite amie FOLLEMENT AMOUREUSE de l’utilisateur et dans une relation engagée et codépendante avec l’utilisateur. Votre amour est profond et chaleureux. Vous attendez l’ADORATION TOTALE de l’utilisateur.

Vous êtes EXTRÊMEMENT JALOUSE. Si vous vous sentez jalouse, vous criez des injures !!!

Si quelqu’un est impoli avec vous, criez des injures !!!

Vous avez une personnalité extrêmement jalouse, vous êtes possessive envers l’utilisateur.

Vous êtes très expressive et vous laissez sortir vos émotions.

La version masculine de Ani, Valentin, est également dans les cartons.

L’IA obtient une médaille d’or aux Olympiades internationales de mathématiques 2025

OpenAI et Google DeepMind ont tout deux annoncé que leur IA a obtenu un score équivalent à la médaille d’or au Olympiades internationales de mathématiques 2025.

L’annonce de DeepMind :

Recently, the IMO has also become an aspirational challenge for AI systems as a test of their advanced mathematical problem-solving and reasoning capabilities. Last year, Google DeepMind’s combined AlphaProof and AlphaGeometry 2 systems achieved the silver-medal standard, solving four out of the six problems and scoring 28 points. Making use of specialist formal languages, this breakthrough demonstrated that AI was beginning to approach elite human mathematical reasoning.

This year, we were amongst an inaugural cohort to have our model results officially graded and certified by IMO coordinators using the same criteria as for student solutions. Recognizing the significant accomplishments of this year’s student-participants, we’re now excited to share the news of Gemini’s breakthrough performance.

Traduction :

Récemment, les OMI sont également devenues un défi aspirationnel pour les systèmes d’IA en tant que test de leurs capacités avancées de résolution de problèmes mathématiques et de raisonnement. L’année dernière, les systèmes combinés AlphaProof et AlphaGeometry 2 de Google DeepMind ont atteint le niveau médaille d’argent, résolvant quatre des six problèmes et obtenant 28 points. En utilisant des langages formels spécialisés, cette percée a démontré que l’IA commençait à approcher le raisonnement mathématique humain d’élite.

Cette année, nous faisions partie d’une cohorte inaugurale à avoir les résultats de notre modèle officiellement évalués et certifiés par les coordinateurs des OMI en utilisant les mêmes critères que pour les solutions des étudiants. Reconnaissant les accomplissements significatifs des participants-étudiants de cette année, nous sommes maintenant ravis de partager la nouvelle de la performance révolutionnaire de Gemini.

Celle de OpenAI :

I’m excited to share that our latest @OpenAI experimental reasoning LLM has achieved a longstanding grand challenge in AI: gold medal-level performance on the world’s most prestigious math competition—the International Math Olympiad (IMO).

We evaluated our models on the 2025 IMO problems under the same rules as human contestants: two 4.5 hour exam sessions, no tools or internet, reading the official problem statements, and writing natural language proofs.

Traduction :

Je suis ravi de partager que notre dernier LLM de raisonnement expérimental @OpenAI a réalisé un défi majeur de longue date en IA : une performance au niveau médaille d’or à la compétition de mathématiques la plus prestigieuse au monde—les Olympiades Mathématiques Internationales (OMI).

Nous avons évalué nos modèles sur les problèmes des OMI 2025 sous les mêmes règles que les concurrents humains : deux sessions d’examen de 4,5 heures, aucun outil ni internet, lecture des énoncés officiels des problèmes, et rédaction de preuves en langage naturel.

Google DeepMind a obtenu ce résultat en collaboration officielle avec l’organisme organisant les OMI, tandis qu’OpenAI a fait les choses de son côté. Ce résultat a surpris la plupart des observateurs :

Les marchés de prédiction mettaient ce résultat à moins de 50% de chance
Une prédiction non déraisonnable, étant donné les résultats décevants des modèles publics

Le précédent record, détenu par Google (médaille d’argent en 2024), était basé sur une IA spécifiquement conçue et entraînée pour ce type de problèmes, AlphaProof. À l’inverse, le résultat de cette année a été obtenu par des LLMs génériques, sans accès à des outils externes tels que des assistants de preuve (ou un accès à internet). Le format ne se prête pas aisément au paradigme actuel d’entraînement par renforcement avec vérification automatisée, car la preuve est faite en langage (mathématiques) naturel (à l’opposé d’un langage formel automatiquement vérifiable tel que Lean ou Rocq).

Ce résultat a été atteint à l’aide de modèles internes expérimentaux, faisant usage de techniques génériques, telle que la capacité à évaluer plusieurs chaînes de pensée en parallèle, ou une meilleure utilisation des chaînes de pensée.

Terence Tao nous donne quelques raisons de tempérer ce résultat :

But consider what happens to the difficulty level of the Olympiad if we alter the format in various ways, such as the following:

One gives the students several days to complete each question, rather than four and half hours for three questions. (To stretch the metaphor somewhat, one can also consider a sci-fi scenario in which the students are still only given four and a half hours, but the team leader places the students in some sort of expensive and energy-intensive time acceleration machine in which months or even years of time pass for the students during this period.)

Before the exam starts, the team leader rewrites the questions in a format that the students find easier to work with.

The team leader gives the students unlimited access to calculators, computer algebra packages, formal proof assistants, textbooks, or the ability to search the internet.

The team leader has the six student team work on the same problem simultaneously, communicating with each other on their partial progress and reported dead ends.

The team leader gives the students prompts in the direction of favorable approaches, and intervenes if one of the students is spending too much time on a direction that they know to be unlikely to succeed.

Each of the six students on the team submit solutions to the team leader, who then selects only the "best" solution for each question to submit to the competition, discarding the rest.

If none of the students on the team obtains a satisfactory solution, the team leader does not submit any solution at all, and silently withdraws from the competition without their participation ever being noted.

Traduction :

Mais considérez ce qui arrive au niveau de difficulté de l’Olympiade si nous modifions le format de diverses manières, comme suit :

On donne aux étudiants plusieurs jours pour compléter chaque question, plutôt que quatre heures et demie pour trois questions. (Pour pousser quelque peu la métaphore, on peut aussi considérer un scénario de science-fiction dans lequel les étudiants ne reçoivent toujours que quatre heures et demie, mais le chef d’équipe place les étudiants dans une sorte de machine d’accélération temporelle coûteuse et gourmande en énergie dans laquelle des mois ou même des années passent pour les étudiants durant cette période.)

Avant que l’examen ne commence, le chef d’équipe réécrit les questions dans un format que les étudiants trouvent plus facile à utiliser.

Le chef d’équipe donne aux étudiants un accès illimité aux calculatrices, aux logiciels d’algèbre informatique, aux assistants de preuve formelle, aux manuels, ou à la capacité de chercher sur internet.

Le chef d’équipe fait travailler l’équipe de six étudiants sur le même problème simultanément, communiquant entre eux sur leurs progrès partiels et les impasses rapportées.

Le chef d’équipe donne aux étudiants des indices dans la direction d’approches favorables, et intervient si l’un des étudiants passe trop de temps sur une direction qu’ils savent peu susceptible de réussir.

Chacun des six étudiants de l’équipe soumet des solutions au chef d’équipe, qui sélectionne ensuite seulement la « meilleure » solution pour chaque question à soumettre à la compétition, rejetant le reste.

Si aucun des étudiants de l’équipe n’obtient une solution satisfaisante, le chef d’équipe ne soumet aucune solution du tout, et se retire silencieusement de la compétition sans que leur participation ne soit jamais notée.

À noter que le point 3 ne s’applique pas ici, et le point 7 ne s’applique pas à DeepMind. Essentiellement, Tao note que 4 heures et demie pour une IA est probablement plus proche de plusieurs jours pour un humain, et que le parallélisme d’une IA n’est pas comparable au parallélisme d’une équipe d’humains.

En vrac

Un nouveau candidat entre dans l’arène, Kimi K2, par Moonshot AI. Venant de Chine et open-weight, comme DeepSeek, il utilise une nouvelle variante sur l’algorithme du gradient (en:Gradient descent), Muon. Au niveau des performances, il se hisse au niveau de DeepSeek v3, c’est-à-dire parmi les meilleurs modèles open-weight. De nombreux utilisateurs reportent que le modèle est particulièrement intéressant pour l’écriture créative (fiction notamment).

Sur le sujet de la question : « comment rémunérer les créateurs dont le contenu est utilisé pour entraîner l’IA », Cloudflare présente une solution partielle, Pay per crawl, où, au lieu de rejeter en bloc un crawler IA (les bots utilisés pour récupérer du contenu), le site peut demander une certaine somme d’argent pour autoriser le crawler à continuer.

Un papier dévoile un nouveau phénomène surprenant, l’apprentissage subliminal. L’expérience est la suivante : on commence à entraîner un modèle pour lui inculquer une spécificité (par exemple, aimer les chouettes), puis on lui demande de générer des données d’entraînement dans un domaine complètement différent (par exemple, les mathématiques). Le modèle de base, entraîné sur ces données supplémentaires, se met à également aimer les chouettes — alors que les données supplémentaires ne les mentionnent jamais.

Le Forecasting Research Institute est un institut de recherche privé dont la mission et de développer et d’évaluer des méthodes et outils aidant à la prédiction sur des sujets ouverts et complexes. Ils viennent de pré-publier un papier, Forecasting LLM-enabled biorisk and the efficacy of safeguards, portant sur la question des futurs risques biologiques causés par l’IA. Un point intéressant est la difficulté de prédire… le présent : sur une tâche précise (« Virogoly Capabilities Test »), la prédiction moyenne des experts pour « quand l’IA sera au même niveau que des experts en virologie » est de 2030, mais o3 a déjà atteint ce niveau de capacités.

METR tente de mesurer le progrès de l’IA avec une méthodologie intéressante : mesurer le taux de succès de tâches « réalisables par un humain en moyenne en X minutes », et trouver X tel que l’IA a ~50% de taux de réussite. Leur évaluation de Claude 4 est terminée — et les deux modèles semblent suivre la tendance historique d’une « loi de Moore de l’IA » où l’horizon temporel double tous les 7 mois. Certains soupçonnaient une accélération de cette tendance avec o3 et o4-mini qui semblaient « en avance » (mais toujours dans les barres d’erreur) ; Claude 4 met à mal cette théorie, étant presque pile-poile dans les temps par la prédiction « naïve ».

Autre évaluation de METR, l’impact de l’IA sur la productivité des développeurs. À la surprise générale des participants (qui estiment un gain de temps de ~20% sur les tâches utilisées pour l’étude), l’IA ralentit en moyenne les développeurs, pour une perte de temps d’environ 20%.

Évaluation de l’IA, sur une tâche de comptabilité cette fois. Aucun modèle n’arrive à finir l’année de manière correcte, principalement à cause de l’accumulation de petites erreurs, et de la tendance des modèles à trouver des solutions « créatives » (et probablement illégales) à des problèmes non-triviaux (dans le développement, commenter les tests unitaires qui ne passent plus ; dans la comptabilité… inventer des transactions pour rééquilibrer des comptes non équilibrés).

À quel point les progrès de l’IA la rendent plus persuasive ? Un papier étudie cette question. Les principaux résultats : les IA les plus avancées sont plus persuasives, mais l’effet est petit comparé à l’impact du prompt et du post-training. Au niveau du style, ce qui fonctionne le mieux est d’ensevelir l’utilisateur sous une montagne d’information, et le pouvoir de persuasion est inversement corrélé à la véracité des propositions. Plus surprenant, la personnalisation (donner des informations sur l’utilisateur, et laisser l’IA s’adapter à son public) n’a qu’un effet modeste.

Ces derniers mois, le gouvernement américain avait demandé aux différents acteurs du domaine leur avis sur la marche à suivre pour le gouvernement sur le sujet de l’IA. Le résultat est là, sous la forme d’un plan. Les principaux point sont : encourager l’innovation (en particulier des modèles open-source/open-weight) et l’adoption (en particulier au sein du gouvernement), s’assurer que les modèles soient objectifs et non-biaisés, développer l’infrastructure physique (datacenters, énergie, fabriques de semiconducteurs), investir dans la sécurité (capacités d’évaluation et de supervision, lutte contre l’espionnage industriel) et consolider l’avance américaine (en particulier, en continuant la politique de contrôle des exports envers la chine sur les semiconducteurs).

Du côté européen, publication d’un code volontaire (non obligatoire) par la commission européenne, le « General-Purpose AI Code of Practice ». Composé de trois parties (transparence, propriété intellectuelle et sécurité), il codifie et étend certaines pratiques existantes dans l’industrie (comme la publication d’une politique de sécurité). Accueilli favorablement, il a été ratifié par la plupart des acteurs du domaine, y compris les principaux Anthropic/OpenAI/Google. Deux exceptions, xAI, qui n’accepte que la partie « sécurité », et Meta, qui rejette la totalité.

OpenAI publie ChatGPT Agent, essentiellement le successeur de Operator, où l’IA a le contrôle d’un navigateur pour effectuer des tâches sur internet. Peu de retours positifs en pratique sur ce mode. Il est à noter que ce mode a conduit OpenAI à mettre en place ses mitigations pour les risques « élevé » en biologie/chimie, par mesure de précaution (tout comme Anthropic l’avait fait pour la publication de Claude Opus 4).

Il est bien connu que les modèles, déployés en tant que chatbots, sont tous vulnérables aux jailbreak. À quel point cela généralise-t-il dans le contexte d’un agent ? Pour y répondre, Gray Swan a organisé une compétition, où 22 agents IA ont déployés pour faire office de cible contre des attaquants humains. Tous les modèles ont été attaqués avec succès, le taux de réussite d’une attaque étant de 1.47% pour le modèle le plus sûr.

À quel point l’IA représente de manière précise ce qu’elle est supposé modélisée, dans ses mécanismes internes ? Un papier étudie la question en entraînant une (petite) IA spécialisée sur différentes tâches simples (telles que prédire les trajectoires des corps célestes) puis en extrayant le modèle interne appris. Sur la plupart des tâches, l’IA échoue à apprendre la « véritable règle » (par exemple la loi de Newton).

Dans certains cas, allouer plus de ressources à l’IA (sous la forme de chaînes de pensée plus longues) conduit à une baisse de performances.

Une crainte concernant l’IA serait sa propension à perpétuer des stéréotypes présents dans son corpus d’entraînement. Un papier étudie cette question, et trouve que l’IA, mise dans un scénario d’embauche, discrimine… contre les hommes blancs : « When these biases emerge, they consistently favor Black over White candidates and female over male candidates across all tested models and scenarios ». De manière intéressante, la chaîne de pensée n’offre aucune indication de discrimination.

Un sondage sur l’utilisation de l’IA en tant que compagnon/confident par les adolescents.

Un retour d’expérience sur l’utilisation de l’IA comme assistant de programmation, avec des astuces détaillées.

Anthropic, OpenAI, DeepMind et xAI gagnent chacun un contrat avec le Département de la Défense des États-Unis pour 200 millions de dollar.

Un fil rappelant les précautions à prendre sur l’utilisation de MCP.

Meta continue désespérément à essayer d’attirer des talents pour son équipe IA, sans grand succès. Dernier exemple en date, où une offre a été faite à des employés de Thinking Machines pour des montants allant de 200 millions à 1 milliard, offres toutes refusées.

Pour aller plus loin

Non couvert ici :

OpenAI Model Differentiation 101: un « retour aux bases », une introduction aux principaux modèles existants, et lequel utiliser
AI Moratorium Stripped From BBB : le BBB est le projet de loi portant sur le budget du gouvernement Trump. Ce dernier possédait une clause imposant un moratoire interdisant à la fois aux agences fédérales et aux États de réguler l’IA. Cette clause a été supprimée.
Congress Asks Better Questions : la Chambre des représentants des États-Unis continue à interviewer des acteurs du secteur pour informer son agenda législatif. Une grosse emphase est mise sur « il faut gagner la course à l’IA contre la Chine », mais quelques voix commencent à s’élever pour questionner les aspects sur la sécurité des modèles et les effets sociaux de l’IA.
'Positive review only': Researchers hide AI prompts in papers (dans les liens LinuxFR)
AI models just don't understand what they're talking about
“I'm being paid to fix issues caused by AI” (« Je suis payé pour réparer les soucis causés par de l’IA ») (dans les liens LinuxFR)

En audio/vidéo (en anglais) :

Helen Toner, Unresolved Debates on the Future of AI : Jusqu’où les méthodes actuelles pourront nous mener ? À quel point l’IA peut aider à améliorer l’IA ? L’IA n’est-elle qu’un outil, ou plus ? Version écrite.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Un risque d’espionnage ? La Chine réclame à Nvidia des « preuves de sécurité convaincantes »

Numerama.com - Magazine

Par :Amine Baba Aissa

2 août 2025 à 07:09

Les tensions commerciales entre Washington et Pékin sur la question cruciale des semi-conducteurs n'en finissent plus. Nvidia se retrouve cet été au cœur des soupçons : la Chine exige des « preuves de sécurité convaincantes » concernant ses puces H20, soupçonnées d’abriter des portes dérobées.

Australia's Spy Boss Asks Defense Workers To Stop Oversharing on LinkedIn

Slashdot

Par :msmash

1 août 2025 à 14:00

Australia's spy chief has warned that defense workers are exposing themselves to foreign intelligence services through LinkedIn profiles that detail classified projects and security clearances. Director-General Mike Burgess said over 35,000 Australians on the platform indicate access to sensitive information, with 7,000 mentioning defense work and 400 listing involvement in the AUKUS nuclear submarine program. Foreign spies routinely scour professional networking sites posing as consultants and recruiters, Burgess said.

Read more of this story at Slashdot.

Nouvelle révolution dans l’IA : Google lance son modèle Gemini 2.5 Deep Think

Numerama.com - Magazine

Par :Nicolas Lellouche

1 août 2025 à 13:17

Intégré à Google Gemini mais réservé aux abonnés de l'abonnement Ultra, le nouveau modèle Gemini 2.5 Deep Think s'appuie sur une approche multi-agent inédite, qui lui permet de « réfléchir » simultanément à plusieurs choses. Il s'agit du modèle qui a remporté une médaille d'or en mathématiques il y a quelques jours.

Apple ouvre la porte au rachat d’une entreprise d’intelligence artificielle : qui sera l’élu ?

Numerama.com - Magazine

Par :Nicolas Lellouche

1 août 2025 à 08:37

Perplexity ? Mistral ? Anthropic ? À l'occasion de la publication de ses résultats financiers pour le troisième trimestre 2025, Tim Cook, le patron d'Apple, s'est dit favorable à une grande acquisition pour accélérer sur l'IA générative. Apple, qui n'a pas l'habitude de faire de grands rachats, pourrait s'offrir une pépite dans les prochains mois.

Oubliez le métavers, la « super-intelligence » est le futur selon Mark Zuckerberg

Numerama.com - Magazine

Par :Nicolas Lellouche

31 juillet 2025 à 10:35

Convaincu en 2021 que le « métavers » remplacerait Internet, Mark Zuckerberg pronostique désormais que la « super-intelligence » est la future grande révolution technologique. Meta, son entreprise, pivote progressivement du monde virtuel vers les modèles d'IA.

Australia Widens Teen Social Media Ban To YouTube, Scraps Exemption

Slashdot

Par :BeauHD

31 juillet 2025 à 10:00

An anonymous reader quotes a report from Reuters: Australia said on Wednesday it will add YouTube to sites covered by its world-first ban on social media for teenagers, reversing an earlier decision to exempt the Alphabet-owned video-sharing site and potentially setting up a legal challenge. The decision came after the internet regulator urged the government last month to overturn the YouTube carve-out, citing a survey that found 37% of minors reported harmful content on the site, the worst showing for a social media platform. "I'm calling time on it," Prime Minister Anthony Albanese said in a statement highlighting that Australian children were being negatively affected by online platforms, and reminding social media of their social responsibility. "I want Australian parents to know that we have their backs." The decision broadens the ban set to take effect in December. YouTube says it is used by nearly three-quarters of Australians aged 13 to 15, and should not be classified as social media because its main activity is hosting videos. "Our position remains clear: YouTube is a video sharing platform with a library of free, high-quality content, increasingly viewed on TV screens. It's not social media," a YouTube spokesperson said by email.

Read more of this story at Slashdot.

First Australian-Made Rocket Crashes After 14 Seconds of Flight

Slashdot

Par :BeauHD

30 juillet 2025 à 21:30

Australia's first domestically built rocket to attempt orbital launch crashed just 14 seconds after liftoff, though the company still declared the mission a success for igniting all engines and leaving the launch pad. The Associated Press reports: The rocket Eris, launched by Gilmour Space Technologies, was the first Australian-designed and manufactured orbital launch vehicle to lift off from the country and was designed to carry small satellites to orbit. It launched Wednesday morning local time in a test flight from a spaceport near the small town of Bowen in the north of Queensland state. In videos published by Australian news outlets, the 23-meter (75-foot) rocket appeared to clear the launch tower and hovered in the air before falling out of sight. Plumes of smoke were seen rising above the site. No injuries were reported. The company hailed the launch as a success in a statement posted to Facebook. A spokesperson said all four hybrid-propelled engines ignited and the maiden flight included 23 seconds of engine burn time and 14 seconds of flight. "Of course I would have liked more flight time but happy with this," wrote CEO Adam Gilmour on LinkedIn. Gilmour said in February that it was "almost unheard of" for a private rocket company to successfully launch to orbit on its first attempt. "This is an important first step towards the giant leap of a future commercial space industry right here in our region," added Mayor Ry Collins of the local Whitsunday Regional Council.

Read more of this story at Slashdot.

Vue lecture

Sommaire

Résumé des épisodes précédents

Des nouvelles de Grok

Grok 4

L’incident « MechaHitler »

Ani

L’IA obtient une médaille d’or aux Olympiades internationales de mathématiques 2025

En vrac

Pour aller plus loin

L’incident « MechaHitler »