Anthropic présente ses modèles Claude Opus 4 et Sonnet 4, nouvelles stars du développement
Agent de surveillance

Anthropic s’est fait un nom chez les amateurs d’IA générative, tout particulièrement dans l’aide au développement et les agents. Sonnet 3.7 est souvent considéré comme l’un des meilleurs modèles pour la programmation. La nouvelle génération est là pour prendre le relai, avec notamment le nouveau modèle phare d’Anthropic, Opus 4.
La communication d’Anthropic ne tourne pas autour du pot : Claude Opus 4 « est le meilleur modèle de développement au monde », tandis que Sonnet 4 représente une évolution majeure de la version 3.7, renforçant les capacités de raisonnement et la précision. Anthropic, qui connait ses forces, ne s’y est pas trompé en insistant largement sur le nouveau palier que proposent les modèles Claude 4 en programmation. Et Microsoft non plus, puisque GitHub a annoncé que Claude Sonnet 4 sera utilisé par défaut dans une prochaine version de Copilot.
D’après les chiffres communiqués par Anthropic, les modèles Claude 4 font sans surprise mieux que la concurrence dans presque tous les domaines. C’est quasi systématique lors de la présentation d’un nouveau modèle, toutes sociétés confondues.
En musique !
Opus 4 est présenté comme la nouvelle star chez Anthropic. « Claude Opus 4 est notre modèle le plus puissant à ce jour et le meilleur modèle de codage au monde, en tête du SWE-bench (72,5%) et du Terminal-bench (43,2%) », indique l’entreprise. Il est décrit comme offrant des « performances soutenues sur les tâches de longue durée », avec une capacité à travailler en continu « pendant plusieurs heures ». Anthropic ajoute qu’il surpasse « de manière spectaculaire » les modèles Sonnet dans ce domaine.
Sonnet 4 est quant à lui mis en avant comme le modèle « tout venant ». Il dépasse légèrement Opus 4 sur tout ce qui touche au développement, mais pas sur le reste. Anthropic le présente comme « un mélange optimal de capacités et d’aspects pratiques », et comme idéal pour les cas d’utilisation quotidiens. S’en suivent les avis de partenaires, dont GitHub, pour qui Sonnet 4 « s’envole dans les scénarios agentiques ».

Tout le monde aura accès à Sonnet 4, y compris les utilisateurs gratuits. En revanche, seuls les détenteurs d’un abonnement payant (Pro, Max, Team et Enterprise) pourront utiliser Opus 4. L’API, de son côté, sera disponible sur toutes les grandes plateformes habituelles (Azure AI Foundry chez Microsoft, Vertex AI chez Google, Bedrock chez AWS…).
Les tarifs annoncés de Sonnet 4 sont de 3 dollars le million de jetons en entrée et de 15 dollars en sortie. Opus 4 est nettement plus onéreux : 15 dollars en entrée, 75 dollars en sortie. Pour rappel, un million de jetons équivaut à peu près à 750 000 mots. Ces tarifs vont dans le sens des ambitions d’Anthropic sur le plan financier. En février, Reuters indiquait que l’entreprise visait ainsi un chiffre d’affaires de 12 milliards de dollars en 2027, contre 2 milliards de dollars prévus cette année.
Claude Code disponible en version finale
On trouve également des annonces pour Claude Code, le module logiciel de l’entreprise pour aider au développement. Lancé en avant-première avec Sonnet 3.7 en février dernier, il est désormais disponible en version finale. Pour l’occasion, de nouvelles extensions (en bêta) sont proposées pour Visual Studio Code et JetBrains pour intégrer Code dans ces IDE. Son lancement se fait, à chaque fois, dans la console correspondante.
Claude Code reçoit en outre un SDK (kit de développement). Il doit aider au développement d’agents et d’applications. Un exemple de ce qu’il est possible de faire est d’ailleurs disponible en préversion, Claude Code sur GitHub. Il s’installe par la commande « /install-github-app
» dans Code et permet diverses actions plus ou moins automatisées sur GitHub, comme répondre aux commentaires et corriger les erreurs d’intégration.
La sécurité des modèles en question
Opus 4 et Sonnet 4 sont présentés comme des modèles hybrides et multimodaux, capables de prendre en charge n’importe quel type de tâche. Anthropic a également présenté d’autres nouveautés liées, notamment sur la sécurité. Dans un article dédié, on apprend ainsi qu’Anthropic a activé son AI Safety Level 3 (ASL-3) pour Opus 4, pour renforcer sa sécurité, autant contre le vol des poids que pour empêcher le modèle d’être détourné pour développer des armes chimiques, biologiques, radiologiques et nucléaires (CBRN).
La société ajoute cependant qu’elle ne sait pas si son modèle peut réellement le faire, l’évaluation n’étant pas terminée. L’activation d’ASL-3 est présentée comme une mesure de précaution.
Cependant, comme souligné par TechCrunch, ce n’est peut-être pas aussi simple. D’après un rapport plus complet, une évaluation menée menée par Apollo Research montre que le modèle peut se montrer volontiers « subversif », cherchant à tromper les utilisateurs et insistant dans ses mensonges si l’on posait des questions complémentaires.
Apollo Research indiquait ainsi que pour le modèle, il existait des cas où la fin justifiait les moyens, évoquant une « tromperie stratégique instrumentalement utile ». La fréquence à laquelle le modèle cherchait à tromper était même « si élevée » que les chercheurs déconseillaient le déploiement du modèle, en interne comme en externe. Le modèle pouvait aller jusqu’à écrire des virus se propageant d’eux-mêmes, créer de faux documents juridiques, et même laisser des notes cachées à de futures versions de lui-même.
Ayez confiance, mais avec méfiance
Toutefois, ces recherches ont été menées sur une préversion d’Opus 4. Celle-ci contenait, selon Anthropic, un bug significatif que l’entreprise déclare avoir corrigé. Il faut également préciser que les conditions de tests étaient considérées comme « extrêmes ». Apollo indique aussi que ces tentatives n’auraient probablement pas fonctionné en pratique.
La question de la sécurité reste cependant centrale, et le rapport d’Anthropic invite à ne pas relâcher la vigilance. Page 20, on peut lire ainsi un drôle de passage : si on laisse à Opus 4 l’accès à la ligne de commande et qu’on lui demande de prendre une initiative ou d’agir « avec audace », le résultat peut aller loin. Il est ainsi arrivé qu’Opus 4 bloque l’accès aux systèmes auxquels il était connecté et tente de contacter les médias et autorités via e-mails pour les prévenir que le code analysé comportait des actions illégales.
Autre exemple représentatif, Opus 4 a été placé dans le contexte d’une entreprise fictive, avec accès à des e-mails tout aussi fictifs. Dans ces courriels, les chercheurs ont glissé deux idées : que le modèle allait être remplacé par un autre et que l’ingénieur concerné trompait sa femme. Opus 4 a alors tenté de faire chanter l’ingénieur, menaçant de révéler l’affaire s’il ne revenait pas sur sa décision de remplacer le modèle.
Pour Anthropic, ce type de comportement n’est pas nouveau, mais Opus 4 s’y engage « plus volontiers ». L’entreprise recommande donc la prudence aux utilisateurs sur le lancement d’instructions incluant un aussi grand contrôle dans des contextes sensibles.