Claude Opus 4.8
Le tout dernier modèle phare d'Anthropic. Sorti le 28 mai 2026 avec un codage agentique renforcé, des workflows dynamiques capables de déployer des centaines de sous-agents en parallèle, et un mode rapide 3× moins cher au même prix régulier qu'Opus 4.7.
1M tokens · Text / Vision / Code · Prompt cache
Claude Opus 4.8 est le modèle phare d'Anthropic sorti le 28 mai 2026, une montée de version directe d'Opus 4.7 au même prix de liste fournisseur de 5 $/25 $. Il affiche les meilleurs scores SWE-bench Pro (69,2 %), OSWorld-Verified (83,4 %), MCP-Atlas (82,2 %) et Humanity's Last Exam (57,9 % avec outils) jamais livrés par Anthropic, et c'est le premier modèle à dépasser les 10 % sur le standard de réussite intégrale des agents juridiques.
Les deux changements structurels à connaître sont les workflows dynamiques (planifier une tâche, puis la déployer sur des centaines de sous-agents en parallèle au sein d'une même session) et une baisse de prix du mode rapide à une vitesse de 2,5× pour 10 $/50 $ par million de tokens — trois fois moins cher que le mode rapide des modèles Claude précédents. Les niveaux d'effort s'étendent à high (par défaut), extra et max. Anthropic présente lui-même cette sortie comme une « amélioration modeste mais tangible » plutôt que comme un bond en avant.
Qu'est-ce que Claude Opus 4.8 ?
28 mai 2026 · Au sommet de la famille Claude 4. Le choix par défaut recommandé par Anthropic pour les nouveaux agents ; livré avec le même multiplicateur ×2 qu'Opus 4.7.
Claude Opus 4.8 est sorti le 28 mai 2026 en tant que nouveau fleuron d'Anthropic, 41 jours après Opus 4.7. Il cible les mêmes charges de travail de codage, de compétences agentiques, de raisonnement et de travail du savoir que la 4.7, au même prix de liste régulier (5 $ en entrée / 25 $ en sortie par million de tokens) et avec le même multiplicateur VM0 (×2). Anthropic présente cette sortie comme une « amélioration modeste mais tangible par rapport à son prédécesseur » plutôt que comme un changement de palier.
Deux changements structurels comptent pour les utilisateurs de VM0. D'abord, les workflows dynamiques : le modèle peut planifier une tâche et la déployer sur des centaines de sous-agents en parallèle au sein d'une même session, ce qu'Anthropic décrit comme une étape vers la prise en charge de migrations à l'échelle d'une base de code, sur des centaines de milliers de lignes en un seul passage. Ensuite, le mode rapide à une vitesse de 2,5× coûte désormais 10 $ / 50 $ par million de tokens — trois fois moins cher que le mode rapide des modèles Claude précédents. Les niveaux d'effort s'étendent à trois paliers : high (par défaut), extra (xhigh dans Claude Code) et max.
Les lectures indépendantes (LLM Stats, VentureBeat, Vellum) corroborent le classement relatif face à la 4.7 et aux concurrents : la 4.8 l'emporte sur chaque cellule de l'ensemble comparatif publié par Anthropic, sauf Terminal-Bench 2.1, où GPT-5.5 reste en tête (78,2 % contre 74,6 % pour la 4.8). Le saut de la 4.7 à la 4.8 sur SWE-bench Pro est de +4,9 points ; sur USAMO 2026, il est de +27,4 ; et sur le nouveau F1 longue portée GraphWalks à 1M tokens, il est de +27,8. Considérez les scores absolus comme indicatifs — SWE-bench Verified approche de la saturation sur tous les modèles de pointe.
Ce qui distingue Claude Opus 4.8
Principales caractéristiques d'architecture et de capacités.
Opus 4.8 conserve la fenêtre de contexte de 1M tokens et la sortie maximale de 128K d'Opus 4.7, facturées au tarif d'entrée standard sur l'ensemble de la fenêtre. Le contrôle de l'effort s'étend à trois niveaux : high (la nouvelle valeur par défaut), extra (xhigh dans Claude Code) et max. L'API Messages accepte désormais des entrées système en milieu de conversation sans rompre la mise en cache des prompts. Les workflows dynamiques permettent à Claude de planifier et de répartir des centaines de sous-agents en parallèle au sein d'une même session. Le mode rapide tourne à ~2,5× la vitesse standard pour 10 $ / 50 $ par million de tokens. Les entrées multimodales en texte, vision et code restent inchangées.
Spécifications en un coup d'œil
Benchmarks de Claude Opus 4.8
Scores rapportés par le fournisseur, issus de la system card Opus 4.8 d'Anthropic, avec des comparaisons face à Opus 4.7, GPT-5.5 et Gemini 3.1 Pro à effort maximal et moyennes sur 5 essais. La 4.8 est en tête dans six des sept cellules publiées par Anthropic ; GPT-5.5 conserve l'avantage sur Terminal-Bench 2.1. SWE-bench Verified approche de la saturation sur tous les modèles de pointe — l'ensemble SWE-bench Pro, plus difficile, est le signal le plus durable.
Tarification de Claude Opus 4.8
Prix catalogue fournisseur, par million de tokens.
Comment Claude Opus 4.8 se comporte en pratique
Comportement observé lors d'exécutions d'agents en production.
Workflows dynamiques
La grande nouveauté. Opus 4.8 peut planifier une tâche puis exécuter des centaines de sous-agents en parallèle au sein d'une même session — Anthropic présente cela comme la voie vers des migrations à l'échelle d'une base de code, sur des centaines de milliers de lignes en un seul passage. Sur VM0, cela signifie qu'une seule exécution d'agent peut orchestrer un travail en éventail qui nécessitait auparavant une planification externe.
Éditions de code dès la première tentative
Anthropic indique qu'Opus 4.8 a environ quatre fois moins de risques que la 4.7 de laisser passer des défauts lors d'une revue de code, et le saut de +4,9 points sur SWE-bench Pro (69,2 % contre 64,3 %) le confirme sur l'ensemble de codage le plus difficile et le moins saturé. Choisissez la 4.8 pour les correctifs qui doivent s'appliquer proprement à travers de nombreux fichiers.
Mémorisation longue portée
Le F1 GraphWalks à 1M tokens passe de 40,3 % à 68,1 % — le plus grand gain sur un seul benchmark de cette sortie. La fenêtre de 1M tokens est désormais réellement exploitable dans le haut de sa plage, et plus seulement sur le papier.
Honnêteté et excès de confiance
Anthropic rapporte une réduction de plus de dix fois de l'excès de confiance par rapport à la 4.7, un taux de 0 % de signalement non critique de résultats erronés (une première pour la famille Claude), et un taux de 3,7 % d'omission de remonter des événements importants à l'utilisateur. L'incidence des défauts d'alignement est d'environ 1,9, soit pratiquement à égalité avec le meilleur Mythos Preview aligné d'Anthropic.
Vitesse et mode rapide
La vitesse standard est comparable à celle d'Opus 4.7. Le changement de prix est l'élément marquant : le mode rapide à une vitesse de 2,5× coûte 10 $ / 50 $ par million de tokens, trois fois moins cher que le mode rapide des modèles Claude précédents. Utile pour les étapes d'orchestration où la latence horloge compte.
Réserve sur l'injection de prompts
La system card d'Anthropic note que la 4.8 est un peu moins robuste à l'injection de prompts agentique que la 4.7 — le red-teaming de Gray Swan affiche un taux de réussite des attaques d'environ 9,6 % contre 6,0 % pour la 4.7. Les équipes qui exécutent la 4.8 dans des pipelines traitant des entrées non fiables devraient revoir leur approche de sandboxing.
Meilleures tâches d'agent pour Claude Opus 4.8
La migration à l'échelle de la base de code qui demandait autrefois un sprint
Confiez à Opus 4.8 une migration touchant quelques centaines de fichiers — changement d'ORM, montée de version de framework, correctif de sécurité sur un monorepo — et laissez les workflows dynamiques répartir le travail entre des sous-agents en parallèle au sein d'une même session. Le saut de +4,9 points sur SWE-bench Pro et la réduction par quatre des défauts manqués en revue de code sont ce qui se concrétise sur ce type d'exécution.
La recherche à 1M tokens qui tient vraiment la route
Glissez un projet de contrat de 200 pages, trois propositions concurrentes et les avis juridiques du dernier trimestre dans la fenêtre, puis demandez à Opus 4.8 de signaler chaque clause plus stricte que le marché. Le saut de GraphWalks à 1M de 40,3 % à 68,1 % est ce qui rend ce type de synthèse inter-documents nouvellement fiable.
L'orchestrateur d'agents qui ne ment pas sur son travail
Utilisez la 4.8 comme planificateur qui décompose une demande en dix étapes, en confie chacune à des sous-agents moins chers, et rend compte du résultat. Le taux de 0 % de signalement non critique de résultats erronés, combiné à la baisse par dix de l'excès de confiance, est la raison pour laquelle les équipes en production choisissent la 4.8 lorsque l'auto-rapport de l'agent doit être digne de confiance.
Le flux sensible à la latence qui devient enfin rentable en mode rapide
Le mode rapide à une vitesse de 2,5× coûtait autrefois trois fois ce qu'il coûte aujourd'hui (10 $/50 $ par million contre le palier précédent). Pour les copilotes interactifs, les synthétiseurs d'astreinte, ou toute étape où la latence horloge domine l'expérience, la 4.8 en mode rapide est désormais le choix par défaut de la famille Claude.
Quand éviter Claude Opus 4.8
Évitez Opus 4.8 sur le travail routinier à fort volume où Sonnet 4.6 atteint le même niveau de qualité pour une fraction du coût, sur les réponses de chat critiques en latence où Kimi K2.7 Code est bien plus rapide, sur le codage agentique en terminal où GPT-5.5 reste en tête de Terminal-Bench 2.1 (78,2 % contre 74,6 % pour la 4.8), et sur les pipelines qui ingèrent des entrées non fiables sans sandboxing — la robustesse de la 4.8 à l'injection de prompts est légèrement plus faible que celle de la 4.7.
Claude Opus 4.8 vs autres modèles
Claude Opus 4.8 vs Claude Opus 4.7
Même multiplicateur ×2, même fenêtre de contexte, même prix régulier. Opus 4.8 est en tête sur chaque cellule publiée par Anthropic (SWE-bench Verified +1, SWE-bench Pro +4,9, OSWorld-Verified +0,6, MCP-Atlas +4,9, BrowseComp +5,0, GraphWalks 1M +27,8, USAMO +27,4). Le compromis est un profil légèrement plus faible face à l'injection de prompts (~9,6 % de taux de réussite des attaques contre 6,0 %). Migrez les nouveaux agents vers la 4.8 ; ne figez la 4.7 que si vous l'avez validée et ne voulez pas relancer de régressions.
Claude Opus 4.8 vs Claude Sonnet 4.6
Sonnet 4.6 (×1) reste le cheval de bataille par défaut pour la plupart des boucles d'agents. Passez à Opus 4.8 lorsque Sonnet échoue visiblement sur le raisonnement difficile, la mémorisation longue portée ou les éditions de code dès la première tentative — généralement comme planificateur qui délègue à des sous-agents Sonnet ou moins chers. Avec les workflows dynamiques, Opus 4.8 comme orchestrateur + Sonnet 4.6 comme exécutants est le nouveau schéma recommandé.
Claude Opus 4.8 vs GPT-5.5
Opus 4.8 est en tête sur six des sept cellules de l'ensemble comparatif d'Anthropic, avec les écarts les plus marqués sur SWE-bench Pro (69,2 % contre 58,6 %) et OSWorld-Verified (83,4 % contre 78,7 %). GPT-5.5 conserve l'avantage sur Terminal-Bench 2.1 (78,2 % contre 74,6 %). Choisissez la 4.8 pour le codage multi-fichiers et les agents d'usage de l'ordinateur ; choisissez GPT-5.5 spécifiquement lorsque le travail piloté en terminal domine.
Claude Opus 4.8 vs Gemini 3.1 Pro
Opus 4.8 mène par de larges marges sur SWE-bench Pro (+15,0) et OSWorld-Verified (+7,2). Les deux modèles restent dans le bruit sur les benchmarks scientifiques saturés comme GPQA Diamond. Par défaut, optez pour la 4.8 sur le travail agentique ; envisagez Gemini spécifiquement lorsque vous avez besoin de l'intégration des outils de Google.
Claude Opus 4.8 vs DeepSeek V4 Pro
DeepSeek V4 Pro (×0,1) reste le choix optimisé en coût lorsque le prix brut au token domine la décision. Opus 4.8 conserve l'avantage sur la fiabilité du routage d'outils, la mémorisation longue portée, les métriques d'alignement et l'usage de l'ordinateur, ce qui explique que la plupart des agents anglophones en entreprise optent encore par défaut pour la 4.8 malgré l'écart de prix.
En résumé : devriez-vous utiliser Claude Opus 4.8 ?
La nouvelle valeur par défaut pour les nouveaux agents de la famille Claude. Migrez depuis la 4.7 dès que vous pouvez revalider ; optez directement pour elle sur les nouveaux travaux. Gardez Sonnet 4.6 comme cheval de bataille moins cher en dessous.
Questions fréquentes
Quand Claude Opus 4.8 est-il sorti ?
Anthropic a sorti Opus 4.8 le 28 mai 2026, 41 jours après Opus 4.7. Il est disponible dès aujourd'hui dans les produits Claude, l'API Claude (id de modèle claude-opus-4-8), Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry et VM0.
Comment les tarifs d'Opus 4.8 se comparent-ils à ceux de la 4.7 ?
Les tarifs réguliers sont identiques : 5 $ par million de tokens en entrée, 25 $ par million en sortie, 0,50 $ par million d'entrée mise en cache. Le changement concerne le mode rapide, désormais à 10 $ / 50 $ par million de tokens à une vitesse de 2,5× — trois fois moins cher que le mode rapide des modèles Claude précédents.
Que sont les workflows dynamiques ?
Une nouvelle capacité qui permet à Opus 4.8 de planifier une tâche puis d'exécuter des centaines de sous-agents en parallèle au sein d'une même session. Anthropic présente cela comme la voie vers des migrations à l'échelle d'une base de code, sur des centaines de milliers de lignes de code en une seule exécution d'agent.
Quels niveaux d'effort Opus 4.8 prend-il en charge ?
Trois niveaux : high (la nouvelle valeur par défaut), extra (xhigh dans Claude Code) et max. Les réglages plus élevés dépensent davantage de tokens en raisonnement avant de produire une réponse ; les réglages plus bas favorisent la vitesse et l'efficacité face aux limites de débit.
Dois-je migrer d'Opus 4.7 vers la 4.8 ?
Oui pour les nouveaux travaux — même multiplicateur, même prix régulier, comportement renforcé sur chaque cellule comparative publiée, sauf Terminal-Bench 2.1. Ne migrez les agents de production figés qu'après les avoir passés dans votre suite de régression, et revoyez votre sandboxing si l'agent ingère des entrées non fiables (la 4.8 est un peu moins robuste à l'injection de prompts que la 4.7).
Opus 4.8 prend-il en charge la mise en cache des prompts ?
Oui. L'entrée mise en cache est facturée à 0,50 $ par million de tokens, soit une remise de 10× sur la portion mise en cache. L'API Messages accepte désormais aussi des entrées système en milieu de conversation sans rompre le cache.
Alternatives
Utiliser Claude Opus 4.8 sur VM0
Deux façons d'accéder à Claude Opus 4.8 sur VM0
VM0 prend en charge Claude Opus 4.8 comme modèle Built-in facturé en crédits VM0, et via le bring-your-own avec une Anthropic API key. La voie Built-in utilise le routage VM0 Managed et le multiplicateur de crédits expliqué ci-dessous ; la voie bring-your-own vous facture directement auprès du fournisseur en amont et contourne entièrement la conversion en crédits VM0.
La recommandation de VM0
VM0 positionne Claude Opus 4.8 comme un modèle d'agent central, recommandé aux côtés de Claude Opus 4.7, Claude Opus 4.6 et Claude Sonnet 4.6 pour les étapes qui déterminent le résultat réel d'une exécution d'agent. Ce sont les modèles que nous choisirions pour le rôle d'orchestrateur, pour les agents touchant au code, et pour toute étape où une mauvaise réponse coûte cher.
Les crédits et le multiplicateur ×2
Chaque modèle Built-in sur VM0 est tarifé comme un multiple de Claude Sonnet 4.6, qui se situe à la référence de crédits ×1. Claude Opus 4.8 est facturé à ×2 crédits. Le multiplicateur est ce qui apparaît sur votre facture VM0 ; le prix catalogue du fournisseur dans le tableau de tarification ci-dessus est ce que le fournisseur en amont facture avant que VM0 ne le convertisse en crédits.
Claude Opus 4.8 est facturé à ×2, ce qui signifie qu'une étape ici coûte 2× les crédits d'une étape équivalente sur Sonnet 4.6 (la référence ×1). C'est un palier premium sur VM0, donc le pattern le plus économique est de choisir par défaut un modèle moins cher et de n'acheminer vers Claude Opus 4.8 que les étapes qui ont réellement besoin de cette profondeur de raisonnement supplémentaire.
Disponible sur VM0 depuis le May 28, 2026.