Claude Opus 4.8

Il nuovo modello di punta di Anthropic. Rilasciato il 28 maggio 2026 con coding agentico più solido, workflow dinamici che distribuiscono centinaia di subagent in parallelo e una modalità rapida 3 volte più economica allo stesso prezzo standard di Opus 4.7.

1M tokens · Text / Vision / Code · Prompt cache

Usa Claude Opus 4.8 su VM0

Claude Opus 4.8 è il modello di punta di Anthropic rilasciato il 28 maggio 2026, un aggiornamento diretto di Opus 4.7 allo stesso prezzo di listino vendor di $5/$25. Registra i punteggi più alti mai pubblicati da Anthropic su SWE-bench Pro (69,2%), OSWorld-Verified (83,4%), MCP-Atlas (82,2%) e Humanity's Last Exam (57,9% con strumenti), ed è il primo modello a superare il 10% sullo standard all-pass per gli agenti legali.

I due cambiamenti strutturali da conoscere sono i workflow dinamici (pianifica un lavoro e lo distribuisci su centinaia di subagent in parallelo all'interno di una singola sessione) e il taglio di prezzo della modalità rapida, ora a velocità 2,5× per $10/$50 per 1M di token, tre volte più economica della modalità rapida dei precedenti modelli Claude. I livelli di sforzo si ampliano a high (predefinito), extra e max. Anthropic stessa presenta il rilascio come un "miglioramento modesto ma tangibile" più che come un salto.

Cos'è Claude Opus 4.8?

28 maggio 2026 · Vertice della famiglia Claude 4. La scelta predefinita raccomandata da Anthropic per i nuovi agenti; viene proposto allo stesso moltiplicatore ×2 di Opus 4.7.

Claude Opus 4.8 è stato rilasciato il 28 maggio 2026 come nuovo modello di punta di Anthropic, 41 giorni dopo Opus 4.7. Punta agli stessi carichi di lavoro di coding, skill agentiche, ragionamento e knowledge work di 4.7, allo stesso prezzo di listino standard ($5 input / $25 output per 1M di token) e allo stesso moltiplicatore VM0 (×2). Anthropic presenta il rilascio come un "miglioramento modesto ma tangibile rispetto al predecessore" più che come un cambio di passo.

Due cambiamenti strutturali contano per gli utenti VM0. Primo, i workflow dinamici: il modello può pianificare un task e distribuirlo su centinaia di subagent in parallelo all'interno di una singola sessione, cosa che Anthropic descrive come un passo verso la gestione di migrazioni su scala di intere codebase, su centinaia di migliaia di righe di codice in un'unica esecuzione. Secondo, la modalità rapida a velocità 2,5× ora costa $10 / $50 per 1M di token, tre volte meno della modalità rapida dei precedenti modelli Claude. I livelli di sforzo si ampliano a tre fasce: high (predefinito), extra (xhigh in Claude Code) e max.

Le valutazioni indipendenti (LLM Stats, VentureBeat, Vellum) confermano l'ordinamento relativo rispetto a 4.7 e ai concorrenti: 4.8 vince in ogni cella del set di confronto pubblicato da Anthropic, tranne Terminal-Bench 2.1, dove GPT-5.5 resta in testa (78,2% contro il 74,6% di 4.8). Il salto da 4.7 a 4.8 su SWE-bench Pro è di +4,9 punti; su USAMO 2026 è di +27,4; sul nuovo F1 long-context di GraphWalks a 1M di token è di +27,8. Tratta i punteggi assoluti come indicativi: SWE-bench Verified si sta avvicinando alla saturazione su tutti i modelli di frontiera.

Cosa rende notevole Claude Opus 4.8

Caratteristiche principali di architettura e capacità.

Opus 4.8 mantiene la finestra di contesto da 1M di token e l'output massimo da 128K di Opus 4.7, fatturati al prezzo input standard su tutta la finestra. Il controllo dello sforzo si amplia a tre livelli: high (il nuovo predefinito), extra (xhigh dentro Claude Code) e max. La Messages API ora accetta voci di sistema a metà conversazione senza interrompere il prompt caching. I workflow dinamici permettono a Claude di pianificare e distribuire centinaia di subagent in parallelo in una singola sessione. La modalità rapida gira a circa 2,5× la velocità standard per $10 / $50 per 1M di token. Gli input multimodali su testo, visione e codice restano invariati.

Specifiche in breve

FamigliaGenerazione Claude 4

ModalitàTesto, visione, codice

LinguePrima l'inglese, multilingue

Prompt cachingSupportato (Anthropic)

Finestra di contesto1M di token

Output massimoFino a 128K token

Livelli di sforzoHigh (predefinito) / Extra / Max

Prezzo di listino vendor$5 input / $25 output per 1M (modalità rapida $10/$50, velocità 2,5×)

Benchmark di Claude Opus 4.8

Punteggi dichiarati dal vendor tratti dalla system card di Opus 4.8 di Anthropic, con confronti rispetto a Opus 4.7, GPT-5.5 e Gemini 3.1 Pro a sforzo massimo e su medie di 5 prove. 4.8 è in testa in sei delle sette celle pubblicate da Anthropic; GPT-5.5 mantiene il primato su Terminal-Bench 2.1. SWE-bench Verified si sta avvicinando alla saturazione su tutti i modelli di frontiera: il set più difficile SWE-bench Pro è il segnale più duraturo.

SWE-bench Verifieddichiarato dal vendor; in crescita dal 87,6% di Opus 4.7

88,6%

SWE-bench Proin testa al settore (4.7: 64,3%, GPT-5.5: 58,6%, Gemini 3.1 Pro: 54,2%)

69,2%

Terminal-Bench 2.1in crescita dal 66,1% di 4.7 su 2.0; qui GPT-5.5 è in testa al 78,2%

74,6%

OSWorld-Verified (computer use)in testa al settore (4.7: 82,8%, GPT-5.5: 78,7%)

83,4%

Online-Mind2Web (agente browser)dichiarato dal vendor

84%

MCP-Atlasin crescita dal 77,3% di Opus 4.7

82,2%

BrowseComp (single-agent)in crescita dal 79,3% di Opus 4.7

84,3%

F1 long-context GraphWalks (1M di token)in crescita dal 40,3% di Opus 4.7

68,1%

Humanity's Last Exam (con strumenti)49,8% senza strumenti; in testa al settore

57,9%

GPQA Diamondstabile rispetto a 4.7 — saturo tra i modelli di frontiera

~93%

USAMO 2026 (matematica)in crescita dal 69,3% di Opus 4.7

96,7%

GDPval-AA (knowledge work)in testa (4.7: 1753, GPT-5.5: 1769)

1890 Elo

Finance Agent v2in testa al settore

53,9%

All-pass per agenti legaliprimo modello a superare questo standard

>10%

Prezzi di Claude Opus 4.8

Prezzo di listino del provider, per 1M di token.

Input$5.00

Output$25.00

Lettura cache$0.50

Scrittura cache$6.25

Come si comporta Claude Opus 4.8 nella pratica

Comportamento osservato dalle esecuzioni di agenti in produzione.

Workflow dinamici

La nuova capacità di punta. Opus 4.8 può pianificare un task e poi eseguire centinaia di subagent in parallelo all'interno della stessa sessione: Anthropic la presenta come la via verso migrazioni su scala di intere codebase, su centinaia di migliaia di righe in un'unica esecuzione. Su VM0 questo significa che una singola esecuzione dell'agente può orchestrare un lavoro distribuito che prima richiedeva una pianificazione esterna.

Modifiche al codice al primo tentativo

Anthropic riferisce che Opus 4.8 ha circa quattro volte meno probabilità di 4.7 di trascurare difetti durante la revisione del codice, e il salto di +4,9 punti su SWE-bench Pro (69,2% contro 64,3%) lo conferma sul set di coding più difficile e meno saturo. Scegli 4.8 per le patch che devono applicarsi in modo pulito su molti file.

Richiamo long-context

L'F1 di GraphWalks a 1M di token sale dal 40,3% al 68,1%, il maggiore incremento su un singolo benchmark in questo rilascio. La finestra da 1M di token ora è davvero utilizzabile nella parte alta del suo intervallo, non solo sulla carta.

Onestà ed eccessiva sicurezza

Anthropic riferisce una riduzione di oltre dieci volte dell'eccessiva sicurezza rispetto a 4.7, lo 0% nel riportare acriticamente risultati errati (una prima volta per la famiglia Claude) e un tasso del 3,7% nel non segnalare eventi importanti all'utente. L'incidenza di disallineamento è circa 1,9, in pratica alla pari con Mythos Preview, il modello meglio allineato di Anthropic.

Velocità e modalità rapida

La velocità standard è paragonabile a quella di Opus 4.7. Il cambiamento di prezzo è la novità principale: la modalità rapida a velocità 2,5× costa $10 / $50 per 1M di token, tre volte meno della modalità rapida dei precedenti modelli Claude. Vale la pena usarla nei passaggi di orchestrazione in cui la latenza in tempo reale conta.

Avvertenza sul prompt injection

La system card di Anthropic nota che 4.8 è leggermente meno robusto di 4.7 al prompt injection agentico: il red-teaming di Gray Swan mostra un tasso di successo degli attacchi di circa il 9,6% contro il 6,0% di 4.7. I team che usano 4.8 in pipeline che gestiscono input non attendibili dovrebbero rivedere il proprio approccio di sandboxing.

I migliori task per agenti con Claude Opus 4.8

La migrazione su scala di codebase che prima richiedeva uno sprint

Affida a Opus 4.8 una migrazione che tocca qualche centinaio di file — sostituzione dell'ORM, aggiornamento di versione del framework, fix di sicurezza su un monorepo — e lascia che i workflow dinamici distribuiscano il lavoro su subagent in parallelo all'interno di una singola sessione. Il salto di +4,9 punti su SWE-bench Pro e la riduzione di quattro volte dei difetti mancati nella revisione del codice sono ciò che si concretizza in questo tipo di esecuzione.

L'analisi da 1M di token che regge davvero

Inserisci nella finestra una bozza di contratto di 200 pagine, tre proposte di concorrenti e i pareri legali dell'ultimo trimestre, poi chiedi a Opus 4.8 di segnalare ogni clausola più stringente del mercato. Il salto dell'F1 di GraphWalks a 1M dal 40,3% al 68,1% è ciò che rende affidabile in modo nuovo questo tipo di sintesi tra documenti.

L'orchestratore di agenti che non mente sul proprio lavoro

Usa 4.8 come pianificatore che scompone una richiesta in dieci passaggi, ne affida ciascuno a sub-agent più economici e riferisce il risultato. Il tasso dello 0% nel riportare acriticamente risultati errati, unito al calo di dieci volte dell'eccessiva sicurezza, è il motivo per cui i team in produzione scelgono 4.8 quando il resoconto che l'agente fa di sé stesso deve essere affidabile.

Il flusso sensibile alla latenza che finalmente torna sui conti in modalità rapida

La modalità rapida a velocità 2,5× prima costava tre volte tanto rispetto a ora ($10/$50 per 1M contro la fascia precedente). Per copilot interattivi, sintetizzatori di on-call o qualsiasi passaggio in cui la latenza in tempo reale domina l'esperienza, la 4.8 in modalità rapida è ora la scelta predefinita nella famiglia Claude.

Quando evitare Claude Opus 4.8

Evita Opus 4.8 sul lavoro di routine ad alto volume in cui Sonnet 4.6 raggiunge lo stesso livello di qualità a una frazione del costo, sulle risposte di chat critiche per la latenza in cui Kimi K2.7 Code è molto più veloce, sul coding agentico da terminale in cui GPT-5.5 è ancora in testa su Terminal-Bench 2.1 (78,2% contro il 74,6% di 4.8) e sulle pipeline che ricevono input non attendibili senza sandboxing: la robustezza di 4.8 al prompt injection è leggermente inferiore a quella di 4.7.

Claude Opus 4.8 vs altri modelli

Claude Opus 4.8 vs Claude Opus 4.7

Stesso moltiplicatore ×2, stessa finestra di contesto, stesso prezzo standard. Opus 4.8 è in testa in ogni cella pubblicata da Anthropic (SWE-bench Verified +1, SWE-bench Pro +4,9, OSWorld-Verified +0,6, MCP-Atlas +4,9, BrowseComp +5,0, GraphWalks 1M +27,8, USAMO +27,4). Il compromesso è un profilo di prompt injection leggermente più debole (tasso di successo degli attacchi di circa il 9,6% contro il 6,0%). Migra i nuovi agenti a 4.8; mantieni 4.7 solo se l'hai validato e non vuoi rieseguire le regressioni.

Claude Opus 4.8 vs Claude Sonnet 4.6

Sonnet 4.6 (×1) resta il cavallo di battaglia predefinito per la maggior parte dei loop agentici. Passa a Opus 4.8 quando Sonnet fallisce visibilmente su ragionamento difficile, richiamo long-context o modifiche al codice al primo tentativo, di solito come pianificatore che delega a sub-agent basati su Sonnet o a sub-agent a basso costo. Con i workflow dinamici, Opus 4.8 come orchestratore + Sonnet 4.6 come worker è il nuovo schema raccomandato.

Claude Opus 4.8 vs GPT-5.5

Opus 4.8 è in testa in sei delle sette celle del set di confronto di Anthropic, con i divari maggiori su SWE-bench Pro (69,2% contro 58,6%) e OSWorld-Verified (83,4% contro 78,7%). GPT-5.5 mantiene il primato su Terminal-Bench 2.1 (78,2% contro 74,6%). Scegli 4.8 per il coding tra file e per gli agenti di computer use; scegli GPT-5.5 in particolare quando domina il lavoro guidato da terminale.

Claude Opus 4.8 vs Gemini 3.1 Pro

Opus 4.8 è in testa con ampi margini su SWE-bench Pro (+15,0) e OSWorld-Verified (+7,2). I due modelli restano entro il rumore sui benchmark scientifici saturi come GPQA Diamond. Scegli 4.8 come predefinito per il lavoro agentico; considera Gemini in particolare quando ti serve l'integrazione di strumenti di Google.

Claude Opus 4.8 vs DeepSeek V4 Pro

DeepSeek V4 Pro (×0,1) resta la scelta ottimizzata sui costi quando il prezzo grezzo dei token domina la decisione. Opus 4.8 mantiene il primato su affidabilità del routing degli strumenti, richiamo long-context, metriche di allineamento e computer use, motivo per cui la maggior parte degli agenti enterprise in lingua inglese si affida ancora a 4.8 nonostante il divario di prezzo.

In sintesi: dovresti usare Claude Opus 4.8?

Il nuovo predefinito per i nuovi agenti nella famiglia Claude. Migra da 4.7 quando puoi rivalidare; scegli direttamente questo per il lavoro nuovo. Mantieni Sonnet 4.6 come cavallo di battaglia più economico al di sotto.

Domande frequenti

Quando è stato rilasciato Claude Opus 4.8?

Anthropic ha rilasciato Opus 4.8 il 28 maggio 2026, 41 giorni dopo Opus 4.7. È disponibile da oggi su tutti i prodotti Claude, la Claude API (model id claude-opus-4-8), Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry e VM0.

Come si confronta il prezzo di Opus 4.8 con quello di 4.7?

Il prezzo standard è identico: $5 per 1M di token di input, $25 per 1M di token di output, $0,50 per 1M di input in cache. La novità è la modalità rapida, ora $10 / $50 per 1M di token a velocità 2,5× — tre volte più economica della modalità rapida dei precedenti modelli Claude.

Cosa sono i workflow dinamici?

Una nuova capacità che permette a Opus 4.8 di pianificare un task e poi eseguire centinaia di subagent in parallelo all'interno di una singola sessione. Anthropic la presenta come la via verso migrazioni su scala di intere codebase, su centinaia di migliaia di righe di codice in un'unica esecuzione dell'agente.

Quali livelli di sforzo supporta Opus 4.8?

Tre livelli: high (il nuovo predefinito), extra (xhigh in Claude Code) e max. Le impostazioni più alte spendono più token in ragionamento prima di produrre una risposta; quelle più basse privilegiano velocità ed efficienza sui rate limit.

Dovrei migrare da Opus 4.7 a 4.8?

Sì per il lavoro nuovo — stesso moltiplicatore, stesso prezzo standard, comportamento più solido in ogni cella di confronto pubblicata tranne Terminal-Bench 2.1. Migra gli agenti di produzione bloccati su una versione solo dopo averli fatti passare dalla tua suite di regressione, e rivedi il sandboxing se l'agente riceve input non attendibili (4.8 è leggermente meno robusto di 4.7 al prompt injection).

Opus 4.8 supporta il prompt caching?

Sì. L'input in cache è fatturato a $0,50 per 1M di token, uno sconto di 10× sulla porzione in cache. La Messages API ora accetta anche voci di sistema a metà conversazione senza interrompere la cache.

Alternative

Claude Opus 4.7

Precedente modello di punta; leggermente più robusto al prompt injection

Claude Sonnet 4.6

Predefinito più economico per la maggior parte dei loop agentici

GPT-5.5

In testa su Terminal-Bench 2.1 per il coding agentico da terminale

Usare Claude Opus 4.8 su VM0

Due modi per accedere a Claude Opus 4.8 su VM0

VM0 supporta Claude Opus 4.8 come modello Built-in fatturato in crediti VM0 e tramite bring-your-own con una Anthropic API key. Il percorso Built-in usa il routing VM0 Managed e il moltiplicatore di crediti spiegato di seguito; il percorso bring-your-own ti fattura direttamente con il fornitore upstream e salta del tutto la conversione in crediti VM0.

La raccomandazione di VM0

VM0 posiziona Claude Opus 4.8 come modello agente core, consigliato insieme a Claude Opus 4.7, Claude Opus 4.6 e Claude Sonnet 4.6 per i passi che determinano il risultato effettivo di un'esecuzione di un agente. Sono i modelli che sceglieremmo per il ruolo di orchestratore, per gli agenti che toccano il codice e per qualsiasi passo in cui una risposta sbagliata è costosa.

Crediti e il moltiplicatore ×2

Ogni modello Built-in su VM0 è prezzato come un multiplo di Claude Sonnet 4.6, che si colloca alla baseline di crediti ×1. Claude Opus 4.8 viene fatturato a ×2 crediti. Il moltiplicatore è ciò che compare sulla tua fattura VM0; il prezzo di listino del fornitore nella tabella prezzi sopra è ciò che il provider upstream addebita prima che VM0 lo converta in crediti.

Claude Opus 4.8 viene fatturato a ×2, il che significa che un passo qui costa 2× i crediti di un passo equivalente su Sonnet 4.6 (la baseline ×1). È un tier premium su VM0, quindi il pattern conveniente è quello di usare come predefinito un modello più economico e indirizzare a Claude Opus 4.8 solo i passi che hanno davvero bisogno della profondità di ragionamento aggiuntiva.

Disponibile su VM0 dal May 28, 2026.