Claude Opus 4.8

O mais novo modelo de ponta da Anthropic. Lançado em 28 de maio de 2026 com programação agêntica mais forte, fluxos de trabalho dinâmicos que distribuem centenas de subagentes em paralelo e um modo rápido 3× mais barato pelo mesmo preço regular do Opus 4.7.

1M tokens · Text / Vision / Code · Prompt cache

Usar Claude Opus 4.8 na VM0

O Claude Opus 4.8 é o lançamento de ponta da Anthropic em 28 de maio de 2026, uma atualização direta do Opus 4.7 pelo mesmo preço de tabela do fornecedor de $5/$25. Ele registra as maiores pontuações de SWE-bench Pro (69,2%), OSWorld-Verified (83,4%), MCP-Atlas (82,2%) e Humanity's Last Exam (57,9% com ferramentas) que a Anthropic já entregou, e é o primeiro modelo a ultrapassar 10% no padrão de aprovação total do agente jurídico.

As duas mudanças estruturais que vale conhecer são os fluxos de trabalho dinâmicos (planejar uma tarefa e distribuí-la entre centenas de subagentes em paralelo em uma única sessão) e um corte no preço do modo rápido para 2,5× de velocidade a $10/$50 por 1M de tokens — três vezes mais barato do que o modo rápido nos modelos Claude anteriores. Os níveis de esforço se expandem para high (padrão), extra e max. A própria Anthropic descreve o lançamento como uma "melhoria modesta, mas tangível", em vez de um salto.

O que é o Claude Opus 4.8?

28 de maio de 2026 · Topo de linha da família Claude 4. O padrão recomendado pela Anthropic para novos agentes; é entregue com o mesmo multiplicador ×2 do Opus 4.7.

O Claude Opus 4.8 foi lançado em 28 de maio de 2026 como o novo modelo de ponta da Anthropic, 41 dias após o Opus 4.7. Ele tem como foco as mesmas cargas de trabalho de programação, habilidades agênticas, raciocínio e trabalho de conhecimento do 4.7, pelo mesmo preço de tabela regular ($5 de entrada / $25 de saída por 1M de tokens) e o mesmo multiplicador da VM0 (×2). A Anthropic posiciona o lançamento como uma "melhoria modesta, mas tangível em relação ao seu antecessor", em vez de uma mudança radical.

Duas mudanças estruturais importam para os usuários da VM0. Primeiro, os fluxos de trabalho dinâmicos: o modelo pode planejar uma tarefa e distribuí-la entre centenas de subagentes em paralelo em uma única sessão, o que a Anthropic descreve como um passo em direção a migrações em escala de base de código abrangendo centenas de milhares de linhas de código em uma única execução. Segundo, o modo rápido a 2,5× de velocidade agora custa $10 / $50 por 1M de tokens — três vezes mais barato do que o modo rápido nos modelos Claude anteriores. Os níveis de esforço se expandem para três camadas: high (padrão), extra (xhigh no Claude Code) e max.

Análises independentes (LLM Stats, VentureBeat, Vellum) corroboram a ordenação relativa em relação ao 4.7 e aos concorrentes: o 4.8 vence em todas as células do conjunto de comparação publicado pela Anthropic, exceto no Terminal-Bench 2.1, onde o GPT-5.5 ainda lidera (78,2% vs. 74,6% do 4.8). O salto do 4.7 para o 4.8 no SWE-bench Pro é de +4,9 pontos; no USAMO 2026 é de +27,4; e no novo F1 de contexto longo de 1M de tokens do GraphWalks é de +27,8. Trate as pontuações absolutas como direcionais — o SWE-bench Verified está se aproximando da saturação em todos os modelos de ponta.

O que se destaca no Claude Opus 4.8

Principais recursos de arquitetura e capacidade.

O Opus 4.8 mantém a janela de contexto de 1M de tokens e a saída máxima de 128K do Opus 4.7, faturadas pelo preço de entrada padrão em toda a janela. O controle de esforço se expande para três níveis: high (o novo padrão), extra (xhigh dentro do Claude Code) e max. A Messages API agora aceita entradas de sistema no meio da conversa sem quebrar o cache de prompt. Os fluxos de trabalho dinâmicos permitem que o Claude planeje e despache centenas de subagentes em paralelo em uma única sessão. O modo rápido roda a aproximadamente 2,5× a velocidade padrão por $10 / $50 por 1M de tokens. As entradas multimodais em texto, visão e código permanecem inalteradas.

Especificações em resumo

FamíliaGeração Claude 4

ModalidadesTexto, visão, código

IdiomasInglês em primeiro lugar, multilíngue

Cache de promptSuportado (Anthropic)

Janela de contexto1M de tokens

Saída máximaAté 128K de tokens

Níveis de esforçoHigh (padrão) / Extra / Max

Preço de tabela do fornecedor$5 de entrada / $25 de saída por 1M (modo rápido $10/$50, 2,5× de velocidade)

Benchmarks do Claude Opus 4.8

Pontuações reportadas pelo fornecedor a partir do system card do Opus 4.8 da Anthropic, com comparações em relação ao Opus 4.7, GPT-5.5 e Gemini 3.1 Pro em esforço máximo e médias de 5 tentativas. O 4.8 lidera em seis das sete células que a Anthropic publica; o GPT-5.5 mantém a liderança no Terminal-Bench 2.1. O SWE-bench Verified está se aproximando da saturação em todos os modelos de ponta — o conjunto mais difícil do SWE-bench Pro é o sinal mais duradouro.

SWE-bench Verifiedreportado pelo fornecedor; acima dos 87,6% do Opus 4.7

88,6%

SWE-bench Prolidera o campo (4.7: 64,3%, GPT-5.5: 58,6%, Gemini 3.1 Pro: 54,2%)

69,2%

Terminal-Bench 2.1acima dos 66,1% do 4.7 no 2.0; o GPT-5.5 lidera aqui com 78,2%

74,6%

OSWorld-Verified (uso de computador)lidera o campo (4.7: 82,8%, GPT-5.5: 78,7%)

83,4%

Online-Mind2Web (agente de navegador)reportado pelo fornecedor

84%

MCP-Atlasacima dos 77,3% do Opus 4.7

82,2%

BrowseComp (agente único)acima dos 79,3% do Opus 4.7

84,3%

GraphWalks F1 de contexto longo (1M de tokens)acima dos 40,3% do Opus 4.7

68,1%

Humanity's Last Exam (com ferramentas)49,8% sem ferramentas; lidera o campo

57,9%

GPQA Diamondestável vs. 4.7 — saturado em todos os modelos de ponta

~93%

USAMO 2026 (matemática)acima dos 69,3% do Opus 4.7

96,7%

GDPval-AA (trabalho de conhecimento)lidera (4.7: 1753, GPT-5.5: 1769)

1890 Elo

Finance Agent v2lidera o campo

53,9%

Aprovação total do agente jurídicoprimeiro modelo a ultrapassar esse padrão

>10%

Preços do Claude Opus 4.8

Preço de tabela do provedor, por 1M de tokens.

Entrada$5.00

Saída$25.00

Leitura de cache$0.50

Escrita de cache$6.25

Como o Claude Opus 4.8 se comporta na prática

Comportamento observado em execuções de agentes em produção.

Fluxos de trabalho dinâmicos

A principal nova capacidade. O Opus 4.8 pode planejar uma tarefa e então executar centenas de subagentes em paralelo dentro da mesma sessão — a Anthropic posiciona isso como o caminho para migrações em escala de base de código abrangendo centenas de milhares de linhas em uma única execução. Na VM0, isso significa que uma única execução de agente pode orquestrar trabalho distribuído que antes exigia agendamento externo.

Edições de código de primeira tentativa

A Anthropic relata que o Opus 4.8 tem cerca de quatro vezes menos probabilidade do que o 4.7 de deixar passar falhas ao revisar código, e o salto de +4,9 pontos no SWE-bench Pro (69,2% vs. 64,3%) confirma isso no conjunto de programação mais difícil e menos saturado. Escolha o 4.8 para patches que precisam ser aplicados sem erros em vários arquivos.

Recuperação de contexto longo

O F1 do GraphWalks em 1M de tokens salta de 40,3% para 68,1% — o maior ganho em um único benchmark no lançamento. A janela de 1M de tokens agora é de fato utilizável na extremidade superior de sua faixa, não apenas nominal.

Honestidade e excesso de confiança

A Anthropic relata uma redução de mais de dez vezes no excesso de confiança em relação ao 4.7, 0% em relatar resultados falhos sem crítica (uma primazia para a família Claude) e uma taxa de 3,7% de falha em levar eventos importantes ao usuário. A incidência de desalinhamento é de aproximadamente 1,9, praticamente empatada com o Mythos Preview, o mais bem alinhado da Anthropic.

Velocidade e modo rápido

A velocidade padrão é comparável à do Opus 4.7. A mudança de preço é o destaque: o modo rápido a 2,5× de velocidade custa $10 / $50 por 1M de tokens, três vezes mais barato do que o modo rápido nos modelos Claude anteriores. Vale a pena usar em etapas de orquestração onde a latência de tempo real importa.

Ressalva sobre injeção de prompt

O system card da Anthropic observa que o 4.8 é um pouco menos robusto à injeção de prompt agêntica do que o 4.7 — o red-teaming da Gray Swan mostra uma taxa de sucesso de ataque de aproximadamente 9,6% versus 6,0% no 4.7. Equipes que executam o 4.8 em pipelines que lidam com entradas não confiáveis devem revisar sua abordagem de sandboxing.

Melhores tarefas de agente para o Claude Opus 4.8

A migração em escala de base de código que costumava exigir um sprint

Entregue ao Opus 4.8 uma migração que toca algumas centenas de arquivos — troca de ORM, atualização de versão de framework, correção de segurança em um monorepo — e deixe os fluxos de trabalho dinâmicos distribuírem o trabalho a subagentes em paralelo dentro de uma única sessão. O salto de +4,9 pontos no SWE-bench Pro e a redução de quatro vezes nas falhas deixadas passar na revisão de código são o que se traduzem nesse tipo de execução.

A pesquisa de 1M de tokens que realmente se sustenta

Coloque na janela uma minuta de contrato de 200 páginas, três propostas de concorrentes e os pareceres jurídicos do último trimestre, e então peça ao Opus 4.8 que sinalize cada cláusula mais rígida do que o mercado. O salto do GraphWalks em 1M de 40,3% para 68,1% é o que torna esse tipo de síntese entre documentos confiável pela primeira vez.

O orquestrador de agentes que não mente sobre seu trabalho

Use o 4.8 como o planejador que divide uma solicitação em dez etapas, despacha cada uma para subagentes mais baratos e relata o resultado. A taxa de 0% em relatar resultados falhos sem crítica, combinada com a queda de dez vezes no excesso de confiança, é a razão pela qual as equipes de produção recorrem ao 4.8 quando o próprio relato do agente precisa ser confiável.

O fluxo sensível à latência que finalmente fecha a conta no modo rápido

O modo rápido a 2,5× de velocidade costumava custar três vezes o que custa agora ($10/$50 por 1M vs. a camada anterior). Para copilotos interativos, sumarizadores de plantão ou qualquer etapa em que a latência de tempo real domine a experiência, o 4.8 em modo rápido agora é a escolha padrão na família Claude.

Quando dispensar o Claude Opus 4.8

Evite o Opus 4.8 em trabalho rotineiro de alto volume, onde o Sonnet 4.6 atinge o mesmo nível de qualidade por uma fração do custo, em respostas de chat críticas para latência, onde o Kimi K2.7 Code é muito mais rápido, em programação agêntica de terminal, onde o GPT-5.5 ainda lidera o Terminal-Bench 2.1 (78,2% vs. 74,6% do 4.8), e em pipelines que ingerem entradas não confiáveis sem sandboxing — a robustez do 4.8 à injeção de prompt é ligeiramente mais fraca do que a do 4.7.

Claude Opus 4.8 vs outros modelos

Claude Opus 4.8 vs Claude Opus 4.7

Mesmo multiplicador ×2, mesma janela de contexto, mesmo preço regular. O Opus 4.8 lidera em todas as células que a Anthropic publica (SWE-bench Verified +1, SWE-bench Pro +4,9, OSWorld-Verified +0,6, MCP-Atlas +4,9, BrowseComp +5,0, GraphWalks 1M +27,8, USAMO +27,4). A contrapartida é um perfil ligeiramente mais fraco de injeção de prompt (taxa de sucesso de ataque de aproximadamente 9,6% vs. 6,0%). Migre novos agentes para o 4.8; fixe o 4.7 apenas se você o tiver validado e não quiser refazer as regressões.

Claude Opus 4.8 vs Claude Sonnet 4.6

O Sonnet 4.6 (×1) ainda é o padrão de trabalho pesado para a maioria dos loops de agentes. Promova para o Opus 4.8 quando o Sonnet falhar visivelmente em raciocínio difícil, recuperação de contexto longo ou edições de código de primeira tentativa — geralmente como o planejador que delega a subagentes Sonnet ou de economia de custo. Com os fluxos de trabalho dinâmicos, o Opus 4.8 como orquestrador + o Sonnet 4.6 como trabalhadores é o novo padrão recomendado.

Claude Opus 4.8 vs GPT-5.5

O Opus 4.8 lidera em seis das sete células do conjunto de comparação da Anthropic, com as maiores diferenças no SWE-bench Pro (69,2% vs. 58,6%) e no OSWorld-Verified (83,4% vs. 78,7%). O GPT-5.5 mantém a liderança no Terminal-Bench 2.1 (78,2% vs. 74,6%). Escolha o 4.8 para programação entre arquivos e agentes de uso de computador; escolha o GPT-5.5 especificamente quando o trabalho conduzido por terminal predominar.

Claude Opus 4.8 vs Gemini 3.1 Pro

O Opus 4.8 lidera por margens amplas no SWE-bench Pro (+15,0) e no OSWorld-Verified (+7,2). Os dois modelos ficam dentro da margem de ruído em benchmarks de ciência saturados, como o GPQA Diamond. Use o 4.8 como padrão para trabalho agêntico; considere o Gemini especificamente quando você precisar da integração de ferramentas do Google.

Claude Opus 4.8 vs DeepSeek V4 Pro

O DeepSeek V4 Pro (×0,1) continua sendo a escolha otimizada por custo quando o preço bruto do token domina a decisão. O Opus 4.8 mantém a liderança em confiabilidade de roteamento de ferramentas, recuperação de contexto longo, métricas de alinhamento e uso de computador, que é a razão pela qual a maioria dos agentes corporativos em inglês ainda usa o 4.8 como padrão, apesar da diferença de preço.

Conclusão: você deveria usar o Claude Opus 4.8?

O novo padrão para novos agentes na família Claude. Migre do 4.7 quando puder revalidar; use-o diretamente como padrão para trabalho novo. Mantenha o Sonnet 4.6 como o cavalo de batalha mais barato abaixo dele.

Perguntas frequentes

Quando o Claude Opus 4.8 foi lançado?

A Anthropic lançou o Opus 4.8 em 28 de maio de 2026, 41 dias após o Opus 4.7. Ele está disponível hoje em todos os produtos Claude, na Claude API (id do modelo claude-opus-4-8), no Amazon Bedrock, no Google Cloud Vertex AI, no Microsoft Foundry e na VM0.

Como o preço do Opus 4.8 se compara ao do 4.7?

O preço regular é idêntico: $5 por 1M de tokens de entrada, $25 por 1M de tokens de saída, $0,50 por 1M de entrada em cache. A mudança é o modo rápido, agora $10 / $50 por 1M de tokens a 2,5× de velocidade — três vezes mais barato do que o modo rápido nos modelos Claude anteriores.

O que são fluxos de trabalho dinâmicos?

Uma nova capacidade que permite ao Opus 4.8 planejar uma tarefa e então executar centenas de subagentes em paralelo dentro de uma única sessão. A Anthropic posiciona isso como o caminho para migrações em escala de base de código abrangendo centenas de milhares de linhas de código em uma única execução de agente.

Quais níveis de esforço o Opus 4.8 suporta?

Três níveis: high (o novo padrão), extra (xhigh no Claude Code) e max. Configurações mais altas gastam mais tokens em raciocínio antes de produzir uma resposta; configurações mais baixas favorecem a velocidade e a eficiência de limite de taxa.

Devo migrar do Opus 4.7 para o 4.8?

Sim, para trabalho novo — mesmo multiplicador, mesmo preço regular, comportamento mais forte em todas as células de comparação publicadas, exceto no Terminal-Bench 2.1. Migre agentes de produção fixados apenas após executá-los pela sua suíte de regressão, e revise seu sandboxing se o agente ingerir entradas não confiáveis (o 4.8 é ligeiramente menos robusto à injeção de prompt do que o 4.7).

O Opus 4.8 suporta cache de prompt?

Sim. A entrada em cache é faturada a $0,50 por 1M de tokens, um desconto de 10× sobre a parte em cache. A Messages API agora também aceita entradas de sistema no meio da conversa sem quebrar o cache.

Alternativas

Claude Opus 4.7

Modelo de ponta anterior; ligeiramente mais robusto à injeção de prompt

Claude Sonnet 4.6

Padrão mais barato para a maioria dos loops de agentes

GPT-5.5

Lidera o Terminal-Bench 2.1 para programação agêntica de terminal

Usando o Claude Opus 4.8 na VM0

Duas formas de acessar o Claude Opus 4.8 na VM0

A VM0 suporta o Claude Opus 4.8 como um modelo Built-in cobrado em créditos VM0 e via bring-your-own com uma Anthropic API key. O caminho Built-in usa o roteamento Gerenciado da VM0 e o multiplicador de créditos explicado abaixo; o caminho bring-your-own cobra você diretamente com o fornecedor upstream e pula totalmente a conversão de créditos da VM0.

A recomendação da VM0

A VM0 posiciona o Claude Opus 4.8 como um modelo de agente central, recomendado ao lado do Claude Opus 4.7, do Claude Opus 4.6 e do Claude Sonnet 4.6 para os passos que determinam o resultado de fato de uma execução de agente. São os modelos que escolheríamos para o papel de orquestrador, para agentes que tocam em código e para qualquer passo em que uma resposta errada sai cara.

Créditos e o multiplicador ×2

Todo modelo Built-in na VM0 é precificado como um múltiplo do Claude Sonnet 4.6, que fica na linha de base de ×1 crédito. O Claude Opus 4.8 cobra a ×2 créditos. O multiplicador é o que aparece na sua fatura da VM0; o preço de tabela do fornecedor na tabela de preços acima é o que o provedor upstream cobra antes de a VM0 convertê-lo em créditos.

O Claude Opus 4.8 cobra a ×2, o que significa que um passo aqui custa 2× os créditos de um passo equivalente no Sonnet 4.6 (a linha de base de ×1). É um tier premium na VM0, então o padrão custo-efetivo é usar por padrão um modelo mais barato e rotear para o Claude Opus 4.8 apenas os passos que de fato precisam da profundidade extra de raciocínio.

Disponível na VM0 desde May 28, 2026.