GPT-5.4 na VM0. O cavalo de batalha da OpenAI

O cavalo de batalha da OpenAI na família GPT-5. Fica na linha de base de ×1 crédito ao lado do Claude Sonnet 4.6 e é o padrão certo para a maioria dos agentes do framework Codex.

400K tokens · Text / Vision / Code · Prompt cache

Usar GPT-5.4 na VM0

O GPT-5.4 é o cavalo de batalha da família GPT-5 da OpenAI — o modelo que você mantém rodando em todos os lugares por padrão. O SWE-bench Verified reportado pela fornecedora em 74,9% o coloca na mesma faixa que o Claude Sonnet 4.6 em codificação, e sua precisão de uso de ferramentas é o que a maioria dos agentes de produção do framework Codex usa como referência de ajuste.

O preço de tabela da fornecedora é de $2.5 / $15 per 1M tokens, com entrada em cache a $0.25 / 1M. Ele fica em ×1 créditos na VM0 Managed — a mesma linha de base do Claude Sonnet 4.6 — o que o torna a escolha natural quando seu agente já está no framework Codex e você quer um padrão equilibrado de custo/qualidade.

O que é o GPT-5.4?

Abril de 2026 · Cavalo de batalha da família GPT-5. O padrão recomendado para a maioria dos agentes do framework Codex.

O GPT-5.4 é o cavalo de batalha da geração GPT-5 da OpenAI, lançado em abril de 2026 ao lado do carro-chefe GPT-5.5 e do GPT-5.4 Mini otimizado para custo. A OpenAI o posiciona como o padrão onipresente para agentes no framework Codex — o modelo que você mantém rodando em cada etapa, a menos que uma etapa específica justifique a escalada para o 5.5.

Arquiteturalmente, o GPT-5.4 compartilha com o restante da família GPT-5 a janela de contexto de 400K tokens, o parâmetro reasoning_effort, o cache de prompts e a superfície da Responses API. A diferença em relação ao GPT-5.5 está no investimento de computação por token: o 5.4 roda mais rápido e mais barato, enquanto o 5.5 investe mais em profundidade de raciocínio. A diferença em relação ao GPT-5.4 Mini é o oposto — o 5.4 entrega mais qualidade para as etapas que de fato decidem a execução do agente.

Na VM0 ele fica no multiplicador de ×1 crédito, a mesma linha de base do Claude Sonnet 4.6, o que torna triviais as comparações de custo lado a lado entre os padrões da Anthropic e da OpenAI. A escolha entre os dois geralmente se resume ao framework (Codex vs Claude Code), ao ecossistema (integrações existentes, definições de ferramentas) e a qual modelo sua equipe tem mais familiaridade comportamental.

O que se destaca no GPT-5.4

Principais recursos de arquitetura e capacidade.

O GPT-5.4 usa a mesma arquitetura do restante da família GPT-5: janela de contexto de 400K tokens, parâmetro reasoning_effort em quatro níveis (mínimo, baixo, médio, alto), cache de prompts em que a entrada em cache é cobrada a um décimo da taxa de entrada, e a superfície da Responses API que a CLI do codex usa por padrão. Há suporte a uso de ferramentas, saídas estruturadas e computer-use. As entradas são multimodais entre texto, visão e código.

Especificações em resumo

FamíliaGeração GPT-5

ModalidadesTexto, visão, código

IdiomasInglês em primeiro lugar, multilíngue

Cache de promptsSuportado (OpenAI)

Janela de contexto400K tokens

Saída máximaAté 128K tokens

Esforço de raciocínioMínimo / Baixo / Médio / Alto

Preço de tabela da fornecedora$2.5 input / $15 output per 1M

Benchmarks do GPT-5.4

Pontuações reportadas pela fornecedora a partir dos materiais de lançamento do GPT-5 da OpenAI, com variações mostradas em relação à geração anterior da OpenAI. Análises independentes colocam o GPT-5.4 na mesma faixa de qualidade de codificação que o Claude Sonnet 4.6. Trate as porcentagens absolutas como indicativas.

SWE-bench Verifiedreportado pela fornecedora

74.9%

Terminal-Bench 2.0uso de ferramentas reportado pela fornecedora

~58%

AIME 2025 (sem ferramentas)matemática de competição reportada pela fornecedora

~92%

GPQA Diamondciência de pós-graduação reportada pela fornecedora

~85%

OSWorld (computer use)reportado pela fornecedora

~62%

VelocidadeArtificial Analysis, esforço médio

~110 tokens/sec

Preços do GPT-5.4

Preço de tabela do provedor, por 1M de tokens.

Entrada$2.50

Saída$15.00

Leitura de cache$0.25

Escrita de cacheNão cobrado

Como o GPT-5.4 se comporta na prática

Comportamento observado em execuções de agentes em produção.

Roteamento de ferramentas

Precisão de linha de base sólida em todo o catálogo padrão de ferramentas do framework Codex. Onde o 5.5 se destaca é nos casos extremos difíceis (seleção condicional de ferramentas, argumentos profundamente aninhados) — para os casos rotineiros, o 5.4 roteia corretamente com latência significativamente menor.

Edições de código

Qualidade de patch comparável à do Claude Sonnet 4.6 em cargas de trabalho padrão de refatoração e correção de bugs. Onde o 5.5 começa a se destacar é em mudanças multi-arquivo, em que o patch precisa ser aplicado de forma limpa logo na primeira tentativa.

Velocidade

Materialmente mais rápido que o 5.5 — cerca de 110 tokens/sec em esforço médio, segundo a Artificial Analysis. Isso é parte do motivo pelo qual o 5.4 continua sendo o padrão para respostas de chat interativas e loops curtos de agente, em que a latência percebida pelo usuário importa.

Eficiência de custo

×1 créditos com comportamento de saída na faixa de qualidade do Sonnet 4.6. Para equipes que já estão no framework Codex, este é o ponto ideal de custo/qualidade — promova para o 5.5 apenas nas etapas que visivelmente precisam.

Comportamento de alucinação

Herda as melhorias de calibração que a OpenAI entregou com a geração GPT-5. Menos propenso a respostas erradas com confiança do que a série GPT-4, especialmente em perguntas fora do seu horizonte de treinamento.

Melhores tarefas de agente para o GPT-5.4

A etapa padrão de agente no framework Codex

Se seu agente já é construído sobre a CLI do codex ou qualquer integração do framework Codex, o GPT-5.4 é o padrão onipresente natural. ×1 créditos, rápido o suficiente para uso interativo, preciso o suficiente para as chamadas de ferramenta rotineiras que dominam a maioria das execuções de agente.

O chat interativo com visão

Interfaces baseadas em capturas de tela, perguntas e respostas sobre documentos, anotação de imagens — o GPT-5.4 lida com os três de forma multimodal na velocidade de cavalo de batalha. O multiplicador ×1 mantém o custo por turno na mesma faixa do Sonnet 4.6, então você pode fazer testes A/B dos dois na mesma carga de trabalho.

O teste A/B de custo/qualidade contra o Claude Sonnet 4.6

Ambos os modelos ficam em ×1 créditos na VM0 Managed, o que os torna diretamente comparáveis em custo. Rode o mesmo agente em ambos por uma semana e escolha pelo comportamento na sua carga de trabalho específica — nenhum é universalmente melhor, e o padrão certo depende do seu catálogo de ferramentas e do seu estilo de prompt.

Quando dispensar o GPT-5.4

Evite o GPT-5.4 nas etapas mais difíceis de raciocínio, computer-use ou edição de código multi-arquivo, em que o 5.5 lidera de forma perceptível, e em trabalhos de classificação em massa de alto volume ou de pré-filtragem, em que o 5.4 Mini é quatro vezes mais barato no nível da fornecedora.

GPT-5.4 vs outros modelos

GPT-5.4 vs GPT-5.5

Mesma família, posicionamento diferente. O 5.5 (×2) entrega o raciocínio, o computer-use e a qualidade de código na primeira tentativa mais fortes; o 5.4 (×1) entrega a mesma janela de contexto e o mesmo conjunto de recursos pela metade do custo em créditos e com velocidade perceptivelmente maior. Use o 5.4 por padrão; escale para o 5.5 apenas nas etapas que visivelmente precisam.

GPT-5.4 vs Claude Sonnet 4.6

As duas linhas de base ×1, uma em cada ecossistema. O Sonnet 4.6 roda no framework Claude Code; o GPT-5.4 roda no Codex. Escolha pelo framework que seus agentes e definições de ferramentas existentes têm como alvo. Em qualidade bruta de saída, eles são próximos o suficiente para que o teste A/B na sua carga de trabalho seja a decisão certa.

GPT-5.4 vs GPT-5.4 Mini

Mesma família, posicionamento diferente. O 5.4 (×1) carrega mais qualidade de raciocínio por token; o 5.4 Mini (×0.3) oferece uma opção muito mais barata para trabalhos em massa e de pré-filtragem. Use o 5.4 Mini para classificação em fan-out e o 5.4 para as etapas que decidem a execução do agente.

Conclusão: você deveria usar o GPT-5.4?

O GPT-5.4 é o padrão onipresente para agentes do framework Codex na VM0. Escale para o 5.5 em raciocínio difícil e desça para o 5.4 Mini em pré-filtragem em massa.

Perguntas frequentes

Qual é a janela de contexto do GPT-5.4?

400.000 tokens, com até 128K tokens de saída por resposta. A janela completa é cobrada nas taxas padrão.

O GPT-5.4 consegue lidar com imagens?

Sim. O GPT-5.4 é multimodal. Ele aceita entradas de imagem nativamente, junto com texto e código.

Quando devo escolher o GPT-5.4 em vez do Claude Sonnet 4.6?

Quando seu agente já é construído sobre o framework Codex ou você precisa do ecossistema da OpenAI (catálogo de ferramentas, saídas estruturadas, Responses API). Ambos ficam em ×1 créditos, então o custo é idêntico e a escolha se resume ao framework e ao ajuste comportamental.

O GPT-5.4 suporta cache de prompts?

Sim. A entrada em cache é cobrada a $0.25 per 1M tokens — um desconto de 10× na parte em cache.

Qual framework o GPT-5.4 usa na VM0?

Codex. A VM0 roteia todos os modelos GPT-5 pela superfície da Responses API do framework Codex.

Alternativas

GPT-5.5

Camada de escalada para as etapas mais difíceis

GPT-5.4 Mini

Opção mais barata para trabalho em massa

Claude Sonnet 4.6

Par ×1 no framework Claude Code

Usando o GPT-5.4 na VM0

Duas formas de acessar o GPT-5.4 na VM0

A VM0 suporta o GPT-5.4 como um modelo Built-in cobrado em créditos VM0 e via bring-your-own com uma OpenAI API key. O caminho Built-in usa o roteamento Gerenciado da VM0 e o multiplicador de créditos explicado abaixo; o caminho bring-your-own cobra você diretamente com o fornecedor upstream e pula totalmente a conversão de créditos da VM0.

A recomendação da VM0

A VM0 posiciona o GPT-5.4 como um modelo de agente central, recomendado ao lado do Claude Opus 4.7, do Claude Opus 4.6 e do Claude Sonnet 4.6 para os passos que determinam o resultado de fato de uma execução de agente. São os modelos que escolheríamos para o papel de orquestrador, para agentes que tocam em código e para qualquer passo em que uma resposta errada sai cara.

Créditos e o multiplicador ×1

Todo modelo Built-in na VM0 é precificado como um múltiplo do Claude Sonnet 4.6, que fica na linha de base de ×1 crédito. O GPT-5.4 cobra a ×1 créditos. O multiplicador é o que aparece na sua fatura da VM0; o preço de tabela do fornecedor na tabela de preços acima é o que o provedor upstream cobra antes de a VM0 convertê-lo em créditos.

O GPT-5.4 fica na linha de base de ×1 contra a qual todo outro modelo Built-in é precificado, então é a unidade na qual você compara custos ao escolher entre modelos na VM0.

Disponível na VM0 desde April 2026.