Todos os modelos

GPT-5.4 Mini na VM0. O GPT-5 econômico

O membro otimizado em custo da família GPT-5 da OpenAI. ×0.3 créditos, visão multimodal e rápido o suficiente para roteamento de alto volume, classificação e trabalho de pré-filtragem.

400K tokens · Text / Vision / Code · Prompt cache

O GPT-5.4 Mini é o membro econômico da família GPT-5 da OpenAI — aquele que você escolhe quando o custo unitário importa mais do que a qualidade de raciocínio de pico. Ele mantém a janela de contexto de 400K e as entradas multimodais do restante da família, mas reduz a computação por token, o que se traduz em preço mais baixo ($0.75 / $4.5 por 1M) e velocidade visivelmente maior.

Na VM0, ele fica em ×0.3 créditos, o mesmo multiplicador do Kimi K2.7 Code, o que o torna a escolha natural do lado da OpenAI para classificação em massa, roteamento em fan-out, pré-filtros e qualquer etapa de agente em que cair para um terço do custo do GPT-5.4 seja o fator decisivo.

O que é o GPT-5.4 Mini?

Abril de 2026 · Variante econômica da família GPT-5. O par do lado da OpenAI do Kimi K2.7 Code.

O GPT-5.4 Mini é o membro otimizado em custo da geração GPT-5 da OpenAI, lançado em abril de 2026 junto com o GPT-5.5 e o GPT-5.4. A OpenAI o posiciona como o tier de alto throughput — o modelo que você mantém em execução em etapas de classificação, roteamento e pré-filtragem, em que o 5.4 ou o 5.5 maiores seriam desperdiçados em decisões rotineiras.

Arquiteturalmente, ele compartilha a janela de contexto de 400K tokens da família GPT-5, o parâmetro reasoning_effort, o cache de prompt e a superfície da Responses API que o codex CLI usa por padrão. O trade-off em relação ao 5.4 é a profundidade de raciocínio: o Mini lida bem com chamadas de ferramentas padrão, resumos curtos e cargas de saída estruturada, mas começa a se desviar nos planos multietapas mais difíceis, em que o 5.4 ainda se sustenta. O trade-off em relação aos concorrentes na mesma faixa de preço é o ecossistema — se você já está no Codex, permanecer dentro da superfície da OpenAI mantém as definições de ferramentas e os schemas de saída estruturada consistentes.

Na VM0, o Mini fica no multiplicador de ×0.3 créditos, o mesmo do Kimi K2.7 Code. O DeepSeek V4 Pro fica mais baixo, em ×0.1, então, dentro do tier econômico, a escolha depende principalmente do framework e da adequação de comportamento à sua carga de trabalho específica.

O que se destaca no GPT-5.4 Mini

Principais recursos de arquitetura e capacidade.

O GPT-5.4 Mini usa a mesma arquitetura do restante da família GPT-5: janela de contexto de 400K tokens, o parâmetro reasoning_effort em quatro níveis, cache de prompt em que a entrada em cache é cobrada a um décimo da taxa de entrada e a superfície da Responses API. São suportados uso de ferramentas, saídas estruturadas e entradas de visão multimodal. O modelo é um irmão menor e mais rápido — menos parâmetros por token, mais throughput por dólar.

Especificações em resumo

FamíliaGeração GPT-5
ModalidadesTexto, visão, código
IdiomasInglês primeiro, multilíngue
Cache de promptSuportado (OpenAI)
Janela de contexto400K tokens
Saída máximaAté 128K tokens
Esforço de raciocínioMínimo / Baixo / Médio / Alto
Preço de tabela do fornecedor$0.75 entrada / $4.5 saída por 1M

Benchmarks do GPT-5.4 Mini

Pontuações relatadas pelo fornecedor a partir dos materiais de lançamento do GPT-5 Mini da OpenAI. Análises independentes colocam o 5.4 Mini na mesma faixa econômica do Kimi K2.7 Code na maioria dos benchmarks de agente. Trate os percentuais absolutos como direcionais.

SWE-bench Verifiedrelatado pelo fornecedor
~60%
Terminal-Bench 2.0uso de ferramentas relatado pelo fornecedor
~42%
AIME 2025 (sem ferramentas)matemática de competição relatada pelo fornecedor
~84%
GPQA Diamondciências de pós-graduação relatadas pelo fornecedor
~74%
VelocidadeArtificial Analysis, esforço médio
~165 tokens/sec

Preços do GPT-5.4 Mini

Preço de tabela do provedor, por 1M de tokens.

Entrada$0.75
Saída$4.50
Leitura de cache$0.07
Escrita de cacheNão cobrado

Como o GPT-5.4 Mini se comporta na prática

Comportamento observado em execuções de agentes em produção.

Velocidade

O modelo mais rápido da família GPT-5 — cerca de 165 tokens/sec em esforço médio, segundo a Artificial Analysis. É essa propriedade que o torna viável para respostas de chat interativo e chamadas curtas de ferramentas em fan-out, em que a latência visível ao usuário domina.

Chamadas de ferramentas rotineiras

Preciso no catálogo padrão de ferramentas do framework Codex. Onde o 5.4 sai na frente é nos casos extremos mais difíceis (seleção condicional de ferramentas, argumentos profundamente aninhados) — para os casos rotineiros, o Mini lida com o roteamento de ferramentas de forma limpa a um terço do custo.

Classificação em massa e pré-filtragem

A melhor posição custo/qualidade da família GPT-5 para trabalho em fan-out. Triagem de PRs em massa, categorização de tickets de suporte, classificação de documentos por tier — todas as cargas de trabalho em que antes você teria escrito regex à mão agora são viáveis em uma chamada real de modelo.

Eficiência de custo

×0.3 créditos com visão multimodal incluída. O Mini e o Kimi K2.7 Code ficam na mesma faixa, enquanto o DeepSeek V4 Pro fica mais baixo, em ×0.1 — a escolha geralmente se resume à adequação de framework e ao comportamento na sua carga de trabalho específica.

Quando escalar

O Mini se desvia em planos multietapas longos, raciocínio difícil e edições de código de múltiplos arquivos na primeira tentativa. Construa o agente para que o orquestrador decida quando escalar para o 5.4 ou o 5.5, e não para que o Mini tente carregar todo o loop.

Melhores tarefas de agente para o GPT-5.4 Mini

O classificador em fan-out que roda em cada evento

Ticket de suporte recebido, comentário de PR, transcrição de ligação de vendas, upload de documento — o Mini lê cada um e o roteia para o agente downstream ou revisor humano certo. ×0.3 créditos e 165 tokens/sec significam que o custo por evento é pequeno o suficiente para que rodá-lo em cada evento (não só em lotes amostrados) seja realmente viável.

A etapa de pré-filtragem antes do modelo caro

Fixe o Mini no topo da chamada de ferramentas do agente para que ele decida se a solicitação precisa mesmo escalar. A maioria das solicitações recebe uma resposta rápida e barata; só a minoria residual paga o custo total do GPT-5.4 ou do 5.5. É aqui que combinar os tiers econômico e core muda de verdade o que é viável.

A resposta de chat interativo

Turnos multimodais curtos em que a latência visível ao usuário domina a experiência. O Mini responde rápido o suficiente para que o streaming pareça instantâneo, e o suporte multimodal faz com que uma captura de tela na conversa simplesmente funcione.

Quando dispensar o GPT-5.4 Mini

Evite o GPT-5.4 Mini no raciocínio mais difícil, na orquestração de agentes multietapas, em sequências de computer-use e em edições de código de múltiplos arquivos na primeira tentativa — escale para o 5.4 nas versões rotineiras dessas tarefas e para o 5.5 nas mais difíceis.

GPT-5.4 Mini vs outros modelos

GPT-5.4 Mini vs GPT-5.4

Mesma família, posicionamento diferente. O 5.4 Mini (×0.3) ganha em custo e velocidade; o 5.4 (×1) ganha em qualidade de raciocínio e precisão de roteamento de ferramentas nos casos difíceis. O padrão usual é pré-filtrar com o Mini e escalar os casos residuais para o 5.4.

GPT-5.4 Mini vs Claude Sonnet 4.6

O Claude Sonnet 4.6 é o alvo de comparação atual do catálogo para este modelo.

GPT-5.4 Mini vs DeepSeek V4 Pro

O DeepSeek V4 Pro fica mais baixo nos créditos da VM0 e é a escolha de raciocínio cost-first mais forte. Use-o quando o preço dominar, e use o modelo atual quando a adequação de provedor ou o perfil de roteamento de ferramentas importarem mais.

Conclusão: você deveria usar o GPT-5.4 Mini?

O GPT-5.4 Mini é o padrão econômico do lado da OpenAI. Pré-filtre com o Mini, escale para o GPT-5.4 nas etapas rotineiras e escale para o GPT-5.5 apenas no raciocínio mais difícil.

Perguntas frequentes

Qual é a janela de contexto do GPT-5.4 Mini?

400.000 tokens, com até 128K tokens de saída por resposta — o mesmo do restante da família GPT-5.

O GPT-5.4 Mini consegue lidar com imagens?

Sim. Como o restante da família GPT-5, ele aceita entradas de imagem junto com texto e código.

Quando devo escolher o GPT-5.4 Mini em vez do Kimi K2.7 Code?

Quando seu agente já está construído sobre o framework Codex ou você precisa do ecossistema de saída estruturada / chamada de ferramentas da OpenAI. Ambos ficam em ×0.3 créditos, então o custo é idêntico e a escolha se resume a framework e comportamento.

O GPT-5.4 Mini suporta cache de prompt?

Sim. A entrada em cache é cobrada a $0.075 por 1M tokens — um desconto de 10× na parte em cache.

Qual framework o GPT-5.4 Mini usa na VM0?

Codex. A VM0 roteia todos os modelos GPT-5 pela superfície da Responses API do framework Codex.

Alternativas

Usando o GPT-5.4 Mini na VM0

Duas formas de acessar o GPT-5.4 Mini na VM0

A VM0 suporta o GPT-5.4 Mini como um modelo Built-in cobrado em créditos VM0 e via bring-your-own com uma OpenAI API key. O caminho Built-in usa o roteamento Gerenciado da VM0 e o multiplicador de créditos explicado abaixo; o caminho bring-your-own cobra você diretamente com o fornecedor upstream e pula totalmente a conversão de créditos da VM0.

A recomendação da VM0

A VM0 posiciona o GPT-5.4 Mini como uma opção de economia de custo, e não como um modelo de agente central. Use-o para otimizar o custo unitário em trabalho não central, como classificação em massa, pré-filtros, respostas curtas críticas em latência ou agentes legados fixados, mantendo o Claude Opus 4.7, o Claude Opus 4.6 ou o Claude Sonnet 4.6 nos passos que decidem a execução.

Créditos e o multiplicador ×0.3

Todo modelo Built-in na VM0 é precificado como um múltiplo do Claude Sonnet 4.6, que fica na linha de base de ×1 crédito. O GPT-5.4 Mini cobra a ×0.3 créditos. O multiplicador é o que aparece na sua fatura da VM0; o preço de tabela do fornecedor na tabela de preços acima é o que o provedor upstream cobra antes de a VM0 convertê-lo em créditos.

O GPT-5.4 Mini cobra a ×0.3, o que significa que um passo aqui custa apenas 0.3× os créditos de um passo equivalente no Sonnet 4.6 (a linha de base de ×1). Isso o coloca bem abaixo da linha de base de créditos e o torna a escolha natural para trabalho de fundo em alto volume, onde o custo por passo importa mais do que a qualidade máxima de raciocínio.

Disponível na VM0 desde April 2026.