GPT-5.5 na VM0. O modelo de raciocínio carro-chefe da OpenAI

O carro-chefe da família GPT-5 da OpenAI. A escolha mais forte para codificação agêntica, raciocínio profundo e loops de uso de computador no nível OpenAI.

400K tokens · Text / Vision / Code · Prompt cache

Usar GPT-5.5 na VM0

O GPT-5.5 é o modelo que você escolhe quando o trabalho exige tanto raciocínio profundo quanto uso confiável de ferramentas: orquestrar loops de agente em várias etapas, edições de código que precisam acertar de primeira e fluxos de uso de computador que abrangem muitas ações de interface. Os benchmarks do fornecedor (SWE-bench Verified, AIME 2025, GPQA Diamond) põem números concretos nos ganhos sobre o GPT-5.4.

O preço de tabela do fornecedor é $5 / $30 por 1M tokens, com entrada em cache a $0,50 / 1M. É o modelo mais caro do catálogo Built-in da VM0, a ×2 créditos, então o padrão mais econômico é manter o GPT-5.4 ou o Claude Sonnet 4.6 como padrão em todo lugar e rotear apenas as etapas mais difíceis para o GPT-5.5.

O que é o GPT-5.5?

Abril de 2026 (sucessor do GPT-5.4) · Topo de linha da família GPT-5. O carro-chefe da OpenAI para codificação agêntica e raciocínio.

O GPT-5.5 é o carro-chefe da geração GPT-5 da OpenAI, lançado em abril de 2026 como a atualização recomendada a partir do GPT-5.4. A OpenAI o posiciona como uma melhoria de patamar em uso de ferramentas agêntico e tarefas de uso de computador, em vez de uma simples atualização na superfície da API. A janela de contexto de 400K tokens e o parâmetro reasoning_effort introduzidos com o GPT-5 permanecem inalterados, então agentes Codex existentes entram sem reescritas.

Em comparação ao GPT-5.4 (o cavalo de batalha da mesma família), o GPT-5.5 investe mais poder de processamento por token em raciocínio. O retorno comportamental aparece em três pontos: patches de código mais fortes na primeira tentativa em refatorações de múltiplos arquivos, bem menos chamadas de ferramenta mal roteadas em loops longos de agente e ganhos notáveis em raciocínio científico de nível pós-graduação (GPQA Diamond) e matemática de competição (AIME 2025). O trade-off é o maior preço de tabela entre as variantes do GPT-5 ($5 / $30 por 1M tokens) e um multiplicador de ×2 créditos na VM0, motivo pelo qual a própria OpenAI posiciona o GPT-5.5 como camada de planejamento ou de escalonamento, e não como padrão em todo lugar.

Rankings independentes (Artificial Analysis, Vellum) corroboram a ordenação relativa em relação ao GPT-5.4 e colocam o GPT-5.5 a poucos pontos do Claude Opus 4.7 na maioria das tarefas de codificação agêntica. Os números absolutos mudam toda semana e a própria OpenAI sinalizou contaminação de dados de treinamento no SWE-bench Verified entre os modelos de fronteira. Trate as pontuações públicas como direcionais, e não como definitivas; as diferenças comportamentais estruturadas (precisão de chamadas de ferramenta, confiabilidade de uso de computador, qualidade do patch na primeira tentativa) são o sinal mais duradouro.

O que se destaca no GPT-5.5

Principais recursos de arquitetura e capacidade.

O GPT-5.5 mantém a janela de contexto de 400K tokens do GPT-5.4, cobrada com preço de entrada padrão em toda a janela. Ele suporta o parâmetro reasoning_effort em quatro níveis (minimal, low, medium, high), cache de prompt em que a entrada em cache é cobrada a um décimo da taxa de entrada e a superfície da Responses API que o codex CLI usa por padrão. Uso de ferramentas, structured outputs e uso de computador permanecem inalterados em relação ao 5.4. As entradas são multimodais entre texto, visão e código; o modelo não tem geração nativa de imagens (use a Images API para isso).

Especificações em resumo

FamíliaGeração GPT-5

ModalidadesTexto, visão, código

IdiomasFoco em inglês, multilíngue

Cache de promptCompatível (OpenAI)

Janela de contexto400K tokens

Saída máximaAté 128K tokens

Esforço de raciocínioMinimal / Low / Medium / High

Preço de tabela do fornecedor$5 entrada / $30 saída por 1M

Benchmarks do GPT-5.5

Pontuações reportadas pelo fornecedor, vindas dos materiais de lançamento do GPT-5.5 da OpenAI, com as variações mostradas em relação aos números públicos do GPT-5.4. Análises independentes colocam o 5.5 a poucos pontos do Claude Opus 4.7 em tarefas de codificação agêntica. Trate as porcentagens absolutas como direcionais; a OpenAI sinalizou contaminação de dados de treinamento no SWE-bench Verified em todos os modelos de fronteira.

SWE-bench Verifiedreportado pelo fornecedor; acima dos 74,9% do 5.4

~82%

Terminal-Bench 2.0uso de ferramentas reportado pelo fornecedor

~69%

AIME 2025 (sem ferramentas)matemática de competição reportada pelo fornecedor

~96%

GPQA Diamondciência de pós-graduação reportada pelo fornecedor

~89%

OSWorld (uso de computador)reportado pelo fornecedor

~74%

MMMU (multimodal)reportado pelo fornecedor

Lidera a família GPT-5

VelocidadeArtificial Analysis, esforço médio

~70 tokens/sec

Preços do GPT-5.5

Preço de tabela do provedor, por 1M de tokens.

Entrada$5.00

Saída$30.00

Leitura de cache$0.50

Escrita de cacheNão cobrado

Como o GPT-5.5 se comporta na prática

Comportamento observado em execuções de agentes em produção.

Roteamento de ferramentas

A menor taxa de chamadas de ferramenta mal roteadas na família GPT-5. A diferença em relação ao 5.4 aumenta em casos extremos difíceis, como seleção condicional de ferramentas, argumentos profundamente aninhados e chamadas de ferramenta disparadas após longos trechos de raciocínio.

Edições de código na primeira tentativa

A maior qualidade de patch na família GPT-5. A escolha certa quando um agente precisa modificar código que deve continuar compilando e passando nos testes, especialmente quando o patch abrange vários arquivos. O SWE-bench Verified reportado pelo fornecedor reflete isso diretamente.

Uso de computador

Bem mais confiável que o 5.4 em sequências de GUI de múltiplas etapas, que é o que a diferença no OSWorld captura. Recorra a ele quando o agente estiver conduzindo um navegador ou aplicativo de desktop ao longo de dezenas de etapas e o custo de um descarrilamento no meio da execução for alto.

Velocidade

Mais lento que o 5.4 e notavelmente mais lento que o 5.4 Mini. Cerca de 70 tokens/sec em esforço médio, segundo a Artificial Analysis. Reserve-o para as etapas que realmente precisam da profundidade extra de raciocínio e rode camadas mais leves em paralelo.

Comportamento de alucinação

O GPT-5.5 carrega a calibração mais rigorosa da OpenAI da geração GPT-5 e tende a admitir incerteza em vez de inventar, o que é o motivo pelo qual times de produção continuam pagando o prêmio para raciocínio de alto risco, apesar de alternativas mais baratas como o DeepSeek V4 Pro agora o igualarem em benchmarks.

Melhores tarefas de agente para o GPT-5.5

O orquestrador que executa um plano com múltiplas ferramentas

Use o GPT-5.5 como o planejador que quebra a solicitação de um cliente em dez etapas, despacha cada etapa para um subagente do nível GPT-5.4 ou 5.4 Mini e costura os resultados de volta. Rodar o 5.5 apenas na camada do planejador (e as camadas mais baratas em todo o resto) custa uma fração de rodar o 5.5 de ponta a ponta, preservando a maior parte da qualidade.

As edições de código de primeira que não desperdiçam uma rodada de CI

Peça ao GPT-5.5 para migrar uma base de código de 50 arquivos de um ORM para outro, refatorar um módulo emaranhado ou aplicar uma correção de segurança em todo o repositório. O patch é aplicado de forma limpa na primeira tentativa com mais frequência do que qualquer outro modelo da família, e é exatamente isso que sua conta de CI vai refletir.

O agente de uso de computador que tem de concluir o fluxo

Quando o agente está conduzindo um navegador por um fluxo de reserva de várias etapas, um aplicativo de desktop ou uma interface administrativa legada, a pontuação mais alta do 5.5 no OSWorld se traduz em menos descarrilamentos no meio da execução e menos intervenções humanas. O prêmio se paga na primeira vez que uma sessão longa não precisa ser reiniciada.

A etapa de pesquisa de matemática ou ciência difícil

Lance um conjunto de problemas de matemática de nível de competição ou uma derivação de física de pós-graduação e o 5.5 vai resolvê-lo sem os deslizes de um a mais ou um a menos que você vê no 5.4. AIME 2025 e GPQA Diamond captam exatamente esse tipo de comportamento.

Quando dispensar o GPT-5.5

Evite o GPT-5.5 em trabalho rotineiro de alto volume, em que o GPT-5.4 atinge o mesmo nível de qualidade pela metade do custo em créditos, em respostas de chat sensíveis à latência, em que o GPT-5.4 Mini é bem mais rápido, e em tarefas de classificação ou extração em massa, em que o GPT-5.4 Mini é a opção em massa mais barata e compatível.

GPT-5.5 vs outros modelos

GPT-5.5 vs GPT-5.4

O GPT-5.4 é o padrão cavalo de batalha da família GPT-5 e a escolha certa para a maioria dos agentes. Promova para o GPT-5.5 apenas quando o 5.4 falhar visivelmente em raciocínio difícil, loops agênticos longos ou edições de código na primeira tentativa, normalmente como o orquestrador que delega para baixo a subagentes do nível 5.4 ou 5.4 Mini.

GPT-5.5 vs Claude Opus 4.7

Mesmo papel em famílias diferentes: o orquestrador de alto risco e o modelo para o qual você escala quando a camada mais barata falha. O Opus 4.7 tem a janela de contexto de 1M tokens e o perfil de segurança da Anthropic; o GPT-5.5 tem pontuações de uso de computador mais fortes e é a escolha natural para times que já estão no framework Codex. Escolha pelo framework e ecossistema que seus agentes existentes têm como alvo.

GPT-5.5 vs Gemini 3 Pro

O Gemini 3 Pro lidera em raciocínio bruto de contexto longo (janela de 2M tokens) e em alguns benchmarks multimodais. O GPT-5.5 lidera em codificação agêntica (SWE-bench Verified, Terminal-Bench) e uso de computador. Escolha o GPT-5.5 quando o agente edita código ou conduz uma interface; escolha o Gemini 3 Pro quando a carga de trabalho for compreensão pesada de documentos ou vídeo.

Conclusão: você deveria usar o GPT-5.5?

O GPT-5.5 é a camada de escalonamento do lado da OpenAI. Use o GPT-5.4 como padrão; promova para o 5.5 apenas nas etapas específicas em que o 5.4 falha visivelmente.

Perguntas frequentes

Qual é a janela de contexto do GPT-5.5?

400.000 tokens, com até 128K tokens de saída por resposta. A janela inteira é cobrada com tarifas padrão.

O GPT-5.5 consegue lidar com imagens?

Sim. O GPT-5.5 é multimodal. Ele aceita entradas de imagem junto com texto e código, então agentes baseados em capturas de tela e visão de documentos funcionam nativamente. Para geração de imagens, use a Images API da OpenAI.

Quando devo escolher o GPT-5.5 em vez do GPT-5.4?

Quando (a) o agente é o planejador / orquestrador e as decisões cascateiam, (b) a execução é longa o suficiente para o 5.4 começar a errar o roteamento de chamadas de ferramenta, ou (c) a saída precisa ser aplicada de forma limpa na primeira tentativa (edições de código, payloads estruturados, fluxos de uso de computador).

O GPT-5.5 suporta cache de prompt?

Sim. A entrada em cache é cobrada a $0,50 por 1M tokens — um desconto de 10× na parte em cache. Vale usar sempre que seu system prompt ou schema de ferramentas for estável entre as chamadas.

Qual framework o GPT-5.5 usa na VM0?

Codex. A VM0 roteia o GPT-5.5 pela superfície da Responses API do framework Codex, que é o que o codex CLI usa por padrão. Agentes do framework Claude Code não são compatíveis com modelos GPT-5 na VM0.

Alternativas

GPT-5.4

Metade dos créditos, mesma família

Claude Opus 4.7

Carro-chefe equivalente do lado Claude

Claude Sonnet 4.6

Padrão cavalo de batalha a ×1 créditos

Usando o GPT-5.5 na VM0

Duas formas de acessar o GPT-5.5 na VM0

A VM0 suporta o GPT-5.5 como um modelo Built-in cobrado em créditos VM0 e via bring-your-own com uma OpenAI API key. O caminho Built-in usa o roteamento Gerenciado da VM0 e o multiplicador de créditos explicado abaixo; o caminho bring-your-own cobra você diretamente com o fornecedor upstream e pula totalmente a conversão de créditos da VM0.

A recomendação da VM0

A VM0 posiciona o GPT-5.5 como um modelo de agente central, recomendado ao lado do Claude Opus 4.7, do Claude Opus 4.6 e do Claude Sonnet 4.6 para os passos que determinam o resultado de fato de uma execução de agente. São os modelos que escolheríamos para o papel de orquestrador, para agentes que tocam em código e para qualquer passo em que uma resposta errada sai cara.

Créditos e o multiplicador ×2

Todo modelo Built-in na VM0 é precificado como um múltiplo do Claude Sonnet 4.6, que fica na linha de base de ×1 crédito. O GPT-5.5 cobra a ×2 créditos. O multiplicador é o que aparece na sua fatura da VM0; o preço de tabela do fornecedor na tabela de preços acima é o que o provedor upstream cobra antes de a VM0 convertê-lo em créditos.

O GPT-5.5 cobra a ×2, o que significa que um passo aqui custa 2× os créditos de um passo equivalente no Sonnet 4.6 (a linha de base de ×1). É um tier premium na VM0, então o padrão custo-efetivo é usar por padrão um modelo mais barato e rotear para o GPT-5.5 apenas os passos que de fato precisam da profundidade extra de raciocínio.

Disponível na VM0 desde April 2026.