GPT-5.5 en VM0. El modelo de razonamiento insignia de OpenAI

El buque insignia de OpenAI de la familia GPT-5. La opción más potente para codificación agéntica, razonamiento profundo y bucles de computer-use en el nivel OpenAI.

400K tokens · Text / Vision / Code · Prompt cache

Usar GPT-5.5 en VM0

GPT-5.5 es el modelo al que recurres cuando el trabajo requiere tanto razonamiento profundo como uso fiable de herramientas: orquestar bucles de agente de múltiples pasos, ediciones de código que deben salir bien al primer intento y flujos de computer-use que abarcan muchas acciones de GUI. Los benchmarks del proveedor (SWE-bench Verified, AIME 2025, GPQA Diamond) ponen cifras concretas a las mejoras sobre GPT-5.4.

El precio de lista del proveedor es de $5 / $30 por 1M tokens con entrada cacheada a $0,50 / 1M. Es el modelo más caro del catálogo Built-in de VM0 a ×2 créditos, por lo que el patrón rentable es mantener GPT-5.4 o Claude Sonnet 4.6 como predeterminado universal y enrutar solo los pasos más difíciles a GPT-5.5.

¿Qué es GPT-5.5?

Abril 2026 (sucediendo a GPT-5.4) · Nivel superior de la familia GPT-5. El buque insignia de OpenAI para codificación agéntica y razonamiento.

GPT-5.5 es el buque insignia de la generación GPT-5 de OpenAI, lanzado en abril de 2026 como la actualización recomendada desde GPT-5.4. OpenAI lo presenta como una mejora sustancial en uso agéntico de herramientas y tareas de computer-use, no como un simple refresco de la API superficial. La ventana de contexto de 400K tokens y el parámetro reasoning_effort introducidos con GPT-5 se mantienen sin cambios, por lo que los agentes Codex existentes funcionan sin reescrituras.

En comparación con GPT-5.4 (el caballo de batalla de la misma familia), GPT-5.5 invierte más cómputo por token en razonamiento. El beneficio práctico se manifiesta en tres áreas: parches de código significativamente mejores al primer intento en refactorizaciones multi-archivo, materialmente menos llamadas a herramientas mal enrutadas en bucles de agente largos y mejoras notables en razonamiento científico de nivel posgrado (GPQA Diamond) y matemáticas de competición (AIME 2025). El compromiso es el precio de lista más alto entre las variantes GPT-5 ($5 / $30 por 1M tokens) y un multiplicador de ×2 créditos en VM0, razón por la cual OpenAI mismo posiciona a GPT-5.5 como el planificador o nivel de escalación en lugar del predeterminado universal.

Los rankings independientes (Artificial Analysis, Vellum) corroboran el orden relativo frente a GPT-5.4 y sitúan a GPT-5.5 a pocos puntos de Claude Opus 4.7 en la mayoría de tareas de codificación agéntica. Las cifras absolutas cambian semanalmente y OpenAI mismo ha señalado contaminación de datos de entrenamiento en SWE-bench Verified en todos los modelos frontera. Trata las puntuaciones públicas como direccionales en lugar de autoritativas; las diferencias estructurales de comportamiento (precisión de llamada a herramientas, fiabilidad de computer-use, calidad de parche al primer intento) son la señal más duradera.

Qué destaca de GPT-5.5

Características principales de arquitectura y capacidades.

GPT-5.5 mantiene la ventana de contexto de 400K tokens de GPT-5.4, facturada a precio de entrada estándar en toda la ventana. Soporta el parámetro reasoning_effort en cuatro niveles (mínimo, bajo, medio, alto), Prompt Caching donde la entrada cacheada se factura a una décima parte de la tarifa de entrada, y la superficie de la Responses API que usa el codex CLI por defecto. Tool-Use, salidas estructuradas y computer-use no cambian respecto a 5.4. Las entradas son multimodales: texto, visión y código; el modelo no tiene generación nativa de imágenes (usa la Images API para eso).

Especificaciones rápidas

FamiliaGeneración GPT-5

ModalidadesTexto, visión, código

IdiomasInglés primero, multilingüe

Prompt CachingSoportado (OpenAI)

Ventana de contexto400K tokens

Salida máximaHasta 128K tokens

Reasoning effortMínimo / Bajo / Medio / Alto

Precio listado$5 entrada / $30 salida por 1M

Benchmarks de GPT-5.5

Puntuaciones reportadas por el proveedor de los materiales de lanzamiento de GPT-5.5 de OpenAI, con deltas mostrados contra las cifras públicas de GPT-5.4. Las reseñas independientes sitúan a 5.5 a pocos puntos de Claude Opus 4.7 en tareas de codificación agéntica. Trata los porcentajes absolutos como direccionales; OpenAI ha señalado contaminación de datos de entrenamiento en SWE-bench Verified en todos los modelos frontera.

SWE-bench Verifiedreportado por el proveedor; sube desde 74,9% de 5.4

~82%

Terminal-Bench 2.0uso de herramientas reportado por el proveedor

~69%

AIME 2025 (sin herramientas)matemáticas de competición reportadas por el proveedor

~96%

GPQA Diamondciencia de nivel posgrado reportada por el proveedor

~89%

OSWorld (computer use)reportado por el proveedor

~74%

MMMU (multimodal)reportado por el proveedor

Lidera la familia GPT-5

VelocidadArtificial Analysis, esfuerzo medio

~70 tokens/seg

Precios de GPT-5.5

Precio de lista del proveedor, por 1M de tokens.

Input$5.00

Output$30.00

Lectura de caché$0.50

Escritura de cachéNo facturado

Cómo se comporta GPT-5.5 en la práctica

Comportamiento observado en ejecuciones de agentes en producción.

Enrutamiento de herramientas

La tasa más baja de llamadas a herramientas mal enrutadas en la familia GPT-5. La brecha frente a 5.4 se amplía en casos límite difíciles como selección condicional de herramientas, argumentos profundamente anidados y llamadas a herramientas despachadas después de largos tramos de razonamiento.

Ediciones de código al primer intento

La mejor calidad de parche en la familia GPT-5. La opción correcta cuando un agente debe modificar código que debe seguir compilando y pasando pruebas, especialmente cuando el parche abarca múltiples archivos. SWE-bench Verified reportado por el proveedor refleja esto directamente.

Computer use

Materialmente más fiable que 5.4 en secuencias de GUI de múltiples pasos, que es lo que captura el delta de OSWorld. Recurre a él cuando el agente está manejando un navegador o aplicación de escritorio durante decenas de pasos y el costo de una descarrilamiento a mitad de ejecución es alto.

Velocidad

Más lento que 5.4 y notablemente más lento que 5.4 Mini. Alrededor de 70 tokens/seg en esfuerzo medio según Artificial Analysis. Resérvalo para los pasos que realmente necesitan la profundidad de razonamiento adicional y ejecuta niveles más ligeros en paralelo.

Comportamiento de alucinación

GPT-5.5 lleva la calibración más estricta de OpenAI de la generación GPT-5 y tiende a admitir incertidumbre en lugar de confabular, razón por la cual los equipos de producción siguen pagando la prima por razonamiento de alto riesgo a pesar de que alternativas más baratas como DeepSeek V4 Pro ahora lo igualan en benchmarks.

Mejores tareas para GPT-5.5

El orquestador ejecutando un plan multi-herramienta

Usa GPT-5.5 como el planificador que divide la solicitud de un cliente en diez pasos, despacha cada paso a un sub-agente de nivel GPT-5.4 o 5.4 Mini, y une los resultados. Ejecutar 5.5 solo en la capa de planificación (y los niveles más baratos en el resto) cuesta una fracción de ejecutar 5.5 de principio a fin, conservando la mayor parte de la calidad.

Las ediciones de código al primer intento que no desperdician una ejecución de CI

Pide a GPT-5.5 que migre un código base de 50 archivos de un ORM a otro, refactorice un módulo enredado o aplique una corrección de seguridad en todo el repositorio. El parche se aplica limpiamente al primer intento con más frecuencia que cualquier otro modelo de la familia, y eso es exactamente lo que tu factura de CI reflejará.

El agente de computer-use que debe terminar el flujo

Cuando el agente está manejando un navegador a través de un flujo de reserva de múltiples pasos, una aplicación de escritorio o una interfaz administrativa heredada, la mejor puntuación OSWorld de 5.5 se traduce en menos descarrilamientos a mitad de ejecución y menos intervenciones humanas. La prima se paga por sí sola la primera vez que una sesión larga no debe reiniciarse.

El paso de investigación de matemáticas o ciencia difícil

Suelta un conjunto de problemas de matemáticas de competición o una derivación de física de posgrado y 5.5 lo trabajará sin los errores por uno que ves en 5.4. AIME 2025 y GPQA Diamond capturan exactamente este tipo de comportamiento.

Cuándo evitar GPT-5.5

Evita GPT-5.5 en trabajo rutinario de alto volumen donde GPT-5.4 alcanza la misma calidad a la mitad del costo en créditos, en respuestas de chat sensibles a la latencia donde GPT-5.4 Mini es mucho más rápido, y en trabajos de clasificación o extracción masiva donde GPT-5.4 Mini es aproximadamente 35× más barato a nivel de proveedor.

GPT-5.5 vs otros modelos

GPT-5.5 vs GPT-5.4

GPT-5.4 es el caballo de batalla predeterminado en la familia GPT-5 y la opción correcta para la mayoría de agentes. Promueve a GPT-5.5 solo cuando 5.4 falla visiblemente en razonamiento difícil, bucles agénticos largos o ediciones de código al primer intento, usualmente como el orquestador que delega hacia abajo a sub-agentes de nivel 5.4 o 5.4 Mini.

GPT-5.5 vs Claude Opus 4.7

Mismo rol en familias diferentes: el orquestador de alto riesgo y el modelo al que escalas cuando el nivel más barato falla. Opus 4.7 tiene la ventana de contexto de 1M tokens y el perfil de seguridad de Anthropic; GPT-5.5 tiene mejores puntuaciones de computer-use y es la opción natural para equipos ya en el framework Codex. Elige según qué framework y ecosistema apuntan tus agentes existentes.

GPT-5.5 vs Gemini 3 Pro

Gemini 3 Pro lidera en razonamiento bruto de contexto largo (ventana de 2M tokens) y en algunos benchmarks multimodales. GPT-5.5 lidera en codificación agéntica (SWE-bench Verified, Terminal-Bench) y computer use. Elige GPT-5.5 cuando el agente edita código o maneja una UI; elige Gemini 3 Pro cuando la carga de trabajo es comprensión pesada de documentos o video.

Conclusión: ¿deberías usar GPT-5.5?

GPT-5.5 es el nivel de escalación del lado OpenAI. Usa GPT-5.4 por defecto; promueve a 5.5 solo en los pasos específicos donde 5.4 falla visiblemente.

Preguntas frecuentes

¿Cuál es la ventana de contexto de GPT-5.5?

400.000 tokens, con hasta 128K tokens de salida por respuesta. La ventana completa se factura a tarifas estándar.

¿Puede GPT-5.5 manejar imágenes?

Sí. GPT-5.5 es multimodal. Acepta entradas de imagen junto con texto y código, por lo que los agentes basados en capturas de pantalla y visión de documentos funcionan de forma nativa. Para generación de imágenes usa la OpenAI Images API.

¿Cuándo debería elegir GPT-5.5 sobre GPT-5.4?

Cuando (a) el agente es el planificador / orquestador y las decisiones se propagan en cascada, (b) la ejecución es lo suficientemente larga como para que 5.4 empiece a mal enrutar llamadas a herramientas, o (c) la salida debe aplicarse limpiamente al primer intento (ediciones de código, cargas estructuradas, flujos de computer-use).

¿GPT-5.5 soporta Prompt Caching?

Sí. La entrada cacheada se factura a $0,50 por 1M tokens — un descuento del 10× en la porción cacheada. Vale la pena usarlo cuando tu prompt de sistema o esquema de herramientas es estable entre llamadas.

¿Qué framework usa GPT-5.5 en VM0?

Codex. VM0 enruta GPT-5.5 a través de la superficie Responses API del framework Codex, que es lo que usa codex CLI por defecto. Los agentes del framework Claude Code no son compatibles con modelos GPT-5 en VM0.

Alternativas

GPT-5.4

Mitad de créditos, misma familia

Claude Opus 4.7

Buque insignia par del lado Claude

Claude Sonnet 4.6

Caballo de batalla predeterminado a ×1 créditos

Usar GPT-5.5 en VM0

Dos formas de acceder a GPT-5.5 en VM0

VM0 admite GPT-5.5 como modelo Built-in facturado en créditos VM0, y mediante bring-your-own con una OpenAI API key. La ruta Built-in usa enrutamiento gestionado de VM0 y el multiplicador de créditos explicado abajo; la ruta bring-your-own te factura directamente con el proveedor upstream y omite la conversión de créditos VM0.

Recomendación de VM0

VM0 posiciona GPT-5.5 como modelo principal de agente, recomendado junto a Claude Opus 4.7, Claude Opus 4.6 y Claude Sonnet 4.6 para los pasos que determinan el resultado real de una ejecución. Estos son los modelos que elegimos para el rol de orquestador, para agentes que trabajan con código y para cualquier paso donde una respuesta incorrecta sea costosa.

Créditos y el multiplicador ×2

Cada modelo Built-in en VM0 se valora como un múltiplo de Claude Sonnet 4.6, que establece la base de ×1 crédito. GPT-5.5 factura a ×2 créditos. El multiplicador es lo que aparece en tu factura de VM0; el precio de lista del proveedor en la tabla de arriba es lo que cobra el proveedor upstream antes de que VM0 lo convierta en créditos.

GPT-5.5 factura a ×2, lo que significa que un paso aquí cuesta 2× los créditos de un paso equivalente en Sonnet 4.6 (la base ×1). Es un nivel premium en VM0, por lo que el patrón rentable es usar por defecto un modelo más barato y enrutar solo los pasos que realmente necesitan la profundidad de razonamiento adicional a GPT-5.5.

Disponible en VM0 desde April 2026.

¿Qué es GPT-5.5?

Qué destaca de GPT-5.5

Especificaciones rápidas

Benchmarks de GPT-5.5

Precios de GPT-5.5

Cómo se comporta GPT-5.5 en la práctica

Enrutamiento de herramientas

Ediciones de código al primer intento

Computer use

Velocidad

Comportamiento de alucinación

Mejores tareas para GPT-5.5

El orquestador ejecutando un plan multi-herramienta

Las ediciones de código al primer intento que no desperdician una ejecución de CI

El agente de computer-use que debe terminar el flujo

El paso de investigación de matemáticas o ciencia difícil

Cuándo evitar GPT-5.5

GPT-5.5 vs otros modelos

GPT-5.5 vs GPT-5.4

GPT-5.5 vs Claude Opus 4.7

GPT-5.5 vs Gemini 3 Pro

Conclusión: ¿deberías usar GPT-5.5?

Preguntas frecuentes

¿Cuál es la ventana de contexto de GPT-5.5?

¿Puede GPT-5.5 manejar imágenes?

¿Cuándo debería elegir GPT-5.5 sobre GPT-5.4?

¿GPT-5.5 soporta Prompt Caching?

¿Qué framework usa GPT-5.5 en VM0?

Alternativas

Usar GPT-5.5 en VM0

Dos formas de acceder a GPT-5.5 en VM0

Recomendación de VM0

Créditos y el multiplicador ×2

Más modelos en VM0