GPT-5.5 en VM0. El modelo de razonamiento insignia de OpenAI
El buque insignia de OpenAI de la familia GPT-5. La opción más potente para codificación agéntica, razonamiento profundo y bucles de computer-use en el nivel OpenAI.
400K tokens · Text / Vision / Code · Prompt cache
GPT-5.5 es el modelo al que recurres cuando el trabajo requiere tanto razonamiento profundo como uso fiable de herramientas: orquestar bucles de agente de múltiples pasos, ediciones de código que deben salir bien al primer intento y flujos de computer-use que abarcan muchas acciones de GUI. Los benchmarks del proveedor (SWE-bench Verified, AIME 2025, GPQA Diamond) ponen cifras concretas a las mejoras sobre GPT-5.4.
El precio de lista del proveedor es de $5 / $30 por 1M tokens con entrada cacheada a $0,50 / 1M. Es el modelo más caro del catálogo Built-in de VM0 a ×2 créditos, por lo que el patrón rentable es mantener GPT-5.4 o Claude Sonnet 4.6 como predeterminado universal y enrutar solo los pasos más difíciles a GPT-5.5.
¿Qué es GPT-5.5?
Abril 2026 (sucediendo a GPT-5.4) · Nivel superior de la familia GPT-5. El buque insignia de OpenAI para codificación agéntica y razonamiento.
GPT-5.5 es el buque insignia de la generación GPT-5 de OpenAI, lanzado en abril de 2026 como la actualización recomendada desde GPT-5.4. OpenAI lo presenta como una mejora sustancial en uso agéntico de herramientas y tareas de computer-use, no como un simple refresco de la API superficial. La ventana de contexto de 400K tokens y el parámetro reasoning_effort introducidos con GPT-5 se mantienen sin cambios, por lo que los agentes Codex existentes funcionan sin reescrituras.
En comparación con GPT-5.4 (el caballo de batalla de la misma familia), GPT-5.5 invierte más cómputo por token en razonamiento. El beneficio práctico se manifiesta en tres áreas: parches de código significativamente mejores al primer intento en refactorizaciones multi-archivo, materialmente menos llamadas a herramientas mal enrutadas en bucles de agente largos y mejoras notables en razonamiento científico de nivel posgrado (GPQA Diamond) y matemáticas de competición (AIME 2025). El compromiso es el precio de lista más alto entre las variantes GPT-5 ($5 / $30 por 1M tokens) y un multiplicador de ×2 créditos en VM0, razón por la cual OpenAI mismo posiciona a GPT-5.5 como el planificador o nivel de escalación en lugar del predeterminado universal.
Los rankings independientes (Artificial Analysis, Vellum) corroboran el orden relativo frente a GPT-5.4 y sitúan a GPT-5.5 a pocos puntos de Claude Opus 4.7 en la mayoría de tareas de codificación agéntica. Las cifras absolutas cambian semanalmente y OpenAI mismo ha señalado contaminación de datos de entrenamiento en SWE-bench Verified en todos los modelos frontera. Trata las puntuaciones públicas como direccionales en lugar de autoritativas; las diferencias estructurales de comportamiento (precisión de llamada a herramientas, fiabilidad de computer-use, calidad de parche al primer intento) son la señal más duradera.
Qué destaca de GPT-5.5
Características principales de arquitectura y capacidades.
GPT-5.5 mantiene la ventana de contexto de 400K tokens de GPT-5.4, facturada a precio de entrada estándar en toda la ventana. Soporta el parámetro reasoning_effort en cuatro niveles (mínimo, bajo, medio, alto), Prompt Caching donde la entrada cacheada se factura a una décima parte de la tarifa de entrada, y la superficie de la Responses API que usa el codex CLI por defecto. Tool-Use, salidas estructuradas y computer-use no cambian respecto a 5.4. Las entradas son multimodales: texto, visión y código; el modelo no tiene generación nativa de imágenes (usa la Images API para eso).
Especificaciones rápidas
Benchmarks de GPT-5.5
Puntuaciones reportadas por el proveedor de los materiales de lanzamiento de GPT-5.5 de OpenAI, con deltas mostrados contra las cifras públicas de GPT-5.4. Las reseñas independientes sitúan a 5.5 a pocos puntos de Claude Opus 4.7 en tareas de codificación agéntica. Trata los porcentajes absolutos como direccionales; OpenAI ha señalado contaminación de datos de entrenamiento en SWE-bench Verified en todos los modelos frontera.
Precios de GPT-5.5
Precio de lista del proveedor, por 1M de tokens.
Cómo se comporta GPT-5.5 en la práctica
Comportamiento observado en ejecuciones de agentes en producción.
Enrutamiento de herramientas
La tasa más baja de llamadas a herramientas mal enrutadas en la familia GPT-5. La brecha frente a 5.4 se amplía en casos límite difíciles como selección condicional de herramientas, argumentos profundamente anidados y llamadas a herramientas despachadas después de largos tramos de razonamiento.
Ediciones de código al primer intento
La mejor calidad de parche en la familia GPT-5. La opción correcta cuando un agente debe modificar código que debe seguir compilando y pasando pruebas, especialmente cuando el parche abarca múltiples archivos. SWE-bench Verified reportado por el proveedor refleja esto directamente.
Computer use
Materialmente más fiable que 5.4 en secuencias de GUI de múltiples pasos, que es lo que captura el delta de OSWorld. Recurre a él cuando el agente está manejando un navegador o aplicación de escritorio durante decenas de pasos y el costo de una descarrilamiento a mitad de ejecución es alto.
Velocidad
Más lento que 5.4 y notablemente más lento que 5.4 Mini. Alrededor de 70 tokens/seg en esfuerzo medio según Artificial Analysis. Resérvalo para los pasos que realmente necesitan la profundidad de razonamiento adicional y ejecuta niveles más ligeros en paralelo.
Comportamiento de alucinación
GPT-5.5 lleva la calibración más estricta de OpenAI de la generación GPT-5 y tiende a admitir incertidumbre en lugar de confabular, razón por la cual los equipos de producción siguen pagando la prima por razonamiento de alto riesgo a pesar de que alternativas más baratas como DeepSeek V4 Pro ahora lo igualan en benchmarks.
Mejores tareas para GPT-5.5
El orquestador ejecutando un plan multi-herramienta
Usa GPT-5.5 como el planificador que divide la solicitud de un cliente en diez pasos, despacha cada paso a un sub-agente de nivel GPT-5.4 o 5.4 Mini, y une los resultados. Ejecutar 5.5 solo en la capa de planificación (y los niveles más baratos en el resto) cuesta una fracción de ejecutar 5.5 de principio a fin, conservando la mayor parte de la calidad.
Las ediciones de código al primer intento que no desperdician una ejecución de CI
Pide a GPT-5.5 que migre un código base de 50 archivos de un ORM a otro, refactorice un módulo enredado o aplique una corrección de seguridad en todo el repositorio. El parche se aplica limpiamente al primer intento con más frecuencia que cualquier otro modelo de la familia, y eso es exactamente lo que tu factura de CI reflejará.
El agente de computer-use que debe terminar el flujo
Cuando el agente está manejando un navegador a través de un flujo de reserva de múltiples pasos, una aplicación de escritorio o una interfaz administrativa heredada, la mejor puntuación OSWorld de 5.5 se traduce en menos descarrilamientos a mitad de ejecución y menos intervenciones humanas. La prima se paga por sí sola la primera vez que una sesión larga no debe reiniciarse.
El paso de investigación de matemáticas o ciencia difícil
Suelta un conjunto de problemas de matemáticas de competición o una derivación de física de posgrado y 5.5 lo trabajará sin los errores por uno que ves en 5.4. AIME 2025 y GPQA Diamond capturan exactamente este tipo de comportamiento.
Cuándo evitar GPT-5.5
Evita GPT-5.5 en trabajo rutinario de alto volumen donde GPT-5.4 alcanza la misma calidad a la mitad del costo en créditos, en respuestas de chat sensibles a la latencia donde GPT-5.4 Mini es mucho más rápido, y en trabajos de clasificación o extracción masiva donde DeepSeek V4 Flash es aproximadamente 35× más barato a nivel de proveedor.
GPT-5.5 vs otros modelos
GPT-5.5 vs GPT-5.4
GPT-5.4 es el caballo de batalla predeterminado en la familia GPT-5 y la opción correcta para la mayoría de agentes. Promueve a GPT-5.5 solo cuando 5.4 falla visiblemente en razonamiento difícil, bucles agénticos largos o ediciones de código al primer intento, usualmente como el orquestador que delega hacia abajo a sub-agentes de nivel 5.4 o 5.4 Mini.
GPT-5.5 vs Claude Opus 4.7
Mismo rol en familias diferentes: el orquestador de alto riesgo y el modelo al que escalas cuando el nivel más barato falla. Opus 4.7 tiene la ventana de contexto de 1M tokens y el perfil de seguridad de Anthropic; GPT-5.5 tiene mejores puntuaciones de computer-use y es la opción natural para equipos ya en el framework Codex. Elige según qué framework y ecosistema apuntan tus agentes existentes.
GPT-5.5 vs Gemini 3 Pro
Gemini 3 Pro lidera en razonamiento bruto de contexto largo (ventana de 2M tokens) y en algunos benchmarks multimodales. GPT-5.5 lidera en codificación agéntica (SWE-bench Verified, Terminal-Bench) y computer use. Elige GPT-5.5 cuando el agente edita código o maneja una UI; elige Gemini 3 Pro cuando la carga de trabajo es comprensión pesada de documentos o video.
Conclusión: ¿deberías usar GPT-5.5?
GPT-5.5 es el nivel de escalación del lado OpenAI. Usa GPT-5.4 por defecto; promueve a 5.5 solo en los pasos específicos donde 5.4 falla visiblemente.
Preguntas frecuentes
¿Cuál es la ventana de contexto de GPT-5.5?
400.000 tokens, con hasta 128K tokens de salida por respuesta. La ventana completa se factura a tarifas estándar.
¿Puede GPT-5.5 manejar imágenes?
Sí. GPT-5.5 es multimodal. Acepta entradas de imagen junto con texto y código, por lo que los agentes basados en capturas de pantalla y visión de documentos funcionan de forma nativa. Para generación de imágenes usa la OpenAI Images API.
¿Cuándo debería elegir GPT-5.5 sobre GPT-5.4?
Cuando (a) el agente es el planificador / orquestador y las decisiones se propagan en cascada, (b) la ejecución es lo suficientemente larga como para que 5.4 empiece a mal enrutar llamadas a herramientas, o (c) la salida debe aplicarse limpiamente al primer intento (ediciones de código, cargas estructuradas, flujos de computer-use).
¿GPT-5.5 soporta Prompt Caching?
Sí. La entrada cacheada se factura a $0,50 por 1M tokens — un descuento del 10× en la porción cacheada. Vale la pena usarlo cuando tu prompt de sistema o esquema de herramientas es estable entre llamadas.
¿Qué framework usa GPT-5.5 en VM0?
Codex. VM0 enruta GPT-5.5 a través de la superficie Responses API del framework Codex, que es lo que usa codex CLI por defecto. Los agentes del framework Claude Code no son compatibles con modelos GPT-5 en VM0.
Alternativas
Usar GPT-5.5 en VM0
Dos formas de acceder a GPT-5.5 en VM0
VM0 admite GPT-5.5 como modelo Built-in facturado en créditos VM0, y mediante bring-your-own con una OpenAI API key. La ruta Built-in usa enrutamiento gestionado de VM0 y el multiplicador de créditos explicado abajo; la ruta bring-your-own te factura directamente con el proveedor upstream y omite la conversión de créditos VM0.
Recomendación de VM0
VM0 posiciona GPT-5.5 como modelo principal de agente, recomendado junto a Claude Opus 4.7, Claude Opus 4.6 y Claude Sonnet 4.6 para los pasos que determinan el resultado real de una ejecución. Estos son los modelos que elegimos para el rol de orquestador, para agentes que trabajan con código y para cualquier paso donde una respuesta incorrecta sea costosa.
Créditos y el multiplicador ×2
Cada modelo Built-in en VM0 se valora como un múltiplo de Claude Sonnet 4.6, que establece la base de ×1 crédito. GPT-5.5 factura a ×2 créditos. El multiplicador es lo que aparece en tu factura de VM0; el precio de lista del proveedor en la tabla de arriba es lo que cobra el proveedor upstream antes de que VM0 lo convierta en créditos.
GPT-5.5 factura a ×2, lo que significa que un paso aquí cuesta 2× los créditos de un paso equivalente en Sonnet 4.6 (la base ×1). Es un nivel premium en VM0, por lo que el patrón rentable es usar por defecto un modelo más barato y enrutar solo los pasos que realmente necesitan la profundidad de razonamiento adicional a GPT-5.5.
Disponible en VM0 desde April 2026.