GPT-5.4 en VM0. El caballo de batalla de OpenAI

El caballo de batalla de OpenAI de la familia GPT-5. Se sitúa en la línea base de ×1 créditos junto con Claude Sonnet 4.6 y es el predeterminado correcto para la mayoría de agentes del framework Codex.

400K tokens · Text / Vision / Code · Prompt cache

Usar GPT-5.4 en VM0

GPT-5.4 es el caballo de batalla de la familia GPT-5 de OpenAI — el modelo que mantienes ejecutándose en todas partes por defecto. SWE-bench Verified reportado por el proveedor a 74,9% lo sitúa en el mismo rango que Claude Sonnet 4.6 en codificación, y su precisión de uso de herramientas es contra lo que están ajustados la mayoría de agentes de producción del framework Codex.

El precio de lista del proveedor es de $2,5 / $15 por 1M tokens con entrada cacheada a $0,25 / 1M. Se sitúa en ×1 créditos en VM0 Managed — la misma línea base que Claude Sonnet 4.6 — lo que lo convierte en la opción natural cuando tu agente ya está en el framework Codex y quieres un predeterminado equilibrado en costo/calidad.

¿Qué es GPT-5.4?

Abril 2026 · Caballo de batalla de la familia GPT-5. El predeterminado recomendado para la mayoría de agentes del framework Codex.

GPT-5.4 es el caballo de batalla de la generación GPT-5 de OpenAI, lanzado en abril de 2026 junto con el buque insignia GPT-5.5 y la variante optimizada en costo GPT-5.4 Mini. OpenAI lo posiciona como el predeterminado universal para agentes en el framework Codex — el modelo que mantienes ejecutándose en cada paso a menos que un paso específico justifique escalar a 5.5.

Arquitectónicamente GPT-5.4 comparte la ventana de contexto de 400K tokens, el parámetro reasoning_effort, Prompt Caching y la superficie Responses API con el resto de la familia GPT-5. La división frente a GPT-5.5 es inversión de cómputo por token: 5.4 corre más rápido y barato, 5.5 invierte más en profundidad de razonamiento. La división frente a GPT-5.4 Mini es la opuesta — 5.4 lleva más calidad para los pasos que realmente deciden la ejecución del agente.

En VM0 se sitúa en el multiplicador de ×1 créditos, la misma línea base que Claude Sonnet 4.6, lo que hace triviales las comparaciones de costo lado a lado entre los predeterminados de Anthropic y OpenAI. La elección entre los dos usualmente se reduce al framework (Codex vs Claude Code), ecosistema (integraciones existentes, definiciones de herramientas) y para qué modelo tu equipo tiene más memoria muscular de comportamiento.

Qué destaca de GPT-5.4

Características principales de arquitectura y capacidades.

GPT-5.4 usa la misma arquitectura que el resto de la familia GPT-5: ventana de contexto de 400K tokens, parámetro reasoning_effort en cuatro niveles (mínimo, bajo, medio, alto), Prompt Caching donde la entrada cacheada se factura a una décima parte de la tarifa de entrada, y la superficie Responses API que usa el codex CLI por defecto. Tool-Use, salidas estructuradas y computer-use son soportadas. Las entradas son multimodales: texto, visión y código.

Especificaciones rápidas

FamiliaGeneración GPT-5

ModalidadesTexto, visión, código

IdiomasInglés primero, multilingüe

Prompt CachingSoportado (OpenAI)

Ventana de contexto400K tokens

Salida máximaHasta 128K tokens

Reasoning effortMínimo / Bajo / Medio / Alto

Precio listado$2,5 entrada / $15 salida por 1M

Benchmarks de GPT-5.4

Puntuaciones reportadas por el proveedor de los materiales de lanzamiento de GPT-5 de OpenAI, con deltas mostrados contra la generación OpenAI anterior. Las reseñas independientes sitúan a GPT-5.4 en la misma banda de calidad de codificación que Claude Sonnet 4.6. Trata los porcentajes absolutos como direccionales.

SWE-bench Verifiedreportado por el proveedor

74,9%

Terminal-Bench 2.0uso de herramientas reportado por el proveedor

~58%

AIME 2025 (sin herramientas)matemáticas de competición reportadas por el proveedor

~92%

GPQA Diamondciencia de nivel posgrado reportada por el proveedor

~85%

OSWorld (computer use)reportado por el proveedor

~62%

VelocidadArtificial Analysis, esfuerzo medio

~110 tokens/seg

Precios de GPT-5.4

Precio de lista del proveedor, por 1M de tokens.

Input$2.50

Output$15.00

Lectura de caché$0.25

Escritura de cachéNo facturado

Cómo se comporta GPT-5.4 en la práctica

Comportamiento observado en ejecuciones de agentes en producción.

Enrutamiento de herramientas

Precisión sólida de línea base en el catálogo estándar de herramientas del framework Codex. Donde 5.5 se adelanta es en casos límite difíciles (selección condicional de herramientas, argumentos profundamente anidados) — para los casos rutinarios 5.4 enruta correctamente con una latencia significativamente menor.

Ediciones de código

Calidad de parche comparable a Claude Sonnet 4.6 en cargas de trabajo estándar de refactorización y corrección de errores. Donde 5.5 empieza a adelantarse es en cambios multi-archivo donde el parche debe aplicarse limpiamente al primer intento.

Velocidad

Materialmente más rápido que 5.5 — alrededor de 110 tokens/seg en esfuerzo medio según Artificial Analysis. Esto es parte de por qué 5.4 sigue siendo el predeterminado para respuestas de chat interactivo y bucles cortos de agente donde la latencia visible al usuario importa.

Eficiencia de costo

×1 créditos con comportamiento de salida en la banda de calidad de Sonnet 4.6. Para equipos ya en el framework Codex, este es el punto óptimo de costo/calidad — promueve a 5.5 solo en los pasos que visiblemente lo necesitan.

Comportamiento de alucinación

Hereda las mejoras de calibración que OpenAI lanzó con la generación GPT-5. Menos propenso a respuestas erróneas con confianza que la serie GPT-4, especialmente en preguntas fuera de su horizonte de entrenamiento.

Mejores tareas para GPT-5.4

El paso de agente predeterminado en el framework Codex

Si tu agente ya está construido sobre codex CLI o cualquier integración del framework Codex, GPT-5.4 es el predeterminado universal natural. ×1 créditos, lo suficientemente rápido para uso interactivo, lo suficientemente preciso para las llamadas a herramientas rutinarias que dominan la mayoría de ejecuciones de agente.

El chat interactivo con visión

UIs basadas en capturas de pantalla, Q&A de documentos, anotación de imágenes — GPT-5.4 maneja los tres multimodalmente a velocidad de caballo de batalla. El multiplicador ×1 mantiene el costo por turno en la misma banda que Sonnet 4.6, así puedes hacer A/B entre los dos en la misma carga de trabajo.

El A/B de costo/calidad contra Claude Sonnet 4.6

Ambos modelos se sitúan en ×1 créditos en VM0 Managed, lo que los hace directamente comparables en costo. Ejecuta el mismo agente en ambos durante una semana y elige por comportamiento en tu carga de trabajo específica — ninguno es universalmente mejor, y el predeterminado correcto depende de tu catálogo de herramientas y estilo de prompts.

Cuándo evitar GPT-5.4

Evita GPT-5.4 en los pasos más difíciles de razonamiento, computer-use o edición de código multi-archivo donde 5.5 lidera notablemente, y en trabajo de clasificación masiva de alto volumen o prefiltrado donde 5.4 Mini es cuatro veces más barato a nivel de proveedor.

GPT-5.4 vs otros modelos

GPT-5.4 vs GPT-5.5

Misma familia, diferente posicionamiento. 5.5 (×2) te da el razonamiento más fuerte, computer-use y calidad de código al primer intento; 5.4 (×1) te da la misma ventana de contexto y conjunto de características a la mitad del costo en créditos y velocidad notablemente mayor. Usa 5.4 por defecto; escala a 5.5 solo en los pasos que visiblemente lo necesitan.

GPT-5.4 vs Claude Sonnet 4.6

Las dos líneas base de ×1, una en cada ecosistema. Sonnet 4.6 corre en el framework Claude Code; GPT-5.4 corre en Codex. Elige según qué framework apuntan tus agentes y definiciones de herramientas existentes. En calidad bruta de salida están lo suficientemente cerca como para que hacer A/B en tu carga de trabajo sea la decisión correcta.

GPT-5.4 vs GPT-5.4 Mini

Misma familia, diferente posicionamiento. 5.4 (×1) lleva más calidad de razonamiento por token; 5.4 Mini (×0,3) te da una opción mucho más barata para trabajo masivo y prefiltrado. Usa 5.4 Mini para clasificación fan-out y 5.4 para los pasos que deciden la ejecución del agente.

Conclusión: ¿deberías usar GPT-5.4?

GPT-5.4 es el predeterminado universal para agentes del framework Codex en VM0. Escala a 5.5 para razonamiento difícil, baja a 5.4 Mini para prefiltrado masivo.

Preguntas frecuentes

¿Cuál es la ventana de contexto de GPT-5.4?

400.000 tokens, con hasta 128K tokens de salida por respuesta. La ventana completa se factura a tarifas estándar.

¿Puede GPT-5.4 manejar imágenes?

Sí. GPT-5.4 es multimodal. Acepta entradas de imagen junto con texto y código de forma nativa.

¿Cuándo debería elegir GPT-5.4 sobre Claude Sonnet 4.6?

Cuando tu agente ya está construido en el framework Codex o necesitas el ecosistema OpenAI (catálogo de herramientas, salidas estructuradas, Responses API). Ambos se sitúan en ×1 créditos, así que el costo es idéntico y la elección se reduce al framework y ajuste de comportamiento.

¿GPT-5.4 soporta Prompt Caching?

Sí. La entrada cacheada se factura a $0,25 por 1M tokens — un descuento del 10× en la porción cacheada.

¿Qué framework usa GPT-5.4 en VM0?

Codex. VM0 enruta todos los modelos GPT-5 a través de la superficie Responses API del framework Codex.

Alternativas

GPT-5.5

Nivel de escalación para los pasos más difíciles

GPT-5.4 Mini

Opción más barata para trabajo masivo

Claude Sonnet 4.6

Par ×1 en el framework Claude Code

Usar GPT-5.4 en VM0

Dos formas de acceder a GPT-5.4 en VM0

VM0 admite GPT-5.4 como modelo Built-in facturado en créditos VM0, y mediante bring-your-own con una OpenAI API key. La ruta Built-in usa enrutamiento gestionado de VM0 y el multiplicador de créditos explicado abajo; la ruta bring-your-own te factura directamente con el proveedor upstream y omite la conversión de créditos VM0.

Recomendación de VM0

VM0 posiciona GPT-5.4 como modelo principal de agente, recomendado junto a Claude Opus 4.7, Claude Opus 4.6 y Claude Sonnet 4.6 para los pasos que determinan el resultado real de una ejecución. Estos son los modelos que elegimos para el rol de orquestador, para agentes que trabajan con código y para cualquier paso donde una respuesta incorrecta sea costosa.

Créditos y el multiplicador ×1

Cada modelo Built-in en VM0 se valora como un múltiplo de Claude Sonnet 4.6, que establece la base de ×1 crédito. GPT-5.4 factura a ×1 créditos. El multiplicador es lo que aparece en tu factura de VM0; el precio de lista del proveedor en la tabla de arriba es lo que cobra el proveedor upstream antes de que VM0 lo convierta en créditos.

GPT-5.4 establece la base ×1 contra la que se valoran todos los demás modelos Built-in, por lo que es la unidad con la que comparas costes al elegir entre modelos en VM0.

Disponible en VM0 desde April 2026.

¿Qué es GPT-5.4?

Qué destaca de GPT-5.4

Especificaciones rápidas

Benchmarks de GPT-5.4

Precios de GPT-5.4

Cómo se comporta GPT-5.4 en la práctica

Enrutamiento de herramientas

Ediciones de código

Velocidad

Eficiencia de costo

Comportamiento de alucinación

Mejores tareas para GPT-5.4

El paso de agente predeterminado en el framework Codex

El chat interactivo con visión

El A/B de costo/calidad contra Claude Sonnet 4.6

Cuándo evitar GPT-5.4

GPT-5.4 vs otros modelos

GPT-5.4 vs GPT-5.5

GPT-5.4 vs Claude Sonnet 4.6

GPT-5.4 vs GPT-5.4 Mini

Conclusión: ¿deberías usar GPT-5.4?

Preguntas frecuentes

¿Cuál es la ventana de contexto de GPT-5.4?

¿Puede GPT-5.4 manejar imágenes?

¿Cuándo debería elegir GPT-5.4 sobre Claude Sonnet 4.6?

¿GPT-5.4 soporta Prompt Caching?

¿Qué framework usa GPT-5.4 en VM0?

Alternativas

Usar GPT-5.4 en VM0

Dos formas de acceder a GPT-5.4 en VM0

Recomendación de VM0

Créditos y el multiplicador ×1

Más modelos en VM0