GPT-5.4 Mini en VM0. El GPT-5 que ahorra costos
El miembro optimizado en costo de OpenAI de la familia GPT-5. ×0,3 créditos, visión multimodal, y lo suficientemente rápido para enrutamiento, clasificación y prefiltrado de alto volumen.
400K tokens · Text / Vision / Code · Prompt cache
GPT-5.4 Mini es el miembro que ahorra costos de la familia GPT-5 de OpenAI — al que recurres cuando el costo unitario importa más que la calidad de razonamiento máxima. Mantiene la ventana de contexto de 400K y las entradas multimodales del resto de la familia pero recorta el cómputo por token, lo que se traduce en menor precio ($0,75 / $4,5 por 1M) y velocidad notablemente mayor.
En VM0 se sitúa en ×0,3 créditos, el mismo multiplicador que Claude Haiku 4.5 y Kimi K2.6, lo que lo convierte en la opción natural del lado OpenAI para clasificación masiva, enrutamiento fan-out, prefiltrado, y cualquier paso de agente donde bajar a un tercio del costo de GPT-5.4 es el factor decisivo.
¿Qué es GPT-5.4 Mini?
Abril 2026 · Variante que ahorra costos de la familia GPT-5. El par del lado OpenAI de Claude Haiku 4.5.
GPT-5.4 Mini es el miembro optimizado en costo de la generación GPT-5 de OpenAI, lanzado en abril de 2026 junto con GPT-5.5 y GPT-5.4. OpenAI lo posiciona como el nivel de alto rendimiento — el modelo que mantienes ejecutándose en pasos de clasificación, enrutamiento y prefiltrado donde 5.4 o 5.5 más grandes se desperdiciarían en decisiones rutinarias.
Arquitectónicamente comparte la ventana de contexto de 400K tokens de la familia GPT-5, el parámetro reasoning_effort, Prompt Caching, y la superficie Responses API que usa el codex CLI por defecto. El compromiso frente a 5.4 es la profundidad de razonamiento: Mini maneja bien llamadas a herramientas estándar, resúmenes cortos y cargas de salida estructurada, pero empieza a derivar en los planes multi-paso más difíciles donde 5.4 todavía aguanta. El compromiso frente a competidores al mismo precio es el ecosistema — si ya estás en Codex, quedarte dentro de la superficie OpenAI mantiene definiciones de herramientas y esquemas de salida estructurada consistentes.
En VM0 Mini se sitúa en el multiplicador de ×0,3 créditos, el mismo que Claude Haiku 4.5, Kimi K2.6 y DeepSeek V4 Pro. Dentro del nivel que ahorra costos la elección depende principalmente del framework y ajuste de comportamiento en tu carga de trabajo específica.
Qué destaca de GPT-5.4 Mini
Características principales de arquitectura y capacidades.
GPT-5.4 Mini usa la misma arquitectura que el resto de la familia GPT-5: ventana de contexto de 400K tokens, el parámetro reasoning_effort en cuatro niveles, Prompt Caching donde la entrada cacheada se factura a una décima parte de la tarifa de entrada, y la superficie Responses API. Tool-Use, salidas estructuradas y entradas de visión multimodal son soportadas. El modelo es un hermano menor más rápido — menos parámetros por token, más rendimiento por dólar.
Especificaciones rápidas
Benchmarks de GPT-5.4 Mini
Puntuaciones reportadas por el proveedor de los materiales de lanzamiento de GPT-5 Mini de OpenAI. Las reseñas independientes sitúan a 5.4 Mini en la misma banda que ahorra costos que Claude Haiku 4.5 en la mayoría de benchmarks de agente. Trata los porcentajes absolutos como direccionales.
Precios de GPT-5.4 Mini
Precio de lista del proveedor, por 1M de tokens.
Cómo se comporta GPT-5.4 Mini en la práctica
Comportamiento observado en ejecuciones de agentes en producción.
Velocidad
El modelo más rápido de la familia GPT-5 — alrededor de 165 tokens/seg en esfuerzo medio según Artificial Analysis. Esta es la propiedad que lo hace viable para respuestas de chat interactivo y llamadas a herramientas fan-out cortas donde la latencia visible al usuario domina.
Llamadas a herramientas rutinarias
Preciso en el catálogo estándar de herramientas del framework Codex. Donde 5.4 se adelanta es en casos límite difíciles (selección condicional de herramientas, argumentos profundamente anidados) — para los casos rutinarios Mini maneja el enrutamiento de herramientas limpiamente a un tercio del costo.
Clasificación masiva y prefiltrado
La posición de costo/calidad más fuerte de la familia GPT-5 para trabajo fan-out. Triaje masivo de PRs, categorización de tickets de soporte, clasificación por nivel de documentos — todas las cargas de trabajo donde antes habrías hecho regex a mano ahora son asequibles en una llamada real de modelo.
Eficiencia de costo
×0,3 créditos con visión multimodal incluida. A este precio Mini, Claude Haiku 4.5 y Kimi K2.6 se sitúan todos en la misma banda — la elección usualmente se reduce al ajuste de framework y comportamiento en tu carga de trabajo específica.
Cuándo escalar
Mini deriva en planes largos multi-paso, razonamiento difícil y ediciones de código multi-archivo al primer intento. Construye el agente para que el orquestador decida cuándo escalar a 5.4 o 5.5, no para que Mini intente llevar todo el bucle.
Mejores tareas para GPT-5.4 Mini
El clasificador fan-out que se ejecuta en cada evento
Ticket de soporte entrante, comentario de PR, transcripción de llamada de ventas, carga de documento — Mini lee cada uno y lo enruta al agente o revisor humano correcto. ×0,3 créditos y 165 tokens/seg significan que el costo por evento es lo suficientemente pequeño como para que ejecutarlo en cada evento (no solo en lotes muestreados) sea realmente viable.
El paso de prefiltrado antes del modelo caro
Fija Mini en lo alto de la llamada a herramienta del agente para que decida si la solicitud siquiera necesita escalarse. La mayoría de solicitudes obtienen una respuesta rápida y barata; solo la minoría residual paga el costo completo de GPT-5.4 o 5.5. Aquí es donde apilar niveles que ahorran costos y de núcleo genuinamente cambia lo que es asequible.
La respuesta de chat interactivo
Turnos multimodales cortos donde la latencia visible al usuario domina la experiencia. Mini responde lo suficientemente rápido como para que el streaming se sienta instantáneo, y el soporte multimodal significa que una captura de pantalla en la conversación simplemente funciona.
Cuándo evitar GPT-5.4 Mini
Evita GPT-5.4 Mini en los pasos más difíciles de razonamiento, orquestación de agente multi-paso, secuencias de computer-use y ediciones de código multi-archivo al primer intento — escala a 5.4 para versiones rutinarias de esas tareas y a 5.5 para las más difíciles.
GPT-5.4 Mini vs otros modelos
GPT-5.4 Mini vs GPT-5.4
Misma familia, diferente posicionamiento. 5.4 Mini (×0,3) gana en costo y velocidad; 5.4 (×1) gana en calidad de razonamiento y precisión de enrutamiento de herramientas en casos difíciles. El patrón estándar es prefiltrar con Mini y escalar los casos residuales a 5.4.
GPT-5.4 Mini vs Claude Haiku 4.5
Mismo multiplicador (×0,3). Mini corre en el framework Codex; Haiku 4.5 corre en Claude Code. Ambos son multimodales y ambos apuntan al mismo espacio que ahorra costos. Elige según qué framework apuntan tus agentes y definiciones de herramientas existentes.
GPT-5.4 Mini vs DeepSeek V4 Flash
DeepSeek V4 Flash (×0,02) es dramáticamente más barato a nivel de proveedor y es la opción correcta para trabajo masivo puro de un solo paso. GPT-5.4 Mini (×0,3) lleva más calidad de razonamiento y se queda dentro del ecosistema OpenAI, lo que importa cuando tus definiciones de herramientas y esquemas de salida estructurada ya están ajustados para Codex.
Conclusión: ¿deberías usar GPT-5.4 Mini?
GPT-5.4 Mini es el predeterminado que ahorra costos del lado OpenAI. Prefiltra con Mini, escala a GPT-5.4 para pasos rutinarios, escala a GPT-5.5 solo para el razonamiento más difícil.
Preguntas frecuentes
¿Cuál es la ventana de contexto de GPT-5.4 Mini?
400.000 tokens, con hasta 128K tokens de salida por respuesta — la misma que el resto de la familia GPT-5.
¿Puede GPT-5.4 Mini manejar imágenes?
Sí. Como el resto de la familia GPT-5 acepta entradas de imagen junto con texto y código.
¿Cuándo debería elegir GPT-5.4 Mini sobre Claude Haiku 4.5?
Cuando tu agente ya está construido en el framework Codex o necesitas el ecosistema de salidas estructuradas / llamadas a herramientas de OpenAI. Ambos se sitúan en ×0,3 créditos, así que el costo es idéntico y la elección se reduce al framework y comportamiento.
¿GPT-5.4 Mini soporta Prompt Caching?
Sí. La entrada cacheada se factura a $0,075 por 1M tokens — un descuento del 10× en la porción cacheada.
¿Qué framework usa GPT-5.4 Mini en VM0?
Codex. VM0 enruta todos los modelos GPT-5 a través de la superficie Responses API del framework Codex.
Alternativas
Usar GPT-5.4 Mini en VM0
Dos formas de acceder a GPT-5.4 Mini en VM0
VM0 admite GPT-5.4 Mini como modelo Built-in facturado en créditos VM0, y mediante bring-your-own con una OpenAI API key. La ruta Built-in usa enrutamiento gestionado de VM0 y el multiplicador de créditos explicado abajo; la ruta bring-your-own te factura directamente con el proveedor upstream y omite la conversión de créditos VM0.
Recomendación de VM0
VM0 posiciona GPT-5.4 Mini como una opción de ahorro en lugar de un modelo principal de agente. Úsalo para optimizar el coste unitario en trabajo no principal, como clasificación masiva, prefiltros, respuestas cortas con requisitos de latencia o agentes heredados fijos, manteniendo Claude Opus 4.7, Claude Opus 4.6 o Claude Sonnet 4.6 en los pasos que deciden la ejecución.
Créditos y el multiplicador ×0.3
Cada modelo Built-in en VM0 se valora como un múltiplo de Claude Sonnet 4.6, que establece la base de ×1 crédito. GPT-5.4 Mini factura a ×0.3 créditos. El multiplicador es lo que aparece en tu factura de VM0; el precio de lista del proveedor en la tabla de arriba es lo que cobra el proveedor upstream antes de que VM0 lo convierta en créditos.
GPT-5.4 Mini factura a ×0.3, lo que significa que un paso aquí cuesta solo 0.3× los créditos de un paso equivalente en Sonnet 4.6 (la base ×1). Esto lo sitúa muy por debajo de la base de créditos y lo convierte en la elección natural para trabajo en segundo plano de alto volumen donde el coste por paso importa más que la máxima calidad de razonamiento.
Disponible en VM0 desde April 2026.