GPT-5.4 Mini su VM0. Il GPT-5 a risparmio di costo

Il membro ottimizzato sui costi della famiglia GPT-5 di OpenAI. ×0,3 crediti, visione multimodale e abbastanza veloce per il routing, la classificazione e il pre-filtraggio ad alto volume.

400K tokens · Text / Vision / Code · Prompt cache

Usa GPT-5.4 Mini su VM0

GPT-5.4 Mini è il membro a risparmio di costo della famiglia GPT-5 di OpenAI — quello a cui rivolgersi quando il costo unitario conta più della qualità di ragionamento di punta. Mantiene la finestra di contesto da 400K e gli input multimodali del resto della famiglia ma taglia il calcolo per token, il che si traduce in un prezzo inferiore ($0,75 / $4,5 per 1M) e una velocità sensibilmente superiore.

Su VM0 si colloca a ×0,3 crediti, lo stesso moltiplicatore di Kimi K2.7 Code, il che lo rende la scelta naturale sul lato OpenAI per la classificazione di massa, il routing distribuito, i pre-filtri e qualsiasi passaggio dell'agente in cui scendere a un terzo del costo di GPT-5.4 è il fattore decisivo.

Cos'è GPT-5.4 Mini?

Aprile 2026 · Variante a risparmio di costo della famiglia GPT-5. L'omologo sul lato OpenAI di Kimi K2.7 Code.

GPT-5.4 Mini è il membro ottimizzato sui costi della generazione GPT-5 di OpenAI, rilasciato ad aprile 2026 insieme a GPT-5.5 e GPT-5.4. OpenAI lo posiziona come la fascia ad alto throughput — il modello che tieni in esecuzione sui passaggi di classificazione, routing e pre-filtraggio in cui il più grande 5.4 o 5.5 sarebbe sprecato su decisioni di routine.

A livello architetturale condivide la finestra di contesto da 400K token della famiglia GPT-5, il parametro reasoning_effort, il prompt caching e la superficie Responses API che la CLI codex usa per impostazione predefinita. Il compromesso rispetto a 5.4 è la profondità di ragionamento: Mini gestisce bene le chiamate a strumenti standard, le brevi sintesi e i carichi con structured output, ma inizia a perdere il filo sui piani multi-passaggio più difficili dove 5.4 regge ancora. Il compromesso rispetto ai concorrenti alla stessa fascia di prezzo è l'ecosistema — se sei già su Codex, restare dentro la superficie OpenAI mantiene coerenti le definizioni di strumenti e gli schemi di structured output.

Su VM0 Mini si colloca al moltiplicatore di credito ×0,3, lo stesso di Kimi K2.7 Code. DeepSeek V4 Pro si colloca più in basso a ×0,1, quindi all'interno della fascia a risparmio di costo la scelta dipende per lo più dal framework e dall'idoneità comportamentale sul tuo carico di lavoro specifico.

Cosa rende notevole GPT-5.4 Mini

Caratteristiche principali di architettura e capacità.

GPT-5.4 Mini usa la stessa architettura del resto della famiglia GPT-5: finestra di contesto da 400K token, parametro reasoning_effort a quattro livelli, prompt caching in cui l'input in cache è fatturato a un decimo della tariffa input e la superficie Responses API. Uso degli strumenti, structured output e input di visione multimodale sono supportati. Il modello è un fratello più piccolo e più veloce — meno parametri per token, più throughput per dollaro.

Specifiche in breve

FamigliaGenerazione GPT-5

ModalitàTesto, visione, codice

LinguePrima l'inglese, multilingue

Prompt cachingSupportato (OpenAI)

Finestra di contesto400K token

Output massimoFino a 128K token

Reasoning effortMinimal / Low / Medium / High

Prezzo di listino vendor$0,75 input / $4,5 output per 1M

Benchmark di GPT-5.4 Mini

Punteggi dichiarati dal vendor tratti dai materiali di rilascio di GPT-5 Mini di OpenAI. Le recensioni indipendenti collocano 5.4 Mini nella stessa fascia a risparmio di costo di Kimi K2.7 Code sulla maggior parte dei benchmark di agenti. Tratta le percentuali assolute come indicative.

SWE-bench Verifieddichiarato dal vendor

~60%

Terminal-Bench 2.0uso degli strumenti dichiarato dal vendor

~42%

AIME 2025 (senza strumenti)matematica da competizione dichiarata dal vendor

~84%

GPQA Diamondscienza universitaria dichiarata dal vendor

~74%

VelocitàArtificial Analysis, sforzo medio

~165 token/sec

Prezzi di GPT-5.4 Mini

Prezzo di listino del provider, per 1M di token.

Input$0.75

Output$4.50

Lettura cache$0.07

Scrittura cacheNon fatturato

Come si comporta GPT-5.4 Mini nella pratica

Comportamento osservato dalle esecuzioni di agenti in produzione.

Velocità

Il modello più veloce della famiglia GPT-5 — circa 165 token/sec a sforzo medio secondo Artificial Analysis. È la proprietà che lo rende valido per le risposte di chat interattive e le brevi chiamate a strumenti distribuite in cui domina la latenza visibile all'utente.

Chiamate a strumenti di routine

Accurato sul catalogo standard di strumenti del framework Codex. Dove 5.4 prende il largo è sui casi limite difficili (selezione condizionale degli strumenti, argomenti profondamente annidati) — per i casi di routine Mini gestisce il routing degli strumenti in modo pulito a un terzo del costo.

Classificazione di massa e pre-filtraggio

La posizione costo/qualità più forte della famiglia GPT-5 per il lavoro distribuito. Triage di massa delle PR, categorizzazione dei ticket di supporto, classificazione dei documenti per fascia — tutti i carichi di lavoro per cui prima avresti scritto a mano delle regex sono ora accessibili in una vera chiamata a un modello.

Efficienza dei costi

×0,3 crediti con visione multimodale inclusa. Mini e Kimi K2.7 Code si collocano nella stessa fascia, mentre DeepSeek V4 Pro si colloca più in basso a ×0,1 — la scelta di solito si riduce all'idoneità al framework e al comportamento sul tuo carico di lavoro specifico.

Quando fare escalation

Mini perde il filo sui lunghi piani multi-passaggio, sul ragionamento difficile e sulle modifiche al codice multi-file al primo tentativo. Costruisci l'agente in modo che l'orchestratore decida quando fare escalation a 5.4 o 5.5, non in modo che Mini provi a portare avanti l'intero loop.

I migliori task per agenti con GPT-5.4 Mini

Il classificatore distribuito che gira su ogni evento

Ticket di supporto in arrivo, commento a una PR, trascrizione di una chiamata di vendita, caricamento di un documento — Mini legge ciascuno e lo instrada all'agente a valle o al revisore umano giusto. ×0,3 crediti e 165 token/sec fanno sì che il costo per evento sia abbastanza piccolo da rendere davvero praticabile eseguirlo su ogni evento (non solo su batch campionati).

Il passaggio di pre-filtraggio prima del modello costoso

Fissa Mini in cima alla chiamata a strumenti dell'agente così decide se la richiesta abbia anche bisogno di escalation. La maggior parte delle richieste ottiene una risposta veloce ed economica; solo la minoranza residua paga il costo pieno di GPT-5.4 o 5.5. È qui che sovrapporre le fasce a risparmio di costo e quelle principali cambia davvero ciò che è accessibile.

La risposta di chat interattiva

Brevi turni multimodali in cui la latenza visibile all'utente domina l'esperienza. Mini risponde abbastanza velocemente da far sembrare istantaneo lo streaming, e il supporto multimodale fa sì che uno screenshot nella conversazione semplicemente funzioni.

Quando evitare GPT-5.4 Mini

Evita GPT-5.4 Mini sul ragionamento più difficile, sull'orchestrazione di agenti multi-passaggio, sulle sequenze di computer use e sulle modifiche al codice multi-file al primo tentativo — fai escalation a 5.4 per le versioni di routine di quei task e a 5.5 per i più difficili.

GPT-5.4 Mini vs altri modelli

GPT-5.4 Mini vs GPT-5.4

Stessa famiglia, posizionamento diverso. 5.4 Mini (×0,3) vince su costo e velocità; 5.4 (×1) vince su qualità di ragionamento e accuratezza del routing degli strumenti sui casi difficili. Lo schema standard è pre-filtrare con Mini e fare escalation dei casi residui a 5.4.

GPT-5.4 Mini vs Claude Sonnet 4.6

Claude Sonnet 4.6 è l'attuale termine di confronto del catalogo per questo modello.

GPT-5.4 Mini vs DeepSeek V4 Pro

DeepSeek V4 Pro si colloca più in basso sui crediti VM0 ed è la scelta di ragionamento più orientata al costo. Usalo quando domina il prezzo, e usa il modello attuale quando contano di più la sua idoneità al provider o il suo profilo di routing degli strumenti.

In sintesi: dovresti usare GPT-5.4 Mini?

GPT-5.4 Mini è il predefinito a risparmio di costo sul lato OpenAI. Pre-filtra con Mini, fai escalation a GPT-5.4 per i passaggi di routine, fai escalation a GPT-5.5 solo per il ragionamento più difficile.

Domande frequenti

Qual è la finestra di contesto di GPT-5.4 Mini?

400.000 token, con fino a 128K token di output per risposta — la stessa del resto della famiglia GPT-5.

GPT-5.4 Mini può gestire immagini?

Sì. Come il resto della famiglia GPT-5 accetta input di immagini insieme a testo e codice.

Quando dovrei scegliere GPT-5.4 Mini invece di Kimi K2.7 Code?

Quando il tuo agente è già costruito sul framework Codex o ti serve l'ecosistema di structured output / chiamate a strumenti di OpenAI. Entrambi si collocano a ×0,3 crediti, quindi il costo è identico e la scelta si riduce al framework e al comportamento.

GPT-5.4 Mini supporta il prompt caching?

Sì. L'input in cache è fatturato a $0,075 per 1M di token — uno sconto di 10× sulla porzione in cache.

Quale framework usa GPT-5.4 Mini su VM0?

Codex. VM0 instrada tutti i modelli GPT-5 attraverso la superficie Responses API del framework Codex.

Alternative

GPT-5.4

Passo in su per i passaggi più difficili, stessa famiglia

Usare GPT-5.4 Mini su VM0

Due modi per accedere a GPT-5.4 Mini su VM0

VM0 supporta GPT-5.4 Mini come modello Built-in fatturato in crediti VM0 e tramite bring-your-own con una OpenAI API key. Il percorso Built-in usa il routing VM0 Managed e il moltiplicatore di crediti spiegato di seguito; il percorso bring-your-own ti fattura direttamente con il fornitore upstream e salta del tutto la conversione in crediti VM0.

La raccomandazione di VM0

VM0 posiziona GPT-5.4 Mini come opzione per risparmiare sui costi anziché come modello agente core. Usalo per ottimizzare il costo unitario sul lavoro non-core, come classificazione in blocco, pre-filtri, risposte brevi critiche per la latenza o agenti legacy fissati, mantenendo Claude Opus 4.7, Claude Opus 4.6 o Claude Sonnet 4.6 sui passi che decidono l'esecuzione.

Crediti e il moltiplicatore ×0.3

Ogni modello Built-in su VM0 è prezzato come un multiplo di Claude Sonnet 4.6, che si colloca alla baseline di crediti ×1. GPT-5.4 Mini viene fatturato a ×0.3 crediti. Il moltiplicatore è ciò che compare sulla tua fattura VM0; il prezzo di listino del fornitore nella tabella prezzi sopra è ciò che il provider upstream addebita prima che VM0 lo converta in crediti.

GPT-5.4 Mini viene fatturato a ×0.3, il che significa che un passo qui costa solo 0.3× i crediti di un passo equivalente su Sonnet 4.6 (la baseline ×1). Questo lo colloca ben al di sotto della baseline di crediti e lo rende la scelta naturale per il lavoro di background ad alto volume, dove il costo per passo conta più della qualità di ragionamento di picco.

Disponibile su VM0 dal April 2026.