GPT-5.5 su VM0. Il modello di ragionamento di punta di OpenAI

Il modello di punta della famiglia GPT-5 di OpenAI. La scelta più forte per coding agentico, ragionamento profondo e loop di computer use alla fascia OpenAI.

400K tokens · Text / Vision / Code · Prompt cache

Usa GPT-5.5 su VM0

GPT-5.5 è il modello a cui rivolgersi quando il lavoro richiede sia ragionamento profondo sia uso affidabile degli strumenti: orchestrare loop agentici multi-passaggio, modifiche al codice che devono andare a segno al primo colpo e workflow di computer use che attraversano molte azioni nella GUI. I benchmark vendor (SWE-bench Verified, AIME 2025, GPQA Diamond) danno numeri concreti ai progressi rispetto a GPT-5.4.

Il prezzo di listino vendor è di $5 / $30 per 1M di token con input in cache a $0,50 / 1M. È il modello più costoso del catalogo Built-in di VM0 a ×2 crediti, quindi lo schema conveniente è tenere GPT-5.4 o Claude Sonnet 4.6 come predefinito ovunque e instradare a GPT-5.5 solo i passaggi più difficili.

Cos'è GPT-5.5?

Aprile 2026 (successore di GPT-5.4) · Vertice della famiglia GPT-5. Il modello di punta di OpenAI per coding agentico e ragionamento.

GPT-5.5 è il modello di punta della generazione GPT-5 di OpenAI, rilasciato ad aprile 2026 come aggiornamento raccomandato da GPT-5.4. OpenAI lo presenta come un cambio di passo nell'uso agentico degli strumenti e nei task di computer use più che come un refresh dell'API superficiale. La finestra di contesto da 400K token e il parametro reasoning_effort introdotti con GPT-5 vengono mantenuti invariati, quindi gli agenti Codex esistenti si integrano senza riscritture.

Rispetto a GPT-5.4 (il cavallo di battaglia della stessa famiglia), GPT-5.5 investe più calcolo per token nel ragionamento. Il vantaggio comportamentale si vede in tre punti: patch al codice al primo tentativo più solide sui refactor multi-file, sensibilmente meno chiamate a strumenti mal instradate nei lunghi loop agentici e progressi evidenti nel ragionamento scientifico di livello universitario (GPQA Diamond) e nella matematica da competizione (AIME 2025). Il compromesso è il prezzo di listino più alto tra le varianti GPT-5 ($5 / $30 per 1M di token) e un moltiplicatore di credito ×2 su VM0, motivo per cui OpenAI stessa posiziona GPT-5.5 come fascia di pianificazione o di escalation più che come predefinito ovunque.

Le classifiche indipendenti (Artificial Analysis, Vellum) confermano l'ordinamento relativo rispetto a GPT-5.4 e collocano GPT-5.5 entro pochi punti da Claude Opus 4.7 sulla maggior parte dei task di coding agentico. I numeri assoluti cambiano ogni settimana e OpenAI stessa ha segnalato contaminazione dei dati di training su SWE-bench Verified per i modelli di frontiera. Tratta i punteggi pubblici come indicativi più che autorevoli; le differenze comportamentali strutturate (accuratezza delle chiamate a strumenti, affidabilità del computer use, qualità delle patch al primo tentativo) sono il segnale più duraturo.

Cosa rende notevole GPT-5.5

Caratteristiche principali di architettura e capacità.

GPT-5.5 mantiene la finestra di contesto da 400K token di GPT-5.4, fatturata al prezzo input standard su tutta la finestra. Supporta il parametro reasoning_effort a quattro livelli (minimal, low, medium, high), il prompt caching in cui l'input in cache è fatturato a un decimo della tariffa input e la superficie Responses API che la CLI codex usa per impostazione predefinita. Uso degli strumenti, structured output e computer use sono invariati rispetto a 5.4. Gli input sono multimodali su testo, visione e codice; il modello non ha generazione nativa di immagini (per quella usa l'Images API).

Specifiche in breve

FamigliaGenerazione GPT-5

ModalitàTesto, visione, codice

LinguePrima l'inglese, multilingue

Prompt cachingSupportato (OpenAI)

Finestra di contesto400K token

Output massimoFino a 128K token

Reasoning effortMinimal / Low / Medium / High

Prezzo di listino vendor$5 input / $30 output per 1M

Benchmark di GPT-5.5

Punteggi dichiarati dal vendor tratti dai materiali di rilascio di GPT-5.5 di OpenAI, con i delta mostrati rispetto ai numeri pubblici di GPT-5.4. Le recensioni indipendenti collocano 5.5 entro pochi punti da Claude Opus 4.7 sui task di coding agentico. Tratta le percentuali assolute come indicative; OpenAI ha segnalato contaminazione dei dati di training su SWE-bench Verified per tutti i modelli di frontiera.

SWE-bench Verifieddichiarato dal vendor; in crescita dal 74,9% di 5.4

~82%

Terminal-Bench 2.0uso degli strumenti dichiarato dal vendor

~69%

AIME 2025 (senza strumenti)matematica da competizione dichiarata dal vendor

~96%

GPQA Diamondscienza universitaria dichiarata dal vendor

~89%

OSWorld (computer use)dichiarato dal vendor

~74%

MMMU (multimodale)dichiarato dal vendor

In testa alla famiglia GPT-5

VelocitàArtificial Analysis, sforzo medio

~70 token/sec

Prezzi di GPT-5.5

Prezzo di listino del provider, per 1M di token.

Input$5.00

Output$30.00

Lettura cache$0.50

Scrittura cacheNon fatturato

Come si comporta GPT-5.5 nella pratica

Comportamento osservato dalle esecuzioni di agenti in produzione.

Routing degli strumenti

Il tasso più basso di chiamate a strumenti mal instradate nella famiglia GPT-5. Il divario rispetto a 5.4 si allarga sui casi limite difficili come la selezione condizionale degli strumenti, gli argomenti profondamente annidati e le chiamate a strumenti emesse dopo lunghi tratti di ragionamento.

Modifiche al codice al primo tentativo

La migliore qualità delle patch nella famiglia GPT-5. La scelta giusta quando un agente deve modificare codice che deve continuare a compilare e a superare i test, soprattutto quando la patch tocca più file. Lo SWE-bench Verified dichiarato dal vendor lo riflette direttamente.

Computer use

Nettamente più affidabile di 5.4 sulle sequenze GUI multi-passaggio, che è ciò che cattura il delta su OSWorld. Ricorri ad esso quando l'agente guida un browser o un'app desktop per decine di passaggi e il costo di una deviazione a metà esecuzione è alto.

Velocità

Più lento di 5.4 e notevolmente più lento di 5.4 Mini. Circa 70 token/sec a sforzo medio secondo Artificial Analysis. Riservalo ai passaggi che hanno davvero bisogno della profondità di ragionamento extra ed esegui in parallelo le fasce più leggere.

Comportamento sulle allucinazioni

GPT-5.5 porta con sé la calibrazione più rigorosa della generazione GPT-5 e tende ad ammettere l'incertezza più che a confabulare, motivo per cui i team in produzione continuano a pagare il premio per il ragionamento ad alto rischio nonostante alternative più economiche come DeepSeek V4 Pro lo eguaglino ormai nei benchmark.

I migliori task per agenti con GPT-5.5

L'orchestratore che esegue un piano multi-strumento

Usa GPT-5.5 come pianificatore che scompone la richiesta di un cliente in dieci passaggi, ne affida ciascuno a un sub-agent di fascia GPT-5.4 o 5.4 Mini e ricuce i risultati. Eseguire 5.5 solo al livello del pianificatore (e le fasce più economiche ovunque) costa una frazione rispetto a eseguire 5.5 dall'inizio alla fine, preservando gran parte della qualità.

Le modifiche al codice al primo tentativo che non sprecano un'esecuzione di CI

Chiedi a GPT-5.5 di migrare una codebase di 50 file da un ORM a un altro, di rifattorizzare un modulo ingarbugliato o di applicare un fix di sicurezza su tutto il repo. La patch si applica in modo pulito al primo tentativo più spesso di qualsiasi altro modello della famiglia, ed è esattamente ciò che si rifletterà sulla tua bolletta CI.

L'agente di computer use che deve completare il workflow

Quando l'agente guida un browser attraverso un flusso di prenotazione multi-passaggio, un'app desktop o una vecchia interfaccia di amministrazione, il punteggio OSWorld più alto di 5.5 si traduce in meno deviazioni a metà esecuzione e meno interventi umani. Il premio si ripaga la prima volta che una sessione lunga non deve essere riavviata.

Il passaggio di ricerca di matematica o scienza difficile

Inserisci un set di problemi di matematica di livello competitivo o una derivazione di fisica universitaria e 5.5 ci lavorerà senza gli errori per uno che vedi in 5.4. AIME 2025 e GPQA Diamond catturano esattamente questo tipo di comportamento.

Quando evitare GPT-5.5

Evita GPT-5.5 sul lavoro di routine ad alto volume in cui GPT-5.4 raggiunge lo stesso livello di qualità a metà del costo in credito, sulle risposte di chat sensibili alla latenza in cui GPT-5.4 Mini è molto più veloce e sui lavori di classificazione o estrazione di massa in cui GPT-5.4 Mini è l'opzione di massa supportata più economica.

GPT-5.5 vs altri modelli

GPT-5.5 vs GPT-5.4

GPT-5.4 è il cavallo di battaglia predefinito della famiglia GPT-5 e la scelta giusta per la maggior parte degli agenti. Passa a GPT-5.5 solo quando 5.4 fallisce visibilmente su ragionamento difficile, lunghi loop agentici o modifiche al codice al primo tentativo, di solito come orchestratore che delega verso il basso a sub-agent di fascia 5.4 o 5.4 Mini.

GPT-5.5 vs Claude Opus 4.7

Stesso ruolo in famiglie diverse: l'orchestratore ad alto rischio e il modello a cui fare escalation quando la fascia più economica fallisce. Opus 4.7 ha la finestra di contesto da 1M di token e il profilo di sicurezza di Anthropic; GPT-5.5 ha punteggi di computer use più forti ed è la scelta naturale per i team già sul framework Codex. Scegli in base al framework e all'ecosistema su cui puntano i tuoi agenti esistenti.

GPT-5.5 vs Gemini 3 Pro

Gemini 3 Pro è in testa sul ragionamento long-context grezzo (finestra da 2M di token) e su alcuni benchmark multimodali. GPT-5.5 è in testa sul coding agentico (SWE-bench Verified, Terminal-Bench) e sul computer use. Scegli GPT-5.5 quando l'agente modifica codice o guida una UI; scegli Gemini 3 Pro quando il carico di lavoro è pesante di comprensione di documenti o video.

In sintesi: dovresti usare GPT-5.5?

GPT-5.5 è la fascia di escalation sul lato OpenAI. Usa GPT-5.4 come predefinito; passa a 5.5 solo sui passaggi specifici in cui 5.4 fallisce visibilmente.

Domande frequenti

Qual è la finestra di contesto di GPT-5.5?

400.000 token, con fino a 128K token di output per risposta. L'intera finestra è fatturata a tariffe standard.

GPT-5.5 può gestire immagini?

Sì. GPT-5.5 è multimodale. Accetta input di immagini insieme a testo e codice, quindi gli agenti guidati da screenshot e da visione documentale funzionano in modo nativo. Per la generazione di immagini usa l'Images API di OpenAI.

Quando dovrei scegliere GPT-5.5 invece di GPT-5.4?

Quando (a) l'agente è il pianificatore / orchestratore e le decisioni hanno effetti a cascata, (b) l'esecuzione è abbastanza lunga da far iniziare 5.4 a instradare male le chiamate a strumenti, o (c) l'output deve applicarsi in modo pulito al primo tentativo (modifiche al codice, payload strutturati, workflow di computer use).

GPT-5.5 supporta il prompt caching?

Sì. L'input in cache è fatturato a $0,50 per 1M di token — uno sconto di 10× sulla porzione in cache. Vale la pena usarlo ogni volta che il prompt di sistema o lo schema degli strumenti è stabile tra le chiamate.

Quale framework usa GPT-5.5 su VM0?

Codex. VM0 instrada GPT-5.5 attraverso la superficie Responses API del framework Codex, che è ciò che la CLI codex usa per impostazione predefinita. Gli agenti del framework Claude Code non sono compatibili con i modelli GPT-5 su VM0.

Alternative

GPT-5.4

Metà dei crediti, stessa famiglia

Claude Opus 4.7

Modello di punta omologo sul lato Claude

Claude Sonnet 4.6

Cavallo di battaglia predefinito a ×1 crediti

Usare GPT-5.5 su VM0

Due modi per accedere a GPT-5.5 su VM0

VM0 supporta GPT-5.5 come modello Built-in fatturato in crediti VM0 e tramite bring-your-own con una OpenAI API key. Il percorso Built-in usa il routing VM0 Managed e il moltiplicatore di crediti spiegato di seguito; il percorso bring-your-own ti fattura direttamente con il fornitore upstream e salta del tutto la conversione in crediti VM0.

La raccomandazione di VM0

VM0 posiziona GPT-5.5 come modello agente core, consigliato insieme a Claude Opus 4.7, Claude Opus 4.6 e Claude Sonnet 4.6 per i passi che determinano il risultato effettivo di un'esecuzione di un agente. Sono i modelli che sceglieremmo per il ruolo di orchestratore, per gli agenti che toccano il codice e per qualsiasi passo in cui una risposta sbagliata è costosa.

Crediti e il moltiplicatore ×2

Ogni modello Built-in su VM0 è prezzato come un multiplo di Claude Sonnet 4.6, che si colloca alla baseline di crediti ×1. GPT-5.5 viene fatturato a ×2 crediti. Il moltiplicatore è ciò che compare sulla tua fattura VM0; il prezzo di listino del fornitore nella tabella prezzi sopra è ciò che il provider upstream addebita prima che VM0 lo converta in crediti.

GPT-5.5 viene fatturato a ×2, il che significa che un passo qui costa 2× i crediti di un passo equivalente su Sonnet 4.6 (la baseline ×1). È un tier premium su VM0, quindi il pattern conveniente è quello di usare come predefinito un modello più economico e indirizzare a GPT-5.5 solo i passi che hanno davvero bisogno della profondità di ragionamento aggiuntiva.

Disponibile su VM0 dal April 2026.