Semua model

GPT-5.5 di VM0. Model penalaran andalan OpenAI

Model andalan OpenAI dari keluarga GPT-5. Pilihan terkuat untuk agentic coding, penalaran mendalam, dan loop computer-use di tingkat OpenAI.

400K tokens · Text / Vision / Code · Prompt cache

GPT-5.5 adalah model yang Anda pilih ketika pekerjaan membutuhkan penalaran mendalam sekaligus penggunaan tool yang andal: mengorkestrasi loop agen multi-langkah, penyuntingan kode yang harus tepat sejak percobaan pertama, dan alur kerja computer-use yang mencakup banyak aksi GUI. Benchmark vendor (SWE-bench Verified, AIME 2025, GPQA Diamond) memberikan angka konkret atas peningkatan dibanding GPT-5.4.

Harga daftar vendor adalah $5 / $30 per 1M token dengan input yang di-cache seharga $0,50 / 1M. Ini model termahal di katalog Built-in VM0 pada ×2 kredit, sehingga pola yang hemat biaya adalah menjadikan GPT-5.4 atau Claude Sonnet 4.6 sebagai default di mana-mana dan hanya mengarahkan langkah tersulit ke GPT-5.5.

Apa itu GPT-5.5?

April 2026 (penerus GPT-5.4) · Tingkat teratas keluarga GPT-5. Andalan OpenAI untuk agentic coding dan penalaran.

GPT-5.5 adalah model andalan generasi GPT-5 dari OpenAI, dirilis pada April 2026 sebagai upgrade yang direkomendasikan dari GPT-5.4. OpenAI memosisikannya sebagai peningkatan kelas baru pada penggunaan tool agentic dan tugas computer-use, bukan sekadar penyegaran pada permukaan API. Jendela konteks 400K token dan parameter reasoning_effort yang diperkenalkan bersama GPT-5 tetap sama, sehingga agen Codex yang sudah ada dapat langsung digunakan tanpa penulisan ulang.

Dibandingkan GPT-5.4 (kuda beban di keluarga yang sama), GPT-5.5 menginvestasikan lebih banyak komputasi per token untuk penalaran. Imbal hasil perilakunya muncul di tiga tempat: patch kode percobaan pertama yang lebih kuat pada refactor multi-file, jauh lebih sedikit pemanggilan tool yang salah arah pada loop agen yang panjang, dan peningkatan nyata pada penalaran sains tingkat pascasarjana (GPQA Diamond) serta matematika kompetisi (AIME 2025). Imbal baliknya adalah harga daftar tertinggi di antara varian GPT-5 ($5 / $30 per 1M token) dan multiplier kredit ×2 di VM0, itulah sebabnya OpenAI sendiri memosisikan GPT-5.5 sebagai tingkat perencana atau eskalasi alih-alih default di mana-mana.

Papan peringkat independen (Artificial Analysis, Vellum) menguatkan urutan relatif terhadap GPT-5.4 dan menempatkan GPT-5.5 hanya beberapa poin dari Claude Opus 4.7 pada sebagian besar tugas agentic coding. Angka absolut berubah setiap minggu dan OpenAI sendiri menandai adanya kontaminasi data pelatihan pada SWE-bench Verified di seluruh model frontier. Perlakukan skor publik sebagai indikasi arah, bukan otoritatif; perbedaan perilaku yang terstruktur (akurasi pemanggilan tool, keandalan computer-use, kualitas patch percobaan pertama) adalah sinyal yang lebih bertahan lama.

Apa yang menonjol dari GPT-5.5

Fitur arsitektur dan kapabilitas utama.

GPT-5.5 mempertahankan jendela konteks 400K token dari GPT-5.4, ditagih pada harga input standar di seluruh jendela. Model ini mendukung parameter reasoning_effort di empat tingkat (minimal, rendah, sedang, tinggi), prompt caching di mana input yang di-cache ditagih sepersepuluh dari tarif input, serta permukaan Responses API yang digunakan codex CLI secara default. Penggunaan tool, structured outputs, dan computer-use tidak berubah dari 5.4. Input bersifat multimodal mencakup teks, visi, dan kode; model tidak memiliki pembuatan gambar bawaan (gunakan Images API untuk itu).

Spesifikasi sekilas

KeluargaGenerasi GPT-5
ModalitasTeks, visi, kode
BahasaMengutamakan Inggris, multibahasa
Prompt cachingDidukung (OpenAI)
Jendela konteks400K token
Output maksimumHingga 128K token
Upaya penalaranMinimal / Rendah / Sedang / Tinggi
Harga daftar vendor$5 input / $30 output per 1M

Benchmark GPT-5.5

Skor yang dilaporkan vendor dari materi rilis GPT-5.5 OpenAI, dengan selisih ditampilkan terhadap angka publik GPT-5.4. Ulasan independen menempatkan 5.5 hanya beberapa poin dari Claude Opus 4.7 pada tugas agentic coding. Perlakukan persentase absolut sebagai indikasi arah; OpenAI telah menandai adanya kontaminasi data pelatihan pada SWE-bench Verified di seluruh model frontier.

SWE-bench Verifieddilaporkan vendor; naik dari 74,9% milik 5.4
~82%
Terminal-Bench 2.0penggunaan tool dilaporkan vendor
~69%
AIME 2025 (tanpa tool)matematika kompetisi dilaporkan vendor
~96%
GPQA Diamondsains pascasarjana dilaporkan vendor
~89%
OSWorld (computer use)dilaporkan vendor
~74%
MMMU (multimodal)dilaporkan vendor
Memimpin keluarga GPT-5
KecepatanArtificial Analysis, upaya sedang
~70 token/dtk

Harga GPT-5.5

Harga daftar vendor, per 1J token.

Input$5.00
Output$30.00
Cache read$0.50
Cache writeTidak ditagih

Bagaimana GPT-5.5 berperilaku dalam praktik

Perilaku yang diamati dari eksekusi agen produksi.

Tool routing

Tingkat pemanggilan tool yang salah arah terendah di keluarga GPT-5. Jaraknya terhadap 5.4 melebar pada kasus edge yang sulit seperti pemilihan tool bersyarat, argumen yang sangat bertingkat, dan pemanggilan tool yang dikirim setelah penalaran yang panjang.

Penyuntingan kode percobaan pertama

Kualitas patch terkuat di keluarga GPT-5. Pilihan tepat ketika agen harus mengubah kode yang tetap harus bisa dikompilasi dan lolos tes, terutama saat patch mencakup banyak file. SWE-bench Verified yang dilaporkan vendor mencerminkan hal ini secara langsung.

Computer use

Jauh lebih andal dibanding 5.4 pada urutan GUI multi-langkah, yang ditangkap oleh selisih OSWorld. Gunakan ketika agen menjalankan browser atau aplikasi desktop sepanjang puluhan langkah dan biaya tergelincir di tengah jalan sangat tinggi.

Kecepatan

Lebih lambat dari 5.4 dan jauh lebih lambat dari 5.4 Mini. Sekitar 70 token/dtk pada upaya sedang menurut Artificial Analysis. Cadangkan untuk langkah-langkah yang benar-benar membutuhkan kedalaman penalaran ekstra dan jalankan tingkat yang lebih ringan secara paralel.

Perilaku halusinasi

GPT-5.5 membawa kalibrasi yang lebih ketat dari generasi GPT-5 dan cenderung mengakui ketidakpastian alih-alih mengarang, itulah alasan tim produksi terus membayar premi untuk penalaran berisiko tinggi meski alternatif yang lebih murah seperti DeepSeek V4 Pro kini menyamainya pada benchmark.

Tugas agen terbaik untuk GPT-5.5

Orkestrator yang menjalankan rencana multi-tool

Gunakan GPT-5.5 sebagai perencana yang memecah permintaan pelanggan menjadi sepuluh langkah, mengirim setiap langkah ke sub-agen tingkat GPT-5.4 atau 5.4 Mini, lalu menyatukan kembali hasilnya. Menjalankan 5.5 hanya di lapisan perencana (dan tingkat yang lebih murah di tempat lain) berbiaya sebagian kecil dari menjalankan 5.5 dari ujung ke ujung, dengan sebagian besar kualitas tetap terjaga.

Penyuntingan kode sekali jadi yang tidak membuang-buang CI run

Minta GPT-5.5 memigrasi basis kode berisi 50 file dari satu ORM ke ORM lain, merefaktor modul yang kusut, atau menerapkan perbaikan keamanan di seluruh repo. Patch-nya berhasil diterapkan dengan bersih pada percobaan pertama lebih sering daripada model lain di keluarga ini, dan itulah yang akan tercermin pada tagihan CI Anda.

Agen computer-use yang harus menuntaskan alur kerja

Ketika agen menjalankan browser melalui alur pemesanan multi-langkah, aplikasi desktop, atau UI admin lawas, skor OSWorld 5.5 yang lebih kuat berarti lebih sedikit tergelincir di tengah jalan dan lebih sedikit pengambilalihan oleh manusia. Preminya terbayar sejak pertama kali sesi panjang tidak perlu diulang.

Langkah riset matematika atau sains yang sulit

Berikan set soal matematika tingkat kompetisi atau penurunan fisika pascasarjana dan 5.5 akan mengerjakannya tanpa selip off-by-one yang Anda lihat pada 5.4. AIME 2025 dan GPQA Diamond menangkap persis perilaku semacam ini.

Kapan melewatkan GPT-5.5

Lewati GPT-5.5 pada pekerjaan rutin bervolume tinggi di mana GPT-5.4 mencapai standar kualitas yang sama dengan setengah biaya kredit, pada balasan chat yang sensitif terhadap latensi di mana GPT-5.4 Mini jauh lebih cepat, dan pada pekerjaan klasifikasi atau ekstraksi massal di mana GPT-5.4 Mini adalah opsi massal yang lebih murah dan didukung.

GPT-5.5 vs model lain

GPT-5.5 vs GPT-5.4

GPT-5.4 adalah default kuda beban di keluarga GPT-5 dan pilihan tepat untuk sebagian besar agen. Naikkan ke GPT-5.5 hanya ketika 5.4 jelas-jelas gagal pada penalaran sulit, loop agentic yang panjang, atau penyuntingan kode percobaan pertama, biasanya sebagai orkestrator yang mendelegasikan ke bawah ke sub-agen tingkat 5.4 atau 5.4 Mini.

GPT-5.5 vs Claude Opus 4.7

Peran yang sama di keluarga berbeda: orkestrator berisiko tinggi dan model yang Anda eskalasikan saat tingkat yang lebih murah gagal. Opus 4.7 memiliki jendela konteks 1M token dan profil keamanan Anthropic; GPT-5.5 memiliki skor computer-use yang lebih kuat dan menjadi pilihan alami bagi tim yang sudah memakai framework Codex. Pilih berdasarkan framework dan ekosistem yang dituju agen Anda yang sudah ada.

GPT-5.5 vs Gemini 3 Pro

Gemini 3 Pro memimpin pada penalaran konteks panjang mentah (jendela 2M token) dan pada beberapa benchmark multimodal. GPT-5.5 memimpin pada agentic coding (SWE-bench Verified, Terminal-Bench) dan computer use. Pilih GPT-5.5 ketika agen menyunting kode atau menjalankan UI; pilih Gemini 3 Pro ketika beban kerjanya berat pada pemahaman dokumen atau video.

Kesimpulan: haruskah Anda menggunakan GPT-5.5?

GPT-5.5 adalah tingkat eskalasi di sisi OpenAI. Jadikan GPT-5.4 sebagai default; naikkan ke 5.5 hanya pada langkah-langkah spesifik di mana 5.4 jelas-jelas gagal.

Pertanyaan yang sering diajukan

Berapa jendela konteks GPT-5.5?

400.000 token, dengan output hingga 128K token per respons. Seluruh jendela ditagih pada tarif standar.

Bisakah GPT-5.5 menangani gambar?

Ya. GPT-5.5 bersifat multimodal. Model ini menerima input gambar bersama teks dan kode, sehingga agen berbasis tangkapan layar dan visi dokumen bekerja secara bawaan. Untuk pembuatan gambar gunakan OpenAI Images API.

Kapan saya harus memilih GPT-5.5 alih-alih GPT-5.4?

Ketika (a) agen adalah perencana / orkestrator dan keputusan bersifat berantai, (b) jalannya cukup panjang sehingga 5.4 mulai salah mengarahkan pemanggilan tool, atau (c) output harus diterapkan dengan bersih pada percobaan pertama (penyuntingan kode, payload terstruktur, alur kerja computer-use).

Apakah GPT-5.5 mendukung prompt caching?

Ya. Input yang di-cache ditagih $0,50 per 1M token — diskon 10× pada bagian yang di-cache. Layak digunakan kapan pun system prompt atau skema tool Anda stabil di seluruh pemanggilan.

Framework apa yang digunakan GPT-5.5 di VM0?

Codex. VM0 mengarahkan GPT-5.5 melalui permukaan Responses API framework Codex, yang digunakan codex CLI secara default. Agen berbasis framework Claude Code tidak kompatibel dengan model GPT-5 di VM0.

Alternatif

Menggunakan GPT-5.5 di VM0

Dua cara mengakses GPT-5.5 di VM0

VM0 mendukung GPT-5.5 sebagai model Built-in yang ditagih dalam kredit VM0, dan melalui bring-your-own dengan OpenAI API key. Jalur Built-in menggunakan routing VM0 Managed dan pengali kredit yang dijelaskan di bawah; jalur bring-your-own menagih Anda langsung ke vendor hulu dan sepenuhnya melewati konversi kredit VM0.

Rekomendasi VM0

VM0 memposisikan GPT-5.5 sebagai model agen inti, direkomendasikan bersama Claude Opus 4.7, Claude Opus 4.6, dan Claude Sonnet 4.6 untuk langkah-langkah yang menggerakkan hasil aktual dari sebuah eksekusi agen. Inilah model yang akan kami pilih untuk peran orkestrator, untuk agen yang menyentuh kode, dan untuk langkah apa pun di mana jawaban yang salah berbiaya mahal.

Kredit dan pengali ×2

Setiap model Built-in di VM0 dihargai sebagai kelipatan dari Claude Sonnet 4.6, yang berada di baseline kredit ×1. GPT-5.5 ditagih pada ×2 kredit. Pengali inilah yang muncul di invoice VM0 Anda; harga daftar vendor di tabel harga di atas adalah yang dikenakan penyedia hulu sebelum VM0 mengonversinya menjadi kredit.

GPT-5.5 ditagih pada ×2, yang berarti satu langkah di sini berbiaya 2× kredit dari langkah setara pada Sonnet 4.6 (baseline ×1). Ini tier premium di VM0, jadi pola yang hemat biaya adalah menggunakan model yang lebih murah sebagai default dan mengarahkan ke GPT-5.5 hanya langkah yang benar-benar membutuhkan kedalaman reasoning ekstra.

Tersedia di VM0 sejak April 2026.