GPT-5.4 di VM0. Kuda beban OpenAI

Kuda beban OpenAI di keluarga GPT-5. Berada pada baseline kredit ×1 bersama Claude Sonnet 4.6 dan menjadi default yang tepat untuk sebagian besar agen berbasis framework Codex.

400K tokens · Text / Vision / Code · Prompt cache

Gunakan GPT-5.4 di VM0

GPT-5.4 adalah kuda beban keluarga GPT-5 OpenAI — model yang Anda jalankan di mana-mana secara default. SWE-bench Verified yang dilaporkan vendor sebesar 74,9% menempatkannya di rentang yang sama dengan Claude Sonnet 4.6 dalam coding, dan akurasi penggunaan tool-nya menjadi acuan penyetelan sebagian besar agen berbasis framework Codex di produksi.

Harga daftar vendor adalah $2,5 / $15 per 1M token dengan input yang di-cache seharga $0,25 / 1M. Model ini berada pada kredit ×1 di VM0 Managed — baseline yang sama dengan Claude Sonnet 4.6 — yang membuatnya menjadi pilihan alami ketika agen Anda sudah memakai framework Codex dan Anda menginginkan default biaya/kualitas yang seimbang.

Apa itu GPT-5.4?

April 2026 · Kuda beban keluarga GPT-5. Default yang direkomendasikan untuk sebagian besar agen berbasis framework Codex.

GPT-5.4 adalah kuda beban generasi GPT-5 OpenAI, dirilis pada April 2026 bersama GPT-5.5 yang menjadi andalan dan GPT-5.4 Mini yang dioptimalkan untuk biaya. OpenAI memosisikannya sebagai default di mana-mana untuk agen di framework Codex — model yang Anda jalankan di setiap langkah kecuali ada langkah tertentu yang memang membutuhkan eskalasi ke 5.5.

Secara arsitektur, GPT-5.4 berbagi jendela konteks 400K token, parameter reasoning_effort, prompt caching, dan permukaan Responses API dengan seluruh keluarga GPT-5. Pembedanya dari GPT-5.5 adalah investasi komputasi per token: 5.4 berjalan lebih cepat dan lebih murah, 5.5 menginvestasikan lebih banyak pada kedalaman penalaran. Pembedanya dari GPT-5.4 Mini justru sebaliknya — 5.4 membawa kualitas lebih untuk langkah-langkah yang benar-benar menentukan jalannya agen.

Di VM0 model ini berada pada multiplier kredit ×1, baseline yang sama dengan Claude Sonnet 4.6, yang membuat perbandingan biaya berdampingan antara default Anthropic dan OpenAI menjadi sangat mudah. Pilihan di antara keduanya biasanya bergantung pada framework (Codex vs Claude Code), ekosistem (integrasi yang sudah ada, definisi tool), dan model mana yang lebih dikuasai tim Anda secara naluriah.

Apa yang menonjol dari GPT-5.4

Fitur arsitektur dan kapabilitas utama.

GPT-5.4 menggunakan arsitektur yang sama dengan seluruh keluarga GPT-5: jendela konteks 400K token, parameter reasoning_effort di empat tingkat (minimal, rendah, sedang, tinggi), prompt caching di mana input yang di-cache ditagih sepersepuluh dari tarif input, serta permukaan Responses API yang digunakan codex CLI secara default. Penggunaan tool, structured outputs, dan computer-use didukung. Input bersifat multimodal mencakup teks, visi, dan kode.

Spesifikasi sekilas

KeluargaGenerasi GPT-5

ModalitasTeks, visi, kode

BahasaMengutamakan Inggris, multibahasa

Prompt cachingDidukung (OpenAI)

Jendela konteks400K token

Output maksimumHingga 128K token

Upaya penalaranMinimal / Rendah / Sedang / Tinggi

Harga daftar vendor$2,5 input / $15 output per 1M

Benchmark GPT-5.4

Skor yang dilaporkan vendor dari materi rilis GPT-5 OpenAI, dengan selisih ditampilkan terhadap generasi OpenAI sebelumnya. Ulasan independen menempatkan GPT-5.4 di pita kualitas coding yang sama dengan Claude Sonnet 4.6. Perlakukan persentase absolut sebagai indikasi arah.

SWE-bench Verifieddilaporkan vendor

74,9%

Terminal-Bench 2.0penggunaan tool dilaporkan vendor

~58%

AIME 2025 (tanpa tool)matematika kompetisi dilaporkan vendor

~92%

GPQA Diamondsains pascasarjana dilaporkan vendor

~85%

OSWorld (computer use)dilaporkan vendor

~62%

KecepatanArtificial Analysis, upaya sedang

~110 token/dtk

Harga GPT-5.4

Harga daftar vendor, per 1J token.

Input$2.50

Output$15.00

Cache read$0.25

Cache writeTidak ditagih

Bagaimana GPT-5.4 berperilaku dalam praktik

Perilaku yang diamati dari eksekusi agen produksi.

Tool routing

Akurasi baseline yang solid di seluruh katalog tool framework Codex standar. Tempat 5.5 unggul adalah pada kasus edge yang sulit (pemilihan tool bersyarat, argumen yang sangat bertingkat) — untuk kasus rutin, 5.4 mengarahkan dengan benar pada latensi yang jauh lebih rendah.

Penyuntingan kode

Kualitas patch sebanding dengan Claude Sonnet 4.6 pada beban kerja refactor dan perbaikan bug standar. Tempat 5.5 mulai unggul adalah pada perubahan multi-file di mana patch harus diterapkan dengan bersih pada percobaan pertama.

Kecepatan

Jauh lebih cepat dari 5.5 — sekitar 110 token/dtk pada upaya sedang menurut Artificial Analysis. Ini sebagian alasan 5.4 tetap menjadi default untuk balasan chat interaktif dan loop agen pendek di mana latensi yang terlihat pengguna penting.

Efisiensi biaya

Kredit ×1 dengan perilaku output di pita kualitas Sonnet 4.6. Bagi tim yang sudah memakai framework Codex, inilah titik manis biaya/kualitas — naikkan ke 5.5 hanya pada langkah yang jelas-jelas membutuhkannya.

Perilaku halusinasi

Mewarisi peningkatan kalibrasi yang dihadirkan OpenAI bersama generasi GPT-5. Lebih jarang memberikan jawaban salah dengan percaya diri dibanding seri GPT-4, terutama pada pertanyaan di luar cakupan pelatihannya.

Tugas agen terbaik untuk GPT-5.4

Langkah agen default di framework Codex

Jika agen Anda sudah dibangun di atas codex CLI atau integrasi framework Codex apa pun, GPT-5.4 adalah default di mana-mana yang alami. Kredit ×1, cukup cepat untuk penggunaan interaktif, cukup akurat untuk pemanggilan tool rutin yang mendominasi sebagian besar jalannya agen.

Chat interaktif dengan visi

UI berbasis tangkapan layar, tanya jawab dokumen, anotasi gambar — GPT-5.4 menangani ketiganya secara multimodal pada kecepatan kuda beban. Multiplier ×1 menjaga biaya per giliran di pita yang sama dengan Sonnet 4.6, sehingga Anda bisa menguji A/B keduanya pada beban kerja yang sama.

Uji A/B biaya/kualitas melawan Claude Sonnet 4.6

Kedua model berada pada kredit ×1 di VM0 Managed, yang membuatnya langsung sebanding dalam biaya. Jalankan agen yang sama pada keduanya selama seminggu dan pilih berdasarkan perilaku pada beban kerja spesifik Anda — tidak ada yang secara universal lebih baik, dan default yang tepat bergantung pada katalog tool dan gaya prompt Anda.

Kapan melewatkan GPT-5.4

Lewati GPT-5.4 pada langkah penalaran tersulit, computer-use, atau penyuntingan kode multi-file di mana 5.5 unggul secara nyata, serta pada pekerjaan klasifikasi massal atau prapenyaringan bervolume tinggi di mana 5.4 Mini empat kali lebih murah di tingkat vendor.

GPT-5.4 vs model lain

GPT-5.4 vs GPT-5.5

Keluarga yang sama, pemosisian berbeda. 5.5 (×2) memberi Anda penalaran, computer-use, dan kualitas kode percobaan pertama yang terkuat; 5.4 (×1) memberi Anda jendela konteks dan rangkaian fitur yang sama dengan setengah biaya kredit dan kecepatan yang jauh lebih tinggi. Jadikan 5.4 default; eskalasikan ke 5.5 hanya pada langkah yang jelas-jelas membutuhkannya.

GPT-5.4 vs Claude Sonnet 4.6

Dua baseline ×1, satu di tiap ekosistem. Sonnet 4.6 berjalan di framework Claude Code; GPT-5.4 berjalan di Codex. Pilih berdasarkan framework yang dituju agen dan definisi tool Anda yang sudah ada. Dalam kualitas output mentah, keduanya cukup dekat sehingga menguji A/B pada beban kerja Anda adalah pilihan yang tepat.

GPT-5.4 vs GPT-5.4 Mini

Keluarga yang sama, pemosisian berbeda. 5.4 (×1) membawa lebih banyak kualitas penalaran per token; 5.4 Mini (×0,3) memberi Anda opsi yang jauh lebih murah untuk pekerjaan massal dan prapenyaringan. Gunakan 5.4 Mini untuk klasifikasi fan-out dan 5.4 untuk langkah yang menentukan jalannya agen.

Kesimpulan: haruskah Anda menggunakan GPT-5.4?

GPT-5.4 adalah default di mana-mana untuk agen berbasis framework Codex di VM0. Eskalasikan ke 5.5 untuk penalaran sulit, turun ke 5.4 Mini untuk prapenyaringan massal.

Pertanyaan yang sering diajukan

Berapa jendela konteks GPT-5.4?

400.000 token, dengan output hingga 128K token per respons. Seluruh jendela ditagih pada tarif standar.

Bisakah GPT-5.4 menangani gambar?

Ya. GPT-5.4 bersifat multimodal. Model ini menerima input gambar bersama teks dan kode secara bawaan.

Kapan saya harus memilih GPT-5.4 alih-alih Claude Sonnet 4.6?

Ketika agen Anda sudah dibangun di framework Codex atau Anda membutuhkan ekosistem OpenAI (katalog tool, structured outputs, Responses API). Keduanya berada pada kredit ×1, jadi biayanya identik dan pilihannya bergantung pada kecocokan framework dan perilaku.

Apakah GPT-5.4 mendukung prompt caching?

Ya. Input yang di-cache ditagih $0,25 per 1M token — diskon 10× pada bagian yang di-cache.

Framework apa yang digunakan GPT-5.4 di VM0?

Codex. VM0 mengarahkan semua model GPT-5 melalui permukaan Responses API framework Codex.

Alternatif

GPT-5.5

Tingkat eskalasi untuk langkah tersulit

GPT-5.4 Mini

Opsi lebih murah untuk pekerjaan massal

Claude Sonnet 4.6

Setara ×1 di framework Claude Code

Menggunakan GPT-5.4 di VM0

Dua cara mengakses GPT-5.4 di VM0

VM0 mendukung GPT-5.4 sebagai model Built-in yang ditagih dalam kredit VM0, dan melalui bring-your-own dengan OpenAI API key. Jalur Built-in menggunakan routing VM0 Managed dan pengali kredit yang dijelaskan di bawah; jalur bring-your-own menagih Anda langsung ke vendor hulu dan sepenuhnya melewati konversi kredit VM0.

Rekomendasi VM0

VM0 memposisikan GPT-5.4 sebagai model agen inti, direkomendasikan bersama Claude Opus 4.7, Claude Opus 4.6, dan Claude Sonnet 4.6 untuk langkah-langkah yang menggerakkan hasil aktual dari sebuah eksekusi agen. Inilah model yang akan kami pilih untuk peran orkestrator, untuk agen yang menyentuh kode, dan untuk langkah apa pun di mana jawaban yang salah berbiaya mahal.

Kredit dan pengali ×1

Setiap model Built-in di VM0 dihargai sebagai kelipatan dari Claude Sonnet 4.6, yang berada di baseline kredit ×1. GPT-5.4 ditagih pada ×1 kredit. Pengali inilah yang muncul di invoice VM0 Anda; harga daftar vendor di tabel harga di atas adalah yang dikenakan penyedia hulu sebelum VM0 mengonversinya menjadi kredit.

GPT-5.4 berada di baseline ×1 yang menjadi acuan harga setiap model Built-in lainnya, jadi inilah satuan yang Anda gunakan untuk membandingkan biaya saat memilih antar model di VM0.

Tersedia di VM0 sejak April 2026.