Semua model

Claude Opus 4.8

Flagship terbaru Anthropic. Dirilis 28 Mei 2026 dengan agentic coding yang lebih kuat, dynamic workflow yang menyebarkan ratusan subagen paralel, dan fast mode 3× lebih murah pada harga reguler yang sama dengan Opus 4.7.

1M tokens · Text / Vision / Code · Prompt cache

Claude Opus 4.8 adalah rilisan flagship Anthropic pada 28 Mei 2026, peningkatan langsung atas Opus 4.7 pada harga daftar vendor $5/$25 yang sama. Ia membukukan skor SWE-bench Pro (69,2%), OSWorld-Verified (83,4%), MCP-Atlas (82,2%), dan Humanity's Last Exam (57,9% dengan tools) tertinggi yang pernah dirilis Anthropic, dan menjadi model pertama yang menembus 10% pada standar all-pass legal-agent.

Dua perubahan struktural yang patut diketahui adalah dynamic workflow (merencanakan sebuah pekerjaan, lalu menyebarkannya ke ratusan subagen paralel dalam satu sesi) dan pemangkasan harga fast mode menjadi kecepatan 2,5× pada $10/$50 per 1J token — tiga kali lebih murah daripada fast mode di model Claude sebelumnya. Tingkat effort meluas ke high (default), extra, dan max. Anthropic sendiri membingkai rilis ini sebagai "peningkatan yang sederhana tapi nyata" alih-alih sebuah lompatan.

Apa itu Claude Opus 4.8?

28 Mei 2026 · Tier teratas dari keluarga Claude 4. Default yang direkomendasikan Anthropic untuk agen baru; dirilis dengan pengali ×2 yang sama dengan Opus 4.7.

Claude Opus 4.8 dirilis pada 28 Mei 2026 sebagai flagship baru Anthropic, 41 hari setelah Opus 4.7. Ia menargetkan beban kerja coding, agentic-skills, reasoning, dan knowledge work yang sama dengan 4.7, pada harga daftar reguler yang sama ($5 input / $25 output per 1J token) dan pengali VM0 yang sama (×2). Anthropic memposisikan rilis ini sebagai "peningkatan yang sederhana tapi nyata atas pendahulunya" alih-alih perubahan menyeluruh.

Dua perubahan struktural penting bagi pengguna VM0. Pertama, dynamic workflow: model bisa merencanakan sebuah tugas dan menyebarkannya ke ratusan subagen paralel dalam satu sesi, yang Anthropic gambarkan sebagai langkah menuju penanganan migrasi berskala codebase di ratusan ribu baris kode dalam satu eksekusi. Kedua, fast mode pada kecepatan 2,5× kini seharga $10 / $50 per 1J token — tiga kali lebih murah daripada fast mode di model Claude sebelumnya. Tingkat effort meluas ke tiga jenjang: high (default), extra (xhigh di Claude Code), dan max.

Pembacaan independen (LLM Stats, VentureBeat, Vellum) mengukuhkan urutan relatif terhadap 4.7 dan kompetitor: 4.8 menang di setiap sel dari set perbandingan yang dipublikasikan Anthropic kecuali Terminal-Bench 2.1, di mana GPT-5.5 masih memimpin (78,2% vs 74,6% milik 4.8). Lompatan 4.7-ke-4.8 pada SWE-bench Pro adalah +4,9 poin; pada USAMO 2026 adalah +27,4; pada GraphWalks F1 konteks panjang 1J token yang baru adalah +27,8. Perlakukan skor absolut sebagai indikatif — SWE-bench Verified mendekati saturasi di seluruh model frontier.

Apa yang menonjol dari Claude Opus 4.8

Fitur arsitektur dan kapabilitas utama.

Opus 4.8 mempertahankan jendela konteks 1J token dan output maksimum 128K dari Opus 4.7, ditagih pada harga input standar di seluruh jendela. Kendali effort meluas ke tiga tingkat: high (default baru), extra (xhigh di dalam Claude Code), dan max. Messages API kini menerima entri system di tengah percakapan tanpa merusak prompt caching. Dynamic workflow membuat Claude bisa merencanakan dan mengirim ratusan subagen paralel dalam satu sesi. Fast mode berjalan pada ~2,5× kecepatan standar seharga $10 / $50 per 1J token. Input multimodal lintas teks, vision, dan kode tidak berubah.

Spesifikasi sekilas

KeluargaGenerasi Claude 4
ModalitasTeks, vision, kode
BahasaMengutamakan Inggris, multibahasa
Prompt cachingDidukung (Anthropic)
Jendela konteks1J token
Output maksimumHingga 128K token
Tingkat effortHigh (default) / Extra / Max
Harga daftar vendor$5 input / $25 output per 1J (fast mode $10/$50, kecepatan 2,5×)

Benchmark Claude Opus 4.8

Skor yang dilaporkan vendor dari system card Opus 4.8 milik Anthropic, dengan perbandingan terhadap Opus 4.7, GPT-5.5, dan Gemini 3.1 Pro pada effort max dan rata-rata 5 percobaan. 4.8 memimpin di enam dari tujuh sel yang dipublikasikan Anthropic; GPT-5.5 mempertahankan keunggulan pada Terminal-Bench 2.1. SWE-bench Verified mendekati saturasi di seluruh model frontier — set SWE-bench Pro yang lebih sulit adalah sinyal yang lebih tahan lama.

SWE-bench Verifieddilaporkan vendor; naik dari 87,6% milik Opus 4.7
88,6%
SWE-bench Promemimpin di bidangnya (4.7: 64,3%, GPT-5.5: 58,6%, Gemini 3.1 Pro: 54,2%)
69,2%
Terminal-Bench 2.1naik dari 66,1% milik 4.7 pada 2.0; GPT-5.5 memimpin di sini dengan 78,2%
74,6%
OSWorld-Verified (computer use)memimpin di bidangnya (4.7: 82,8%, GPT-5.5: 78,7%)
83,4%
Online-Mind2Web (browser agent)dilaporkan vendor
84%
MCP-Atlasnaik dari 77,3% milik Opus 4.7
82,2%
BrowseComp (single-agent)naik dari 79,3% milik Opus 4.7
84,3%
GraphWalks long-context F1 (1J token)naik dari 40,3% milik Opus 4.7
68,1%
Humanity's Last Exam (dengan tools)49,8% tanpa tools; memimpin di bidangnya
57,9%
GPQA Diamonddatar vs 4.7 — tersaturasi di seluruh model frontier
~93%
USAMO 2026 (matematika)naik dari 69,3% milik Opus 4.7
96,7%
GDPval-AA (knowledge work)memimpin (4.7: 1753, GPT-5.5: 1769)
1890 Elo
Finance Agent v2memimpin di bidangnya
53,9%
Legal-agent all-passmodel pertama yang menembus standar ini
>10%

Harga Claude Opus 4.8

Harga daftar vendor, per 1J token.

Input$5.00
Output$25.00
Cache read$0.50
Cache write$6.25

Bagaimana Claude Opus 4.8 berperilaku dalam praktik

Perilaku yang diamati dari eksekusi agen produksi.

Dynamic workflow

Kapabilitas baru andalan. Opus 4.8 bisa merencanakan sebuah tugas lalu menjalankan ratusan subagen paralel dalam sesi yang sama — Anthropic memposisikan ini sebagai jalan menuju migrasi berskala codebase di ratusan ribu baris dalam satu eksekusi. Di VM0, ini berarti satu eksekusi agen bisa mengorkestrasi pekerjaan fan-out yang sebelumnya membutuhkan penjadwalan eksternal.

Suntingan kode percobaan pertama

Anthropic melaporkan Opus 4.8 sekitar empat kali lebih kecil kemungkinannya dibanding 4.7 untuk melewatkan kelemahan saat meninjau kode, dan lompatan +4,9 poin SWE-bench Pro (69,2% vs 64,3%) mengukuhkan itu pada set coding yang lebih sulit dan kurang tersaturasi. Pilih 4.8 untuk patch yang harus terpasang bersih di banyak file.

Recall konteks panjang

GraphWalks F1 pada 1J token melonjak dari 40,3% menjadi 68,1% — peningkatan benchmark tunggal terbesar dalam rilis ini. Jendela 1J token kini benar-benar dapat digunakan pada ujung atas rentangnya, bukan sekadar nominal.

Kejujuran dan overconfidence

Anthropic melaporkan pengurangan overconfidence lebih dari sepuluh kali lipat dibanding 4.7, 0% pada pelaporan hasil cacat tanpa kritik (pertama bagi keluarga Claude), dan tingkat 3,7% pada kegagalan mengangkat peristiwa penting kepada pengguna. Insiden misalignment ~1,9, praktis setara dengan Mythos Preview yang paling selaras milik Anthropic.

Kecepatan dan fast mode

Kecepatan standar sebanding dengan Opus 4.7. Perubahan harga adalah sorotannya: fast mode pada kecepatan 2,5× berbiaya $10 / $50 per 1J token, tiga kali lebih murah daripada fast mode di model Claude sebelumnya. Layak digunakan untuk langkah orkestrasi di mana latensi wall-clock penting.

Catatan prompt-injection

System card Anthropic mencatat 4.8 sedikit kurang tangguh terhadap agentic prompt injection dibanding 4.7 — red-teaming Gray Swan menunjukkan tingkat keberhasilan serangan ~9,6% dibanding 6,0% pada 4.7. Tim yang menjalankan 4.8 dalam pipeline yang menangani input tepercaya rendah sebaiknya meninjau pendekatan sandboxing mereka.

Tugas agen terbaik untuk Claude Opus 4.8

Migrasi berskala codebase yang dulu butuh satu sprint

Serahkan ke Opus 4.8 sebuah migrasi yang menyentuh beberapa ratus file — ganti ORM, naikkan versi framework, perbaikan keamanan di seluruh monorepo — dan biarkan dynamic workflow menyebarkan pekerjaan ke subagen paralel dalam satu sesi. Lompatan +4,9 poin SWE-bench Pro dan pengurangan empat kali lipat pada kelemahan yang terlewat saat meninjau kode adalah yang terbayar pada eksekusi semacam ini.

Eksekusi riset 1J token yang benar-benar utuh

Masukkan draf kontrak 200 halaman, tiga proposal kompetitor, dan opini hukum kuartal lalu ke dalam jendela, lalu minta Opus 4.8 menandai setiap klausul yang lebih ketat dari standar pasar. GraphWalks pada 1J yang melonjak dari 40,3% menjadi 68,1% adalah yang membuat sintesis lintas dokumen semacam ini menjadi andal.

Orkestrator agen yang tidak berbohong soal pekerjaannya

Gunakan 4.8 sebagai perencana yang memecah sebuah permintaan menjadi sepuluh langkah, mengirim masing-masing ke sub-agen yang lebih murah, dan melaporkan hasilnya. Tingkat 0% pada pelaporan hasil cacat tanpa kritik, digabung dengan penurunan sepuluh kali lipat pada overconfidence, adalah alasan tim produksi memilih 4.8 saat self-report agen itu sendiri harus dapat dipercaya.

Alur sensitif-latensi yang akhirnya masuk akal di fast mode

Fast mode pada kecepatan 2,5× dulu berbiaya tiga kali lipat dari sekarang ($10/$50 per 1J vs tier sebelumnya). Untuk copilot interaktif, peringkas on-call, atau langkah apa pun di mana latensi wall-clock mendominasi pengalaman, fast-mode 4.8 kini menjadi pilihan default dalam keluarga Claude.

Kapan melewatkan Claude Opus 4.8

Lewatkan Opus 4.8 pada pekerjaan rutin bervolume tinggi di mana Sonnet 4.6 mencapai standar kualitas yang sama dengan biaya jauh lebih kecil, pada balasan chat kritis-latensi di mana Kimi K2.7 Code jauh lebih cepat, pada agentic terminal coding di mana GPT-5.5 masih memimpin Terminal-Bench 2.1 (78,2% vs 74,6% milik 4.8), dan pada pipeline yang mengonsumsi input tepercaya rendah tanpa sandboxing — ketangguhan prompt-injection 4.8 sedikit lebih lemah dibanding 4.7.

Claude Opus 4.8 vs model lain

Claude Opus 4.8 vs Claude Opus 4.7

Pengali ×2 yang sama, jendela konteks sama, harga reguler sama. Opus 4.8 memimpin di setiap sel yang dipublikasikan Anthropic (SWE-bench Verified +1, SWE-bench Pro +4,9, OSWorld-Verified +0,6, MCP-Atlas +4,9, BrowseComp +5,0, GraphWalks 1J +27,8, USAMO +27,4). Trade-off-nya adalah profil prompt-injection yang sedikit lebih lemah (tingkat keberhasilan serangan ~9,6% vs 6,0%). Migrasikan agen baru ke 4.8; pin 4.7 hanya jika Anda sudah memvalidasinya dan tidak ingin menjalankan ulang regresi.

Claude Opus 4.8 vs Claude Sonnet 4.6

Sonnet 4.6 (×1) masih menjadi workhorse default untuk sebagian besar agent loop. Naikkan ke Opus 4.8 saat Sonnet jelas gagal pada reasoning sulit, recall konteks panjang, atau suntingan kode percobaan pertama — biasanya sebagai perencana yang mendelegasikan ke sub-agen Sonnet atau yang penghemat biaya. Dengan dynamic workflow, Opus 4.8 sebagai orkestrator + Sonnet 4.6 sebagai pekerja adalah pola baru yang direkomendasikan.

Claude Opus 4.8 vs GPT-5.5

Opus 4.8 memimpin di enam dari tujuh sel pada set perbandingan Anthropic, dengan selisih terbesar pada SWE-bench Pro (69,2% vs 58,6%) dan OSWorld-Verified (83,4% vs 78,7%). GPT-5.5 mempertahankan keunggulan pada Terminal-Bench 2.1 (78,2% vs 74,6%). Pilih 4.8 untuk coding lintas-file dan agen computer-use; pilih GPT-5.5 secara khusus saat pekerjaan berbasis terminal mendominasi.

Claude Opus 4.8 vs Gemini 3.1 Pro

Opus 4.8 memimpin dengan margin lebar pada SWE-bench Pro (+15,0) dan OSWorld-Verified (+7,2). Kedua model tetap dalam rentang noise pada benchmark sains yang tersaturasi seperti GPQA Diamond. Default-kan ke 4.8 untuk pekerjaan agentik; pertimbangkan Gemini secara khusus saat Anda butuh kisah integrasi tool dari Google.

Claude Opus 4.8 vs DeepSeek V4 Pro

DeepSeek V4 Pro (×0,1) tetap menjadi pilihan paling optimal-biaya saat harga token mentah mendominasi keputusan. Opus 4.8 mempertahankan keunggulan pada keandalan tool-routing, recall konteks panjang, metrik alignment, dan computer-use, yang menjadi alasan sebagian besar agen enterprise berbahasa Inggris tetap menjadikan 4.8 sebagai default meski ada selisih harga.

Kesimpulan: haruskah Anda menggunakan Claude Opus 4.8?

Default baru untuk agen baru dalam keluarga Claude. Migrasikan dari 4.7 saat Anda bisa memvalidasi ulang; default-kan langsung ke sini untuk pekerjaan baru. Pertahankan Sonnet 4.6 sebagai workhorse yang lebih murah di bawahnya.

Pertanyaan yang sering diajukan

Kapan Claude Opus 4.8 dirilis?

Anthropic merilis Opus 4.8 pada 28 Mei 2026, 41 hari setelah Opus 4.7. Ia tersedia hari ini di seluruh produk Claude, Claude API (model id claude-opus-4-8), Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry, dan VM0.

Bagaimana harga Opus 4.8 dibanding 4.7?

Harga reguler identik: $5 per 1J token input, $25 per 1J token output, $0,50 per 1J cached input. Perubahannya adalah fast mode, kini $10 / $50 per 1J token pada kecepatan 2,5× — tiga kali lebih murah daripada fast mode di model Claude sebelumnya.

Apa itu dynamic workflow?

Kapabilitas baru yang memungkinkan Opus 4.8 merencanakan sebuah tugas lalu menjalankan ratusan subagen paralel dalam satu sesi. Anthropic memposisikan ini sebagai jalan menuju migrasi berskala codebase di ratusan ribu baris kode dalam satu eksekusi agen.

Tingkat effort apa yang didukung Opus 4.8?

Tiga tingkat: high (default baru), extra (xhigh di Claude Code), dan max. Pengaturan yang lebih tinggi menghabiskan lebih banyak token untuk reasoning sebelum menghasilkan respons; pengaturan yang lebih rendah mengutamakan kecepatan dan efisiensi rate-limit.

Haruskah saya migrasi dari Opus 4.7 ke 4.8?

Ya untuk pekerjaan baru — pengali sama, harga reguler sama, perilaku lebih kuat di setiap sel perbandingan yang dipublikasikan kecuali Terminal-Bench 2.1. Migrasikan agen produksi yang di-pin hanya setelah menjalankannya melalui suite regresi Anda, dan tinjau sandboxing Anda jika agen mengonsumsi input tepercaya rendah (4.8 sedikit kurang tangguh terhadap prompt injection dibanding 4.7).

Apakah Opus 4.8 mendukung prompt caching?

Ya. Cached input ditagih pada $0,50 per 1J token, diskon 10× pada porsi yang di-cache. Messages API kini juga menerima entri system di tengah percakapan tanpa merusak cache.

Alternatif

Menggunakan Claude Opus 4.8 di VM0

Dua cara mengakses Claude Opus 4.8 di VM0

VM0 mendukung Claude Opus 4.8 sebagai model Built-in yang ditagih dalam kredit VM0, dan melalui bring-your-own dengan Anthropic API key. Jalur Built-in menggunakan routing VM0 Managed dan pengali kredit yang dijelaskan di bawah; jalur bring-your-own menagih Anda langsung ke vendor hulu dan sepenuhnya melewati konversi kredit VM0.

Rekomendasi VM0

VM0 memposisikan Claude Opus 4.8 sebagai model agen inti, direkomendasikan bersama Claude Opus 4.7, Claude Opus 4.6, dan Claude Sonnet 4.6 untuk langkah-langkah yang menggerakkan hasil aktual dari sebuah eksekusi agen. Inilah model yang akan kami pilih untuk peran orkestrator, untuk agen yang menyentuh kode, dan untuk langkah apa pun di mana jawaban yang salah berbiaya mahal.

Kredit dan pengali ×2

Setiap model Built-in di VM0 dihargai sebagai kelipatan dari Claude Sonnet 4.6, yang berada di baseline kredit ×1. Claude Opus 4.8 ditagih pada ×2 kredit. Pengali inilah yang muncul di invoice VM0 Anda; harga daftar vendor di tabel harga di atas adalah yang dikenakan penyedia hulu sebelum VM0 mengonversinya menjadi kredit.

Claude Opus 4.8 ditagih pada ×2, yang berarti satu langkah di sini berbiaya 2× kredit dari langkah setara pada Sonnet 4.6 (baseline ×1). Ini tier premium di VM0, jadi pola yang hemat biaya adalah menggunakan model yang lebih murah sebagai default dan mengarahkan ke Claude Opus 4.8 hanya langkah yang benar-benar membutuhkan kedalaman reasoning ekstra.

Tersedia di VM0 sejak May 28, 2026.