Kimi K2.7 Code di VM0. Agen konteks panjang

Model open-weight terbaru dari Moonshot. Benchmark agentik kelas terdepan di garis depan open-source dan antarmuka yang kompatibel dengan Claude.

256K tokens · Text / Vision / Code · Prompt cache

Gunakan Kimi K2.7 Code di VM0

Kimi K2.7 Code adalah flagship open-weight dari Moonshot dan saat ini merupakan model agentik open-source terkuat di beberapa benchmark publik. Model ini mampu menjalankan proses yang sangat panjang tanpa kehilangan alur (Moonshot telah mendokumentasikan sesi tanpa pengawasan selama 12+ jam dan 4.000+ panggilan tool) serta menerima input gambar dan video secara native. SWE-bench Pro yang dilaporkan vendor mencapai 58.6 (di atas Claude Opus 4.6 dan GPT-5.4 pada benchmark tersebut), dan tingkat halusinasi turun dari ~65% di K2.6 menjadi ~39%.

Harga daftar vendor adalah $1.14 / $4.80 per 1M token, open weights dirilis di bawah lisensi Modified MIT, dan API-nya kompatibel dengan Anthropic. Pilih Sonnet 4.6 ketika keandalan tool-routing di produksi lebih penting daripada skor benchmark, dan pilih Kimi K2.7 Code ketika latensi yang menjadi penentu utama.

Apa itu Kimi K2.7 Code?

Juni 2026 · Puncak dari seri Kimi K2 open-weight Moonshot. Penerus K2.6 dan K2 Thinking.

Kimi K2.7 Code adalah model agentik open-weight dari Moonshot AI yang dirilis pada Juni 2026. Ini adalah model Mixture-of-Experts (MoE) berukuran 1 triliun parameter dengan 32B parameter aktif per token. Berasal dari keluarga arsitektur yang sama dengan K2.6 dan K2 Thinking, dengan peningkatan signifikan pada coding agentik dan penalaran long-horizon.

K2.7 benar-benar mencuri perhatian di leaderboard independen. Skor yang dilaporkan vendor menempatkannya di atas GPT-5.4 (xhigh) dan Claude Opus 4.6 (max effort) pada SWE-bench Pro, dengan tingkat halusinasi 39% (turun dari 65% di K2.6). Artificial Analysis menempatkannya di peringkat #4 pada Intelligence Index-nya. Opsi open-weight terdepan.

Di VM0 model ini tersedia melalui API key Moonshot sebagai model default dan melalui VM0 Managed dengan pengali ×0.3 yang sama. API-nya kompatibel dengan Anthropic, sehingga agen VM0 yang ditulis untuk Claude dapat berjalan tanpa perubahan kode.

Apa yang menonjol dari Kimi K2.7 Code

Fitur arsitektur dan kapabilitas utama.

K2.7 adalah model Mixture-of-Experts dengan total 1T parameter dan 32B aktif per token, didukung jendela konteks 256K token serta input multimodal lintas gambar dan video (output hanya teks). Moonshot memadukannya dengan runtime Agent Swarm yang menskala horizontal hingga 300 sub-agen dan 4.000 langkah terkoordinasi, dan telah mendokumentasikan sesi coding long-horizon selama 12 jam atau lebih. Open weights dipublikasikan di Hugging Face di bawah Modified MIT License.

Spesifikasi sekilas

KeluargaSeri Kimi K2

ParameterTotal 1T / 32B aktif (MoE)

ModalitasGambar, video, teks

BahasaMultibahasa

Jendela konteks256K token

LisensiModified MIT (open weights)

Tersedia di VM0Juni 2026

Benchmark Kimi K2.7 Code

Skor yang dilaporkan vendor dari blog rilis K2.7 milik Moonshot. Pihak ketiga independen (Artificial Analysis, TokenMix) menguatkan urutan relatifnya. Tingkat halusinasi K2.7 turun menjadi 39% dari 65% di K2.6. Peningkatan keamanan/keandalan yang signifikan.

SWE-bench Prodilaporkan vendor; mengungguli GPT-5.4, Opus 4.6

58.6

SWE-bench Verifieddilaporkan vendor

80.2

Terminal-Bench 2.0framework Terminus-2

66.7

LiveCodeBench (v6)dilaporkan vendor

89.6

HLE (dengan tools)mengungguli GPT-5.4 dan Opus 4.6

54.0

BrowseComp (Agent Swarm)naik dari 78.4 di K2.6

86.3

Artificial Analysis Intelligence Index#4 secara keseluruhan, open-weight terdepan

Harga Kimi K2.7 Code

Harga daftar vendor, per 1J token.

Input$1.14

Output$4.80

Cache read$0.19

Cache write$1.14

Bagaimana Kimi K2.7 Code berperilaku dalam praktik

Perilaku yang diamati dari eksekusi agen produksi.

Recall konteks panjang

Recall konteks panjang terkuat dalam evaluasi internal kami di seluruh jajaran Built-in. Mempertahankan koherensi di transkrip agen yang panjang ketika Anthropic Sonnet mulai melenceng.

Benchmark agentik

SWE-bench Pro 58.6 yang dilaporkan vendor adalah yang tertinggi di jajaran ini pada saat penulisan. Mengungguli GPT-5.4 dan Opus 4.6.

Coding long-horizon

Sesi otonom 12+ jam yang terdokumentasi menyelesaikan 4.000+ panggilan tool. Model ini benar-benar mempertahankan performa di sepanjang proses yang sangat panjang.

Penggunaan tool

Andal di alur tool VM0 yang umum. API yang kompatibel dengan Anthropic berarti skema tool yang dirancang untuk Claude berfungsi langsung.

Tugas agen terbaik untuk Kimi K2.7 Code

Investigasi yang harus membaca setiap thread lama

Menelusuri percakapan Slack selama enam bulan untuk menemukan alasan seorang pelanggan churn, menyisir backlog tiket support untuk pola bug yang berulang, atau merangkai wawasan dari seratus RFC. Recall konteks panjang K2.7 bertahan di transkrip yang membuat Anthropic Sonnet mulai melepaskan giliran-giliran awal, yang persis menjadi kebutuhan alur kerja "baca seluruh tumpukan".

Refactor otonom yang berjalan semalaman

Moonshot telah mendokumentasikan refactor otonom selama 13 jam pada matching engine berusia delapan tahun, dengan K2.7 mempertahankan 4.000+ panggilan tool tanpa melenceng dari tugas. Itu jenis proses yang membuat sebagian besar model kehilangan tujuannya sekitar jam kedua; stabilitas long-horizon K2.7-lah yang membuat "mulai Jumat malam, cek Senin pagi" benar-benar berhasil.

Agen multimodal yang menangani screenshot dan klip

K2.7 menerima input gambar dan video melalui MoonViT, yang tidak biasa di luar keluarga Claude. Berguna untuk agen QA berbasis screenshot, pipeline document-vision, dan setiap penerapan di mana Anda biasanya harus menyisipkan model vision terpisah hanya untuk membaca gambar.

Kapan melewatkan Kimi K2.7 Code

Lewati K2.7 pada kasus tepi tool-routing tersulit di mana Sonnet 4.6 masih unggul soal keandalan produksi, dan pada alur kerja legacy yang terpaku di mana pengali K2.6 yang lebih rendah sudah cukup memadai.

Kimi K2.7 Code vs model lain

Kimi K2.7 Code vs GLM-5.2

Keduanya adalah opsi konteks panjang hemat biaya saat ini. K2.7 Code adalah default Moonshot dengan kesesuaian coding multimodal yang lebih kuat; GLM-5.2 adalah default Z.AI saat ini dengan jendela konteks 1M token yang lebih besar.

Kimi K2.7 Code vs Claude Sonnet 4.6

Sonnet (×1) unggul pada keandalan routing multi-tool berbahasa Inggris. K2.7 (×0.3) menang soal biaya dan pada benchmark agentik (SWE-bench Pro). Padukan keduanya: Sonnet untuk tool-routing kompleks, K2.7 untuk pekerjaan agen yang sensitif terhadap biaya.

Kimi K2.7 Code vs DeepSeek V4 Pro

DeepSeek V4 Pro lebih murah dan memiliki jendela konteks 1M token yang lebih besar. Kimi K2.7 Code adalah jalur coding Moonshot-native yang lebih kuat dan menyertakan input vision. Pilih berdasarkan kesesuaian provider dan bentuk beban kerja.

Kesimpulan: haruskah Anda menggunakan Kimi K2.7 Code?

Default open-weight untuk pekerjaan agen yang serius — konteks panjang, hemat biaya. Kesenjangan yang tersisa dibanding Sonnet 4.6 adalah keandalan tool-routing dan dukungan enterprise.

Pertanyaan yang sering diajukan

Kapan Kimi K2.7 Code dirilis?

Moonshot AI merilis Kimi K2.7 Code pada Juni 2026. Open weights dipublikasikan di Hugging Face di bawah Modified MIT License.

Berapa jendela konteksnya?

256K token. K2.7 unggul dalam kualitas recall pada ukuran tersebut, bukan sekadar ukuran jendela mentah. Recall mulai menurun melewati ~180K (mirip dengan model 256K lainnya).

Apakah saya perlu menulis ulang agen saya untuk menggunakan Kimi?

Tidak. Kimi K2.7 Code menyediakan API yang kompatibel dengan Anthropic, sehingga agen VM0 yang disesuaikan untuk Claude berfungsi tanpa perubahan kode.

Bagaimana Kimi K2.7 Code dibandingkan dengan Claude Opus 4.6?

Pada benchmark agentik (dilaporkan vendor), K2.7 unggul. SWE-bench Pro 58.6 vs 53.4 milik Opus 4.6, HLE dengan tools 54.0 vs 53.0. Opus 4.6 tetap unggul pada profil keamanan dan keandalan tool-routing berbahasa Inggris di produksi.

Apakah K2.7 mendukung input gambar?

Ya. K2.7 menerima input gambar dan video. Output hanya teks. Agen multimodal berfungsi secara native.

Alternatif

GLM-5.2

Jalur konteks panjang Z.AI saat ini

DeepSeek V4 Pro

Alternatif penalaran lebih murah untuk pekerjaan yang sensitif terhadap biaya

Claude Sonnet 4.6

Baseline keandalan lebih tinggi untuk penggunaan tool yang kompleks

Menggunakan Kimi K2.7 Code di VM0

Dua cara mengakses Kimi K2.7 Code di VM0

VM0 mendukung Kimi K2.7 Code sebagai model Built-in yang ditagih dalam kredit VM0, dan melalui bring-your-own dengan Moonshot API key. Jalur Built-in menggunakan routing VM0 Managed dan pengali kredit yang dijelaskan di bawah; jalur bring-your-own menagih Anda langsung ke vendor hulu dan sepenuhnya melewati konversi kredit VM0.

Rekomendasi VM0

VM0 memposisikan Kimi K2.7 Code sebagai opsi penghemat biaya alih-alih model agen inti. Gunakan untuk mengoptimalkan biaya satuan pada pekerjaan non-inti, seperti klasifikasi massal, pra-filter, balasan singkat yang kritis terhadap latensi, atau agen lawas yang di-pin, sambil tetap menjaga Claude Opus 4.7, Claude Opus 4.6, atau Claude Sonnet 4.6 pada langkah-langkah yang menentukan eksekusi.

Kredit dan pengali ×0.3

Setiap model Built-in di VM0 dihargai sebagai kelipatan dari Claude Sonnet 4.6, yang berada di baseline kredit ×1. Kimi K2.7 Code ditagih pada ×0.3 kredit. Pengali inilah yang muncul di invoice VM0 Anda; harga daftar vendor di tabel harga di atas adalah yang dikenakan penyedia hulu sebelum VM0 mengonversinya menjadi kredit.

Kimi K2.7 Code ditagih pada ×0.3, yang berarti satu langkah di sini berbiaya hanya 0.3× kredit dari langkah setara pada Sonnet 4.6 (baseline ×1). Itu menempatkannya jauh di bawah baseline kredit dan menjadikannya pilihan alami untuk pekerjaan latar belakang bervolume tinggi di mana biaya-per-langkah lebih penting daripada kualitas reasoning puncak.

Tersedia di VM0 sejak June 2026.