Kimi K2.7 Code su VM0. Agenti a contesto lungo

L'ultimo modello open-weight di Moonshot. Benchmark agentici al vertice della frontiera open-source e un'interfaccia compatibile con Claude.

256K tokens · Text / Vision / Code · Prompt cache

Usa Kimi K2.7 Code su VM0

Kimi K2.7 Code è il modello di punta open-weight di Moonshot e attualmente il modello agentico open-source più forte su diversi benchmark pubblici. Sostiene esecuzioni molto lunghe senza perdere il filo (Moonshot ha documentato sessioni autonome di oltre 12 ore e più di 4.000 chiamate a strumenti) e accetta input di immagini e video in modo nativo. Il punteggio SWE-bench Pro riportato dal vendor raggiunge 58,6 (sopra Claude Opus 4.6 e GPT-5.4 su quel benchmark) e il tasso di allucinazione è sceso dal ~65% di K2.6 al ~39%.

Il prezzo di listino del vendor è di $1,14 / $4,80 per 1M di token, i pesi open vengono distribuiti con una licenza Modified MIT e l'API è compatibile con Anthropic. Affidati a Sonnet 4.6 quando l'affidabilità del routing degli strumenti in produzione conta più dei punteggi nei benchmark, e a Kimi K2.7 Code quando domina la latenza.

Cos'è Kimi K2.7 Code?

Giugno 2026 · Al vertice della serie open-weight Kimi K2 di Moonshot. Successore di K2.6 e K2 Thinking.

Kimi K2.7 Code è il modello agentico open-weight di Moonshot AI, rilasciato a giugno 2026. È un modello Mixture-of-Experts (MoE) da 1 trilione di parametri con 32B di parametri attivi per token. La stessa famiglia architetturale di K2.6 e K2 Thinking, con guadagni sostanziali nella programmazione agentica e nel ragionamento a lungo orizzonte.

K2.7 ha fatto davvero scalpore nelle classifiche indipendenti. I punteggi riportati dal vendor lo collocano davanti a GPT-5.4 (xhigh) e Claude Opus 4.6 (max effort) su SWE-bench Pro, con un tasso di allucinazione del 39% (in calo dal 65% di K2.6). Artificial Analysis lo posiziona al 4° posto nel suo Intelligence Index. L'opzione open-weight di riferimento.

Su VM0 è esposto tramite la chiave API Moonshot come modello predefinito e attraverso VM0 Managed allo stesso moltiplicatore ×0,3. L'API è compatibile con Anthropic, quindi gli agenti VM0 scritti per Claude funzionano senza modifiche al codice.

Cosa rende notevole Kimi K2.7 Code

Caratteristiche principali di architettura e capacità.

K2.7 è un modello Mixture-of-Experts con 1T di parametri totali e 32B attivi per token, dotato di una finestra di contesto da 256K token e input multimodale tra immagini e video (output solo testuale). Moonshot lo abbina a un runtime Agent Swarm che scala orizzontalmente fino a 300 sotto-agenti e 4.000 passi coordinati, e ha documentato sessioni di programmazione a lungo orizzonte di 12 ore o più. I pesi open sono pubblicati su Hugging Face con una licenza Modified MIT.

Specifiche in breve

FamigliaSerie Kimi K2

Parametri1T totali / 32B attivi (MoE)

ModalitàImmagini, video, testo

LingueMultilingue

Finestra di contesto256K token

LicenzaModified MIT (pesi open)

Disponibile su VM0Giugno 2026

Benchmark di Kimi K2.7 Code

Punteggi riportati dal vendor tratti dal blog di rilascio di K2.7 di Moonshot. Parti terze indipendenti (Artificial Analysis, TokenMix) confermano l'ordinamento relativo. Il tasso di allucinazione di K2.7 è sceso al 39% dal 65% di K2.6. Un miglioramento significativo in termini di sicurezza/affidabilità.

SWE-bench Proriportato dal vendor; batte GPT-5.4 e Opus 4.6

58,6

SWE-bench Verifiedriportato dal vendor

80,2

Terminal-Bench 2.0framework Terminus-2

66,7

LiveCodeBench (v6)riportato dal vendor

89,6

HLE (con strumenti)in testa a GPT-5.4 e Opus 4.6

54,0

BrowseComp (Agent Swarm)in crescita dal 78,4 di K2.6

86,3

Artificial Analysis Intelligence Index4° complessivo, primo tra gli open-weight

Prezzi di Kimi K2.7 Code

Prezzo di listino del provider, per 1M di token.

Input$1.14

Output$4.80

Lettura cache$0.19

Scrittura cache$1.14

Come si comporta Kimi K2.7 Code nella pratica

Comportamento osservato dalle esecuzioni di agenti in produzione.

Richiamo a contesto lungo

Il miglior richiamo a contesto lungo nella nostra valutazione interna su tutta la gamma Built-in. Mantiene la coerenza su trascrizioni di agenti molto lunghe dove Anthropic Sonnet inizia a perdere il filo.

Benchmark agentici

Il punteggio SWE-bench Pro riportato dal vendor di 58,6 è il più alto della gamma al momento della stesura. Batte GPT-5.4 e Opus 4.6.

Programmazione a lungo orizzonte

Sessioni autonome documentate di oltre 12 ore che completano più di 4.000 chiamate a strumenti. Il modello sostiene davvero le prestazioni su esecuzioni molto lunghe.

Uso degli strumenti

Affidabile sui flussi di strumenti VM0 più comuni. L'API compatibile con Anthropic fa sì che gli schemi di strumenti progettati per Claude funzionino direttamente.

I migliori task per agenti con Kimi K2.7 Code

L'indagine che deve leggere ogni vecchia conversazione

Scavare tra sei mesi di conversazioni Slack per scoprire perché un cliente ha abbandonato, setacciare l'arretrato di ticket di supporto alla ricerca di un pattern ricorrente di bug, o ricucire insieme spunti tratti da un centinaio di RFC. Il richiamo a contesto lungo di K2.7 regge su trascrizioni dove Anthropic Sonnet inizia a perdere i turni precedenti, che è esattamente ciò di cui hanno bisogno i flussi di lavoro del tipo "leggere l'intera pila".

Il refactoring autonomo che gira di notte

Moonshot ha documentato un refactoring autonomo di 13 ore su un matching engine vecchio di otto anni, con K2.7 che sostiene oltre 4.000 chiamate a strumenti senza deviare dal compito. È il tipo di esecuzione in cui la maggior parte dei modelli perde l'obiettivo intorno alla seconda ora; la stabilità a lungo orizzonte di K2.7 è ciò che rende davvero possibile il "avvialo venerdì sera, controlla lunedì mattina".

L'agente multimodale che gestisce screenshot e clip

K2.7 accetta input sia di immagini sia di video tramite MoonViT, cosa insolita al di fuori della famiglia Claude. Utile per agenti di QA guidati da screenshot, pipeline di document-vision e qualsiasi deployment in cui altrimenti dovresti integrare un modello di visione separato solo per leggere le immagini.

Quando evitare Kimi K2.7 Code

Evita K2.7 sui casi limite più difficili di routing degli strumenti, dove Sonnet 4.6 resta in testa per affidabilità in produzione, e sui flussi di lavoro legacy fissati a una versione dove il moltiplicatore più basso di K2.6 è già sufficiente.

Kimi K2.7 Code vs altri modelli

Kimi K2.7 Code vs GLM-5.2

Entrambe sono attuali opzioni a contesto lungo per il risparmio sui costi. Kimi K2.7 Code è il predefinito di Moonshot con una maggiore adattabilità alla programmazione multimodale; GLM-5.2 è l'attuale predefinito di Z.AI con una finestra di contesto più ampia da 1M di token.

Kimi K2.7 Code vs Claude Sonnet 4.6

Sonnet (×1) è in testa per affidabilità del routing multi-strumento in lingua inglese. K2.7 (×0,3) vince sui costi e sui benchmark agentici (SWE-bench Pro). Abbinali: Sonnet per il routing complesso degli strumenti, K2.7 per il lavoro agentico sensibile ai costi.

Kimi K2.7 Code vs DeepSeek V4 Pro

DeepSeek V4 Pro è più economico e ha una finestra di contesto più ampia da 1M di token. Kimi K2.7 Code è la rotta di programmazione nativa Moonshot più forte e include input visivo. Scegli in base all'affinità con il provider e alla forma del carico di lavoro.

In sintesi: dovresti usare Kimi K2.7 Code?

Il predefinito open-weight per il lavoro agentico serio: contesto lungo, conveniente. Le lacune residue rispetto a Sonnet 4.6 sono l'affidabilità del routing degli strumenti e il supporto enterprise.

Domande frequenti

Quando è stato rilasciato Kimi K2.7 Code?

Moonshot AI ha rilasciato Kimi K2.7 Code a giugno 2026. I pesi open sono pubblicati su Hugging Face con una licenza Modified MIT.

Qual è la finestra di contesto?

256K token. K2.7 si differenzia per la qualità del richiamo a quella dimensione, non per la dimensione grezza della finestra. Il richiamo inizia a degradare oltre i ~180K (in modo simile ad altri modelli da 256K).

Devo riscrivere il mio agente per usare Kimi?

No. Kimi K2.7 Code espone un'API compatibile con Anthropic, quindi gli agenti VM0 ottimizzati per Claude funzionano senza modifiche al codice.

Come si confronta Kimi K2.7 Code con Claude Opus 4.6?

Sui benchmark agentici (riportati dal vendor), K2.7 è in testa. SWE-bench Pro 58,6 contro il 53,4 di Opus 4.6, HLE con strumenti 54,0 contro 53,0. Opus 4.6 mantiene un vantaggio sul profilo di sicurezza e sull'affidabilità del routing degli strumenti in lingua inglese in produzione.

K2.7 supporta l'input di immagini?

Sì. K2.7 accetta input di immagini e video. Output solo testuale. Gli agenti multimodali funzionano in modo nativo.

Alternative

GLM-5.2

Attuale rotta a contesto lungo di Z.AI

DeepSeek V4 Pro

Alternativa di ragionamento più economica per il lavoro sensibile ai costi

Claude Sonnet 4.6

Baseline a maggiore affidabilità per l'uso complesso degli strumenti

Usare Kimi K2.7 Code su VM0

Due modi per accedere a Kimi K2.7 Code su VM0

VM0 supporta Kimi K2.7 Code come modello Built-in fatturato in crediti VM0 e tramite bring-your-own con una Moonshot API key. Il percorso Built-in usa il routing VM0 Managed e il moltiplicatore di crediti spiegato di seguito; il percorso bring-your-own ti fattura direttamente con il fornitore upstream e salta del tutto la conversione in crediti VM0.

La raccomandazione di VM0

VM0 posiziona Kimi K2.7 Code come opzione per risparmiare sui costi anziché come modello agente core. Usalo per ottimizzare il costo unitario sul lavoro non-core, come classificazione in blocco, pre-filtri, risposte brevi critiche per la latenza o agenti legacy fissati, mantenendo Claude Opus 4.7, Claude Opus 4.6 o Claude Sonnet 4.6 sui passi che decidono l'esecuzione.

Crediti e il moltiplicatore ×0.3

Ogni modello Built-in su VM0 è prezzato come un multiplo di Claude Sonnet 4.6, che si colloca alla baseline di crediti ×1. Kimi K2.7 Code viene fatturato a ×0.3 crediti. Il moltiplicatore è ciò che compare sulla tua fattura VM0; il prezzo di listino del fornitore nella tabella prezzi sopra è ciò che il provider upstream addebita prima che VM0 lo converta in crediti.

Kimi K2.7 Code viene fatturato a ×0.3, il che significa che un passo qui costa solo 0.3× i crediti di un passo equivalente su Sonnet 4.6 (la baseline ×1). Questo lo colloca ben al di sotto della baseline di crediti e lo rende la scelta naturale per il lavoro di background ad alto volume, dove il costo per passo conta più della qualità di ragionamento di picco.

Disponibile su VM0 dal June 2026.