Alle Modelle

Kimi K2.6 on VM0. Long-context agents

Moonshots Open-Source-Flaggschiff. Starke SWE-bench-Ergebnisse, Bildunterstützung und AWS-Fehlerbehebungsfähigkeiten zu ×0,3 Credits.

256K tokens · Text / Vision / Code · Prompt cache

Kimi K2.6 ist Moonshots leistungsstärkstes öffentliches Modell, veröffentlicht im April 2026. Es bietet starke SWE-bench-Ergebnisse, multimodale Eingabe (Text, Bild, Code) und prompt caching — alles unter einer Open-Source-Lizenz.

Listenpreis $0,60/$3,00 pro 1M Tokens mit gecachtem Input bei $0,10/1M. Auf VM0 bei ×0,3 Credits positioniert es sich als kosteneffiziente Alternative zu Claude Sonnet 4.6.

Was ist Kimi K2.6?

April 2026 · Moonshots Flaggschiff-Modell. Nachfolger von K2.5.

Kimi K2.6 is Moonshot AI's open-weight agentic model released April 20, 2026. It's a 1-trillion-parameter Mixture-of-Experts (MoE) model with 32B active parameters per token. The same architecture family as K2.5 and K2 Thinking, with substantial gains on agentic coding and long-horizon reasoning.

K2.6 made a real splash on independent leaderboards. Vendor-reported scores put it ahead of GPT-5.4 (xhigh) and Claude Opus 4.6 (max effort) on SWE-bench Pro, with a hallucination rate of 39% (down from K2.5's 65%). Artificial Analysis ranks it #4 on its Intelligence Index. The leading open-weight option.

On VM0 it's exposed via the Moonshot API key as the default model, through VM0 Managed at the same ×0.3 multiplier, and via OpenRouter. The API is Anthropic-compatible, so VM0 agents written for Claude work without code changes.

Technische Daten auf einen Blick

FamilieKimi K2-Familie
ParameterNicht veröffentlicht
ModalitätenText, Bild, Code
SprachenMehrsprachig
Kontextfenster256K Token
LizenzOpen Source
Verfügbar auf VM0April 2026

Kimi K2.6 Benchmarks

Vendor-reported scores from Moonshot's K2.6 release blog. Independent third parties (Artificial Analysis, TokenMix) corroborate the relative ordering. K2.6's hallucination rate dropped to 39% from K2.5's 65%. A significant safety/reliability improvement.

SWE-bench Provendor-reported; beats GPT-5.4, Opus 4.6
58.6
SWE-bench Verifiedvendor-reported
80.2
Terminal-Bench 2.0Terminus-2 framework
66.7
LiveCodeBench (v6)vendor-reported
89.6
HLE (with tools)leads GPT-5.4 and Opus 4.6
54.0
BrowseComp (Agent Swarm)up from K2.5's 78.4
86.3
Artificial Analysis Intelligence Index#4 overall, leading open-weight
54

Kimi K2.6 Preise

Listenpreis des Anbieters, pro 1 Mio. Tokens.

Input$0.60
Output$3.00
Cache Read$0.10
Cache Write$0.60

Wie sich Kimi K2.6 in der Praxis verhält

Beobachtetes Verhalten aus produktiven Agent-Durchläufen.

Long-context recall

Strongest long-context recall in our internal evaluation across the Built-in lineup. Maintains coherence across long agent transcripts where Anthropic Sonnet starts to drift.

Agentic benchmarks

Vendor-reported SWE-bench Pro 58.6 is the highest in the lineup at the time of writing. Beats GPT-5.4 and Opus 4.6.

Long-horizon coding

Documented 12+ hour autonomous sessions completing 4,000+ tool calls. The model genuinely sustains performance across very long runs.

Tool use

Reliable across common VM0 tool flows. The Anthropic-compatible API means tool schemas designed for Claude work directly.

Beste Agent-Aufgaben für Kimi K2.6

The investigation that has to read every old thread

Dig through six months of Slack conversations to find why a customer churned, comb the support-ticket backlog for a recurring bug pattern, or stitch together insights across a hundred RFCs. K2.6's long-context recall holds up across transcripts where Anthropic Sonnet starts dropping earlier turns, which is exactly what "reading the whole pile" workflows need.

The autonomous refactor that runs overnight

Moonshot has documented a 13-hour autonomous refactor of an eight-year-old matching engine, with K2.6 sustaining 4,000+ tool calls without drifting off task. That's the kind of run where most models lose the goal somewhere around hour two; K2.6's long-horizon stability is what makes "start it Friday evening, check Monday morning" actually work.

The multimodal agent that handles screenshots and clips

K2.6 accepts both image and video input through MoonViT, which is unusual outside the Claude family. Useful for screenshot-driven QA agents, document-vision pipelines, and any deployment where you'd otherwise have to splice in a separate vision model just to read images.

Wann du Kimi K2.6 überspringen solltest

Skip K2.6 on the hardest tool-routing edge cases where Sonnet 4.6 still leads on production reliability, and on latency-critical chat replies where Haiku 4.5 is meaningfully faster.

Kimi K2.6 vs andere Modelle

Kimi K2.6 vs GLM-5.1

Both are long-context options. K2.6 wins on raw long-context recall in our internal evaluation; GLM-5.1 wins on context size (1M vs 256K). Default to K2.6 for long transcripts; reach for GLM-5.1 only when you need >256K tokens in a single prompt.

Kimi K2.6 vs Claude Sonnet 4.6

Sonnet (×1) leads on multi-tool English-language routing reliability. K2.6 (×0.3) wins on cost and on agentic benchmarks (SWE-bench Pro). Pair them: Sonnet for complex tool-routing, K2.6 for cost-sensitive agent work.

Kimi K2.6 vs Kimi K2.5

K2.6 is the newer generation with stronger tool-use, lower hallucination rate (39% vs 65%), and better reasoning. K2.5 (×0.2) is slightly cheaper. Prefer K2.6 for new work.

Fazit: Solltest du Kimi K2.6 nutzen?

Kimi K2.6 ist die beste kosteneffiziente Wahl für SWE-bench-intensive Workloads. Seine Kombination aus Open-Source-Lizenz, Bildunterstützung und niedrigen Kosten macht es zu einem starken Kandidaten für selbst gehostete Setups.

Häufig gestellte Fragen

When was Kimi K2.6 released?

Moonshot AI released Kimi K2.6 on April 20, 2026. Open weights are published on Hugging Face under a Modified MIT License.

What's the context window?

256K tokens. K2.6 differentiates on recall quality at that size, not raw window size. Recall starts to degrade past ~180K (similar to other 256K models).

Do I need to rewrite my agent to use Kimi?

No. Kimi K2.6 exposes an Anthropic-compatible API, so VM0 agents tuned for Claude work without code changes.

How does Kimi K2.6 compare to Claude Opus 4.6?

On agentic benchmarks (vendor-reported), K2.6 leads. SWE-bench Pro 58.6 vs Opus 4.6's 53.4, HLE with tools 54.0 vs 53.0. Opus 4.6 retains an edge on safety profile and English-language tool-routing reliability in production.

Does K2.6 support image input?

Yes. K2.6 accepts image and video input. Text-only output. Multimodal agents work natively.

Alternativen

Kimi K2.6 auf VM0 nutzen

Zwei Wege, um Kimi K2.6 auf VM0 zu nutzen

VM0 unterstützt Kimi K2.6 als Built-in-Modell, das in VM0-Credits abgerechnet wird, sowie über Bring-your-own mit einem Moonshot API key. Der Built-in-Weg nutzt VM0 Managed Routing und den unten erklärten Credit-Multiplikator; der Bring-your-own-Weg rechnet direkt mit dem Upstream-Anbieter ab und überspringt die VM0-Credit-Umrechnung.

VM0s Empfehlung

VM0 positioniert Kimi K2.6 als kostensparende Option statt als Core-Agent-Modell. Nutze es zur Optimierung der Stückkosten bei Nicht-Kernarbeit wie Massenklassifikation, Vorfiltern, latenzkritischen Kurzantworten oder fest zugewiesenen Legacy-Agents, während Claude Opus 4.7, Claude Opus 4.6 oder Claude Sonnet 4.6 die entscheidenden Schritte übernehmen.

Credits und der ×0.3-Multiplikator

Jedes Built-in-Modell auf VM0 wird als Vielfaches von Claude Sonnet 4.6 bepreist, das die ×1-Credit-Basislinie bildet. Kimi K2.6 wird mit ×0.3 Credits abgerechnet. Der Multiplikator erscheint auf deiner VM0-Rechnung; der Anbieter-Listenpreis in der obigen Preistabelle ist das, was der Upstream-Anbieter berechnet, bevor VM0 ihn in Credits umrechnet.

Kimi K2.6 wird mit ×0.3 abgerechnet, d.h. ein Schritt kostet hier nur das 0.3-fache der Credits eines äquivalenten Schritts mit Sonnet 4.6 (der ×1-Basislinie). Damit liegt es deutlich unter der Credit-Basislinie und ist die natürliche Wahl für volumenstarke Hintergrundarbeit, bei der Kosten pro Schritt wichtiger sind als höchste Reasoning-Qualität.

Verfügbar auf VM0 seit April 2026.