Kimi K2.7 Code na VM0. Agentes de contexto longo

O modelo open-weight mais recente da Moonshot. Benchmarks agênticos de ponta na fronteira open-source e uma interface compatível com Claude.

256K tokens · Text / Vision / Code · Prompt cache

Usar Kimi K2.7 Code na VM0

O Kimi K2.7 Code é o carro-chefe open-weight da Moonshot e atualmente o modelo agêntico open-source mais forte em vários benchmarks públicos. Ele sustenta execuções muito longas sem perder o fio da meada (a Moonshot documentou sessões autônomas de mais de 12 horas e mais de 4.000 chamadas de ferramenta) e aceita entrada de imagem e vídeo nativamente. O SWE-bench Pro reportado pelo fornecedor chega a 58.6 (acima do Claude Opus 4.6 e do GPT-5.4 nesse benchmark), e a taxa de alucinação caiu dos ~65% do K2.6 para ~39%.

O preço de tabela do fornecedor é de US$ 1,14 / US$ 4,80 por 1M de tokens, os open weights são distribuídos sob uma licença Modified MIT, e a API é compatível com a Anthropic. Recorra ao Sonnet 4.6 quando a confiabilidade do roteamento de ferramentas em produção importar mais do que as pontuações de benchmark, e ao Kimi K2.7 Code quando a latência for o fator dominante.

O que é o Kimi K2.7 Code?

Junho de 2026 · Topo da série open-weight Kimi K2 da Moonshot. Sucessor do K2.6 e do K2 Thinking.

O Kimi K2.7 Code é o modelo agêntico open-weight da Moonshot AI, lançado em junho de 2026. É um modelo Mixture-of-Experts (MoE) de 1 trilhão de parâmetros com 32B de parâmetros ativos por token. Mesma família de arquitetura do K2.6 e do K2 Thinking, com ganhos substanciais em codificação agêntica e raciocínio de longo horizonte.

O K2.7 causou um impacto real em leaderboards independentes. As pontuações reportadas pelo fornecedor o colocam à frente do GPT-5.4 (xhigh) e do Claude Opus 4.6 (esforço máximo) no SWE-bench Pro, com uma taxa de alucinação de 39% (queda em relação aos 65% do K2.6). A Artificial Analysis o classifica em #4 no seu Intelligence Index. A principal opção open-weight.

Na VM0 ele é exposto pela chave de API da Moonshot como modelo padrão e por meio do VM0 Managed no mesmo multiplicador de ×0.3. A API é compatível com a Anthropic, então agentes da VM0 escritos para o Claude funcionam sem alterações de código.

O que se destaca no Kimi K2.7 Code

Principais recursos de arquitetura e capacidade.

O K2.7 é um modelo Mixture-of-Experts com 1T de parâmetros totais e 32B ativos por token, com uma janela de contexto de 256K tokens e entrada multimodal de imagem e vídeo (saída apenas em texto). A Moonshot o combina com um runtime Agent Swarm que escala horizontalmente para 300 subagentes e 4.000 passos coordenados, e documentou sessões de codificação de longo horizonte de 12 horas ou mais. Os open weights são publicados no Hugging Face sob uma licença Modified MIT.

Especificações em resumo

FamíliaSérie Kimi K2

Parâmetros1T totais / 32B ativos (MoE)

ModalidadesImagem, vídeo, texto

IdiomasMultilíngue

Janela de contexto256K tokens

LicençaModified MIT (open weights)

Disponível na VM0Junho de 2026

Benchmarks do Kimi K2.7 Code

Pontuações reportadas pelo fornecedor a partir do blog de lançamento do K2.7 da Moonshot. Terceiros independentes (Artificial Analysis, TokenMix) corroboram a ordenação relativa. A taxa de alucinação do K2.7 caiu para 39%, ante os 65% do K2.6. Uma melhoria significativa de segurança/confiabilidade.

SWE-bench Proreportado pelo fornecedor; supera GPT-5.4, Opus 4.6

58.6

SWE-bench Verifiedreportado pelo fornecedor

80.2

Terminal-Bench 2.0framework Terminus-2

66.7

LiveCodeBench (v6)reportado pelo fornecedor

89.6

HLE (com ferramentas)lidera sobre GPT-5.4 e Opus 4.6

54.0

BrowseComp (Agent Swarm)acima dos 78.4 do K2.6

86.3

Artificial Analysis Intelligence Index#4 no geral, líder entre os open-weight

Preços do Kimi K2.7 Code

Preço de tabela do provedor, por 1M de tokens.

Entrada$1.14

Saída$4.80

Leitura de cache$0.19

Escrita de cache$1.14

Como o Kimi K2.7 Code se comporta na prática

Comportamento observado em execuções de agentes em produção.

Recall de contexto longo

O recall de contexto longo mais forte da nossa avaliação interna em toda a linha Built-in. Mantém a coerência ao longo de transcrições longas de agentes, onde o Anthropic Sonnet começa a se desviar.

Benchmarks agênticos

O SWE-bench Pro 58.6 reportado pelo fornecedor é o mais alto da linha no momento da redação. Supera o GPT-5.4 e o Opus 4.6.

Codificação de longo horizonte

Sessões autônomas documentadas de mais de 12 horas concluindo mais de 4.000 chamadas de ferramenta. O modelo realmente sustenta o desempenho ao longo de execuções muito longas.

Uso de ferramentas

Confiável nos fluxos de ferramentas comuns da VM0. A API compatível com a Anthropic significa que esquemas de ferramentas projetados para o Claude funcionam diretamente.

Melhores tarefas de agente para o Kimi K2.7 Code

A investigação que precisa ler todas as conversas antigas

Vasculhar seis meses de conversas no Slack para descobrir por que um cliente desistiu, pentear o backlog de tickets de suporte em busca de um padrão recorrente de bug, ou costurar insights ao longo de uma centena de RFCs. O recall de contexto longo do K2.7 se sustenta em transcrições onde o Anthropic Sonnet começa a deixar cair turnos mais antigos, que é exatamente o que os fluxos de "ler a pilha inteira" exigem.

A refatoração autônoma que roda a noite toda

A Moonshot documentou uma refatoração autônoma de 13 horas de um motor de matching de oito anos, com o K2.7 sustentando mais de 4.000 chamadas de ferramenta sem se desviar da tarefa. É o tipo de execução em que a maioria dos modelos perde a meta lá pela segunda hora; a estabilidade de longo horizonte do K2.7 é o que faz "começar na sexta à noite, conferir na segunda de manhã" realmente funcionar.

O agente multimodal que lida com screenshots e clipes

O K2.7 aceita entrada de imagem e vídeo pelo MoonViT, o que é incomum fora da família Claude. Útil para agentes de QA orientados por screenshots, pipelines de visão de documentos e qualquer implantação em que, de outra forma, você teria que encaixar um modelo de visão separado só para ler imagens.

Quando dispensar o Kimi K2.7 Code

Evite o K2.7 nos casos de borda mais difíceis de roteamento de ferramentas, onde o Sonnet 4.6 ainda lidera em confiabilidade de produção, e em fluxos legados fixados onde o multiplicador mais baixo do K2.6 já é suficiente.

Kimi K2.7 Code vs outros modelos

Kimi K2.7 Code vs GLM-5.2

Ambos são opções atuais de contexto longo com economia de custos. O Kimi K2.7 Code é o padrão da Moonshot, com melhor encaixe em codificação multimodal; o GLM-5.2 é o padrão atual da Z.AI, com uma janela de contexto maior, de 1M de tokens.

Kimi K2.7 Code vs Claude Sonnet 4.6

O Sonnet (×1) lidera na confiabilidade de roteamento multiferramenta em inglês. O K2.7 (×0.3) vence em custo e em benchmarks agênticos (SWE-bench Pro). Combine os dois: Sonnet para roteamento complexo de ferramentas, K2.7 para trabalho de agente sensível a custo.

Kimi K2.7 Code vs DeepSeek V4 Pro

O DeepSeek V4 Pro é mais barato e tem uma janela de contexto maior, de 1M de tokens. O Kimi K2.7 Code é a rota de codificação nativa da Moonshot mais forte e inclui entrada de visão. Escolha pelo encaixe de provedor e pelo formato da carga de trabalho.

Conclusão: você deveria usar o Kimi K2.7 Code?

O padrão open-weight para trabalho agêntico sério — contexto longo, custo-efetivo. As lacunas restantes em relação ao Sonnet 4.6 são confiabilidade de roteamento de ferramentas e suporte empresarial.

Perguntas frequentes

Quando o Kimi K2.7 Code foi lançado?

A Moonshot AI lançou o Kimi K2.7 Code em junho de 2026. Os open weights são publicados no Hugging Face sob uma licença Modified MIT.

Qual é a janela de contexto?

256K tokens. O K2.7 se diferencia pela qualidade do recall nesse tamanho, não pelo tamanho bruto da janela. O recall começa a degradar acima de ~180K (semelhante a outros modelos de 256K).

Preciso reescrever meu agente para usar o Kimi?

Não. O Kimi K2.7 Code expõe uma API compatível com a Anthropic, então agentes da VM0 ajustados para o Claude funcionam sem alterações de código.

Como o Kimi K2.7 Code se compara ao Claude Opus 4.6?

Em benchmarks agênticos (reportados pelo fornecedor), o K2.7 lidera. SWE-bench Pro 58.6 contra 53.4 do Opus 4.6, HLE com ferramentas 54.0 contra 53.0. O Opus 4.6 mantém vantagem no perfil de segurança e na confiabilidade de roteamento de ferramentas em inglês em produção.

O K2.7 oferece suporte a entrada de imagem?

Sim. O K2.7 aceita entrada de imagem e vídeo. Saída apenas em texto. Agentes multimodais funcionam nativamente.

Alternativas

GLM-5.2

Rota atual de contexto longo da Z.AI

DeepSeek V4 Pro

Alternativa de raciocínio mais barata para trabalho sensível a custo

Claude Sonnet 4.6

Base de maior confiabilidade para uso complexo de ferramentas

Usando o Kimi K2.7 Code na VM0

Duas formas de acessar o Kimi K2.7 Code na VM0

A VM0 suporta o Kimi K2.7 Code como um modelo Built-in cobrado em créditos VM0 e via bring-your-own com uma Moonshot API key. O caminho Built-in usa o roteamento Gerenciado da VM0 e o multiplicador de créditos explicado abaixo; o caminho bring-your-own cobra você diretamente com o fornecedor upstream e pula totalmente a conversão de créditos da VM0.

A recomendação da VM0

A VM0 posiciona o Kimi K2.7 Code como uma opção de economia de custo, e não como um modelo de agente central. Use-o para otimizar o custo unitário em trabalho não central, como classificação em massa, pré-filtros, respostas curtas críticas em latência ou agentes legados fixados, mantendo o Claude Opus 4.7, o Claude Opus 4.6 ou o Claude Sonnet 4.6 nos passos que decidem a execução.

Créditos e o multiplicador ×0.3

Todo modelo Built-in na VM0 é precificado como um múltiplo do Claude Sonnet 4.6, que fica na linha de base de ×1 crédito. O Kimi K2.7 Code cobra a ×0.3 créditos. O multiplicador é o que aparece na sua fatura da VM0; o preço de tabela do fornecedor na tabela de preços acima é o que o provedor upstream cobra antes de a VM0 convertê-lo em créditos.

O Kimi K2.7 Code cobra a ×0.3, o que significa que um passo aqui custa apenas 0.3× os créditos de um passo equivalente no Sonnet 4.6 (a linha de base de ×1). Isso o coloca bem abaixo da linha de base de créditos e o torna a escolha natural para trabalho de fundo em alto volume, onde o custo por passo importa mais do que a qualidade máxima de raciocínio.

Disponível na VM0 desde June 2026.