Todos los modelos

Kimi K2.6 en VM0. Agentes de contexto largo

El último modelo de peso abierto de Moonshot. Los mejores benchmarks agénticos de su clase en la frontera de código abierto e interfaz compatible con Claude.

256K tokens · Text / Vision / Code · Prompt cache

Kimi K2.6 es el buque insignia de peso abierto de Moonshot y actualmente el modelo agéntico de código abierto más fuerte en varios benchmarks públicos. Mantiene ejecuciones muy largas sin perder el hilo (Moonshot ha documentado sesiones desatendidas de más de 12 horas y más de 4.000 llamadas a herramientas) y acepta entrada de imagen y video de forma nativa. SWE-bench Pro reportado por el proveedor alcanza 58,6 (por encima de Claude Opus 4.6 y GPT-5.4 en ese benchmark), y la tasa de alucinación bajó del ~65% de K2.5 al ~39%.

El precio de lista del proveedor es $0,60 / $3 por 1M tokens, pesos abiertos bajo licencia MIT Modificada, y la API es compatible con Anthropic. Recurre a Sonnet 4.6 cuando la fiabilidad de enrutamiento de herramientas en producción importa más que las puntuaciones de benchmark, y a Haiku cuando la latencia domina.

¿Qué es Kimi K2.6?

20 de abril de 2026 · Cima de la serie Kimi K2 de peso abierto de Moonshot. Sucesor de K2.5 y K2 Thinking.

Kimi K2.6 es el modelo agéntico de peso abierto de Moonshot AI lanzado el 20 de abril de 2026. Es un modelo Mixture-of-Experts (MoE) de 1 billón de parámetros con 32B parámetros activos por token. La misma familia de arquitectura que K2.5 y K2 Thinking, con ganancias sustanciales en codificación agéntica y razonamiento de largo horizonte.

K2.6 causó un gran impacto en los rankings independientes. Las puntuaciones reportadas por el proveedor lo sitúan por delante de GPT-5.4 (xhigh) y Claude Opus 4.6 (esfuerzo máximo) en SWE-bench Pro, con una tasa de alucinación del 39% (bajando del 65% de K2.5). Artificial Analysis lo clasifica #4 en su Índice de Inteligencia. La opción líder de peso abierto.

En VM0 se expone a través de la clave API de Moonshot como modelo predeterminado, mediante VM0 Managed con el mismo multiplicador ×0,3, y vía OpenRouter. La API es compatible con Anthropic, por lo que los agentes VM0 escritos para Claude funcionan sin cambios de código.

Qué destaca de Kimi K2.6

Características principales de arquitectura y capacidades.

K2.6 es un modelo Mixture-of-Experts con 1B parámetros totales y 32B activos por token, con una ventana de contexto de 256K tokens y entrada multimodal de imagen y video (salida solo texto). Moonshot lo combina con un runtime Agent Swarm que escala horizontalmente a 300 sub-agentes y 4.000 pasos coordinados, y ha documentado sesiones de codificación de largo horizonte de 12 horas o más. Los pesos abiertos están publicados en Hugging Face bajo una Licencia MIT Modificada.

Especificaciones rápidas

FamiliaSerie Kimi K2
Parámetros1B total / 32B activos (MoE)
ModalidadesImagen, video, texto
IdiomasMultilingüe
Ventana de contexto256K tokens
LicenciaMIT Modificada (pesos abiertos)
Disponible en VM0Abril 2026

Benchmarks de Kimi K2.6

Puntuaciones reportadas por el proveedor del blog de lanzamiento de K2.6 de Moonshot. Terceros independientes (Artificial Analysis, TokenMix) corroboran el orden relativo. La tasa de alucinación de K2.6 bajó al 39% desde el 65% de K2.5. Una mejora significativa en seguridad/fiabilidad.

SWE-bench Proreportado por el proveedor; supera a GPT-5.4, Opus 4.6
58,6
SWE-bench Verifiedreportado por el proveedor
80,2
Terminal-Bench 2.0framework Terminus-2
66,7
LiveCodeBench (v6)reportado por el proveedor
89,6
HLE (con herramientas)supera a GPT-5.4 y Opus 4.6
54,0
BrowseComp (Agent Swarm)sube desde 78,4 de K2.5
86,3
Índice de Inteligencia Artificial Analysis#4 general, líder en pesos abiertos
54

Precios de Kimi K2.6

Precio de lista del proveedor, por 1M de tokens.

Input$0.60
Output$3.00
Lectura de caché$0.10
Escritura de caché$0.60

Cómo se comporta Kimi K2.6 en la práctica

Comportamiento observado en ejecuciones de agentes en producción.

Recuperación de contexto largo

La recuperación de contexto largo más fuerte en nuestra evaluación interna en todo el catálogo Built-in. Mantiene la coherencia en transcripciones largas de agente donde Anthropic Sonnet empieza a desviarse.

Benchmarks agénticos

SWE-bench Pro 58,6 reportado por el proveedor es el más alto del catálogo al momento de escribir. Supera a GPT-5.4 y Opus 4.6.

Codificación de largo horizonte

Sesiones autónomas documentadas de más de 12 horas completando más de 4.000 llamadas a herramientas. El modelo realmente mantiene el rendimiento en ejecuciones muy largas.

Uso de herramientas

Fiable en los flujos de herramientas comunes de VM0. La API compatible con Anthropic significa que los esquemas de herramientas diseñados para Claude funcionan directamente.

Mejores tareas para Kimi K2.6

La investigación que tiene que leer cada hilo antiguo

Excava en seis meses de conversaciones de Slack para encontrar por qué un cliente se dio de baja, peina el backlog de tickets de soporte en busca de un patrón de bug recurrente, o une ideas a través de cientos de RFCs. La recuperación de contexto largo de K2.6 se mantiene en transcripciones donde Anthropic Sonnet empieza a olvidar turnos anteriores, que es exactamente lo que necesitan los flujos de trabajo de "leer todo el montón".

La refactorización autónoma que se ejecuta durante la noche

Moonshot ha documentado una refactorización autónoma de 13 horas de un motor de matching de ocho años, con K2.6 manteniendo más de 4.000 llamadas a herramientas sin desviarse de la tarea. Ese es el tipo de ejecución donde la mayoría de los modelos pierden el objetivo alrededor de la segunda hora; la estabilidad de largo horizonte de K2.6 es lo que hace que "empezar el viernes por la noche, revisar el lunes por la mañana" realmente funcione.

El agente multimodal que maneja capturas de pantalla y clips

K2.6 acepta tanto entrada de imagen como de video a través de MoonViT, lo cual es inusual fuera de la familia Claude. Útil para agentes de QA basados en capturas de pantalla, pipelines de visión de documentos y cualquier despliegue donde de otro modo tendrías que incorporar un modelo de visión separado solo para leer imágenes.

Cuándo evitar Kimi K2.6

Evita K2.6 en los casos límite más difíciles de enrutamiento de herramientas donde Sonnet 4.6 aún lidera en fiabilidad de producción, y en respuestas de chat críticas en latencia donde Haiku 4.5 es significativamente más rápido.

Kimi K2.6 vs otros modelos

Kimi K2.6 vs GLM-5.1

Ambos son opciones de contexto largo. K2.6 gana en recuperación bruta de contexto largo en nuestra evaluación interna; GLM-5.1 gana en tamaño de contexto (1M vs 256K). Predetermina K2.6 para transcripciones largas; recurre a GLM-5.1 solo cuando necesitas más de 256K tokens en un solo prompt.

Kimi K2.6 vs Claude Sonnet 4.6

Sonnet (×1) lidera en fiabilidad de enrutamiento multi-herramienta en inglés. K2.6 (×0,3) gana en costo y en benchmarks agénticos (SWE-bench Pro). Combínalos: Sonnet para enrutamiento complejo de herramientas, K2.6 para trabajo de agente sensible al costo.

Kimi K2.6 vs Kimi K2.5

K2.6 es la generación más reciente con mejor uso de herramientas, menor tasa de alucinación (39% vs 65%) y mejor razonamiento. K2.5 (×0,2) es ligeramente más barato. Prefiere K2.6 para trabajo nuevo.

Conclusión: ¿deberías usar Kimi K2.6?

El predeterminado de peso abierto para trabajo de agente serio — contexto largo, costo-efectivo. Las brechas restantes frente a Sonnet 4.6 son fiabilidad de enrutamiento de herramientas y soporte empresarial.

Preguntas frecuentes

¿Cuándo se lanzó Kimi K2.6?

Moonshot AI lanzó Kimi K2.6 el 20 de abril de 2026. Los pesos abiertos están publicados en Hugging Face bajo una Licencia MIT Modificada.

¿Cuál es la ventana de contexto?

256K tokens. K2.6 se diferencia por la calidad de recuperación a ese tamaño, no por el tamaño bruto de la ventana. La recuperación empieza a degradarse pasados ~180K (similar a otros modelos de 256K).

¿Necesito reescribir mi agente para usar Kimi?

No. Kimi K2.6 expone una API compatible con Anthropic, por lo que los agentes VM0 ajustados para Claude funcionan sin cambios de código.

¿Cómo se compara Kimi K2.6 con Claude Opus 4.6?

En benchmarks agénticos (reportados por el proveedor), K2.6 lidera. SWE-bench Pro 58,6 vs 53,4 de Opus 4.6, HLE con herramientas 54,0 vs 53,0. Opus 4.6 mantiene una ventaja en perfil de seguridad y fiabilidad de enrutamiento de herramientas en inglés en producción.

¿K2.6 soporta entrada de imágenes?

Sí. K2.6 acepta entrada de imagen y video. Salida solo texto. Los agentes multimodales funcionan de forma nativa.

Alternativas

Usar Kimi K2.6 en VM0

Dos formas de acceder a Kimi K2.6 en VM0

VM0 admite Kimi K2.6 como modelo Built-in facturado en créditos VM0, y mediante bring-your-own con una Moonshot API key. La ruta Built-in usa enrutamiento gestionado de VM0 y el multiplicador de créditos explicado abajo; la ruta bring-your-own te factura directamente con el proveedor upstream y omite la conversión de créditos VM0.

Recomendación de VM0

VM0 posiciona Kimi K2.6 como una opción de ahorro en lugar de un modelo principal de agente. Úsalo para optimizar el coste unitario en trabajo no principal, como clasificación masiva, prefiltros, respuestas cortas con requisitos de latencia o agentes heredados fijos, manteniendo Claude Opus 4.7, Claude Opus 4.6 o Claude Sonnet 4.6 en los pasos que deciden la ejecución.

Créditos y el multiplicador ×0.3

Cada modelo Built-in en VM0 se valora como un múltiplo de Claude Sonnet 4.6, que establece la base de ×1 crédito. Kimi K2.6 factura a ×0.3 créditos. El multiplicador es lo que aparece en tu factura de VM0; el precio de lista del proveedor en la tabla de arriba es lo que cobra el proveedor upstream antes de que VM0 lo convierta en créditos.

Kimi K2.6 factura a ×0.3, lo que significa que un paso aquí cuesta solo 0.3× los créditos de un paso equivalente en Sonnet 4.6 (la base ×1). Esto lo sitúa muy por debajo de la base de créditos y lo convierte en la elección natural para trabajo en segundo plano de alto volumen donde el coste por paso importa más que la máxima calidad de razonamiento.

Disponible en VM0 desde April 2026.