Claude Opus 4.8

El nuevo modelo insignia de Anthropic. Lanzado el 28 de mayo de 2026 con codificación agéntica más fuerte, flujos de trabajo dinámicos que despliegan cientos de subagentes en paralelo y un modo rápido 3× más barato al mismo precio regular que Opus 4.7.

1M tokens · Text / Vision / Code · Prompt cache

Usar Claude Opus 4.8 en VM0

Claude Opus 4.8 es el lanzamiento insignia de Anthropic del 28 de mayo de 2026, una actualización directa de Opus 4.7 al mismo precio de lista del proveedor de $5/$25. Registra las puntuaciones más altas que Anthropic haya lanzado en SWE-bench Pro (69,2%), OSWorld-Verified (83,4%), MCP-Atlas (82,2%) y Humanity's Last Exam (57,9% con herramientas), y es el primer modelo en superar el 10% en el estándar all-pass de agente legal.

Los dos cambios estructurales que vale la pena conocer son los flujos de trabajo dinámicos (planificar un trabajo y desplegarlo en cientos de subagentes paralelos en una sola sesión) y un recorte de precio del modo rápido a 2,5× de velocidad por $10/$50 por 1M tokens — tres veces más barato que el modo rápido de modelos Claude anteriores. Los niveles de esfuerzo se expanden a high (predeterminado), extra y max. Anthropic mismo presenta el lanzamiento como una "mejora modesta pero tangible" en lugar de un salto.

¿Qué es Claude Opus 4.8?

28 de mayo de 2026 · Nivel superior de la familia Claude 4. El predeterminado recomendado por Anthropic para nuevos agentes; se lanza con el mismo multiplicador ×2 que Opus 4.7.

Claude Opus 4.8 se lanzó el 28 de mayo de 2026 como el nuevo modelo insignia de Anthropic, 41 días después de Opus 4.7. Apunta a las mismas cargas de trabajo de codificación, habilidades agénticas, razonamiento y trabajo de conocimiento que 4.7, al mismo precio de lista regular ($5 entrada / $25 salida por 1M tokens) y el mismo multiplicador de VM0 (×2). Anthropic posiciona el lanzamiento como una "mejora modesta pero tangible sobre su predecesor" en lugar de un cambio escalonado.

Dos cambios estructurales importan para los usuarios de VM0. Primero, los flujos de trabajo dinámicos: el modelo puede planificar una tarea y desplegarla en cientos de subagentes paralelos en una sola sesión, lo que Anthropic describe como un paso hacia el manejo de migraciones a escala de código base de cientos de miles de líneas de código en una sola ejecución. Segundo, el modo rápido a 2,5× de velocidad ahora cuesta $10 / $50 por 1M tokens — tres veces más barato que el modo rápido de modelos Claude anteriores. Los niveles de esfuerzo se expanden a tres escalones: high (predeterminado), extra (xhigh en Claude Code) y max.

Las lecturas independientes (LLM Stats, VentureBeat, Vellum) corroboran el orden relativo frente a 4.7 y los competidores: 4.8 gana en cada celda del conjunto de comparación publicado por Anthropic excepto Terminal-Bench 2.1, donde GPT-5.5 sigue liderando (78,2% vs 74,6% de 4.8). El salto de 4.7 a 4.8 en SWE-bench Pro es de +4,9 puntos; en USAMO 2026 es de +27,4; en el nuevo F1 de contexto largo GraphWalks de 1M tokens es de +27,8. Trata las puntuaciones absolutas como direccionales — SWE-bench Verified se está acercando a la saturación en todos los modelos frontera.

Qué destaca de Claude Opus 4.8

Características principales de arquitectura y capacidades.

Opus 4.8 mantiene la ventana de contexto de 1M tokens y la salida máxima de 128K de Opus 4.7, facturada a precio de entrada estándar en toda la ventana. El control de esfuerzo se expande a tres niveles: high (el nuevo predeterminado), extra (xhigh dentro de Claude Code) y max. La API de Messages ahora acepta entradas de sistema a mitad de conversación sin romper el caché de prompts. Los flujos de trabajo dinámicos permiten a Claude planificar y despachar cientos de subagentes paralelos en una sola sesión. El modo rápido funciona a ~2,5× la velocidad estándar por $10 / $50 por 1M tokens. Las entradas multimodales a través de texto, visión y código no cambian.

Especificaciones rápidas

FamiliaGeneración Claude 4

ModalidadesTexto, visión, código

IdiomasInglés primero, multilingüe

Caché de promptsSoportado (Anthropic)

Ventana de contexto1M tokens

Salida máximaHasta 128K tokens

Niveles de esfuerzoHigh (predeterminado) / Extra / Max

Precio de lista$5 entrada / $25 salida por 1M (modo rápido $10/$50, 2,5× velocidad)

Benchmarks de Claude Opus 4.8

Puntuaciones reportadas por el proveedor de la system card de Opus 4.8 de Anthropic, con comparaciones contra Opus 4.7, GPT-5.5 y Gemini 3.1 Pro a esfuerzo máximo y promedios de 5 intentos. 4.8 lidera en seis de las siete celdas que Anthropic publica; GPT-5.5 conserva el liderazgo en Terminal-Bench 2.1. SWE-bench Verified se está acercando a la saturación en todos los modelos frontera — el conjunto más difícil SWE-bench Pro es la señal más duradera.

SWE-bench Verifiedreportado por el proveedor; sube desde 87,6% de Opus 4.7

88.6%

SWE-bench Prolidera el campo (4.7: 64,3%, GPT-5.5: 58,6%, Gemini 3.1 Pro: 54,2%)

69.2%

Terminal-Bench 2.1sube desde 66,1% de 4.7 en 2.0; GPT-5.5 lidera aquí con 78,2%

74.6%

OSWorld-Verified (computer use)lidera el campo (4.7: 82,8%, GPT-5.5: 78,7%)

83.4%

Online-Mind2Web (browser agent)reportado por el proveedor

84%

MCP-Atlassube desde 77,3% de Opus 4.7

82.2%

BrowseComp (single-agent)sube desde 79,3% de Opus 4.7

84.3%

GraphWalks long-context F1 (1M tokens)sube desde 40,3% de Opus 4.7

68.1%

Humanity's Last Exam (with tools)49,8% sin herramientas; lidera el campo

57.9%

GPQA Diamondsin cambios vs 4.7 — saturado en modelos frontera

~93%

USAMO 2026 (math)sube desde 69,3% de Opus 4.7

96.7%

GDPval-AA (knowledge work)lidera (4.7: 1753, GPT-5.5: 1769)

1890 Elo

Finance Agent v2lidera el campo

53.9%

Legal-agent all-passprimer modelo en superar este estándar

>10%

Precios de Claude Opus 4.8

Precio de lista del proveedor, por 1M de tokens.

Input$5.00

Output$25.00

Lectura de caché$0.50

Escritura de caché$6.25

Cómo se comporta Claude Opus 4.8 en la práctica

Comportamiento observado en ejecuciones de agentes en producción.

Flujos de trabajo dinámicos

La nueva capacidad estrella. Opus 4.8 puede planificar una tarea y luego ejecutar cientos de subagentes paralelos dentro de la misma sesión — Anthropic posiciona esto como el camino hacia migraciones a escala de código base de cientos de miles de líneas en una sola ejecución. En VM0, esto significa que una sola ejecución de agente puede orquestar trabajo de fan-out que antes requería programación externa.

Ediciones de código al primer intento

Anthropic reporta que Opus 4.8 tiene alrededor de cuatro veces menos probabilidades que 4.7 de pasar por alto fallos al revisar código, y el salto de +4,9 puntos en SWE-bench Pro (69,2% vs 64,3%) respalda eso en el conjunto de codificación más difícil y menos saturado. Elige 4.8 para parches que deben aplicarse limpiamente en muchos archivos.

Recuperación de contexto largo

GraphWalks F1 a 1M tokens salta de 40,3% a 68,1% — la mayor ganancia en un solo benchmark del lanzamiento. La ventana de 1M tokens ahora es realmente utilizable en el extremo superior de su rango, no solo nominalmente.

Honestidad y exceso de confianza

Anthropic reporta una reducción de más de diez veces en el exceso de confianza frente a 4.7, 0% en reportar acríticamente resultados defectuosos (un primero para la familia Claude) y una tasa del 3,7% de no plantear eventos importantes al usuario. La incidencia de desalineación es ~1,9, prácticamente empatada con el Mythos Preview mejor alineado de Anthropic.

Velocidad y modo rápido

La velocidad estándar es comparable a Opus 4.7. El cambio de precio es el titular: el modo rápido a 2,5× de velocidad cuesta $10 / $50 por 1M tokens, tres veces más barato que el modo rápido de modelos Claude anteriores. Vale la pena usarlo para pasos de orquestación donde importa la latencia de reloj de pared.

Advertencia sobre inyección de prompts

La system card de Anthropic nota que 4.8 es algo menos robusto a la inyección de prompts agéntica que 4.7 — el red-teaming de Gray Swan muestra una tasa de éxito de ataque de ~9,6% frente al 6,0% en 4.7. Los equipos que ejecutan 4.8 en pipelines que manejan entradas no confiables deberían revisar su enfoque de sandboxing.

Mejores tareas para Claude Opus 4.8

La migración a escala de código base que solía necesitar un sprint

Pásale a Opus 4.8 una migración que toca unos cientos de archivos — cambio de ORM, salto de versión de framework, corrección de seguridad en un monorepo — y deja que los flujos de trabajo dinámicos desplieguen el trabajo a subagentes paralelos dentro de una sola sesión. El salto de +4,9 puntos en SWE-bench Pro y la reducción cuádruple de fallos pasados por alto en la revisión de código son lo que rinde frutos en este tipo de ejecución.

La ejecución de investigación de 1M tokens que realmente se sostiene

Suelta un borrador de contrato de 200 páginas, tres propuestas de competidores y las opiniones legales del último trimestre en la ventana, luego pide a Opus 4.8 que marque cada cláusula más restrictiva que el mercado. GraphWalks a 1M saltando de 40,3% a 68,1% es lo que hace que este tipo de síntesis entre documentos sea recientemente confiable.

El orquestador de agentes que no miente sobre su trabajo

Usa 4.8 como el planificador que divide una solicitud en diez pasos, despacha cada uno a subagentes más baratos y reporta el resultado. La tasa del 0% en reportar acríticamente resultados defectuosos, combinada con la caída de diez veces en exceso de confianza, es la razón por la que los equipos de producción recurren a 4.8 cuando el autoinforme del propio agente debe ser confiable.

El flujo sensible a la latencia que finalmente cuadra en modo rápido

El modo rápido a 2,5× de velocidad solía costar tres veces lo que cuesta ahora ($10/$50 por 1M frente al nivel anterior). Para copilotos interactivos, resumidores on-call o cualquier paso donde la latencia de reloj de pared domine la experiencia, el modo rápido de 4.8 ahora es la elección predeterminada en la familia Claude.

Cuándo evitar Claude Opus 4.8

Evita Opus 4.8 en trabajo rutinario de alto volumen donde Sonnet 4.6 alcanza la misma calidad a una fracción del costo, en respuestas de chat sensibles a la latencia donde Kimi K2.7 Code es mucho más rápido, en codificación agéntica de terminal donde GPT-5.5 sigue liderando Terminal-Bench 2.1 (78,2% vs 74,6% de 4.8), y en pipelines que ingieren entradas no confiables sin sandboxing — la robustez de 4.8 a la inyección de prompts es ligeramente más débil que la de 4.7.

Claude Opus 4.8 vs otros modelos

Claude Opus 4.8 vs Claude Opus 4.7

Mismo multiplicador ×2, misma ventana de contexto, mismo precio regular. Opus 4.8 lidera en cada celda que Anthropic publica (SWE-bench Verified +1, SWE-bench Pro +4,9, OSWorld-Verified +0,6, MCP-Atlas +4,9, BrowseComp +5,0, GraphWalks 1M +27,8, USAMO +27,4). El compromiso es un perfil de inyección de prompts ligeramente más débil (tasa de éxito de ataque ~9,6% vs 6,0%). Migra nuevos agentes a 4.8; fija 4.7 solo si has validado contra él y no quieres reejecutar regresiones.

Claude Opus 4.8 vs Claude Sonnet 4.6

Sonnet 4.6 (×1) sigue siendo el caballo de batalla predeterminado para la mayoría de bucles de agente. Promueve a Opus 4.8 cuando Sonnet falla visiblemente en razonamiento difícil, recuperación de contexto largo o ediciones de código al primer intento — usualmente como el planificador que delega a subagentes de nivel Sonnet o Kimi K2.7 Code. Con flujos de trabajo dinámicos, Opus 4.8 como orquestador + Sonnet 4.6 como trabajadores es el nuevo patrón recomendado.

Claude Opus 4.8 vs GPT-5.5

Opus 4.8 lidera en seis de las siete celdas del conjunto de comparación de Anthropic, con las mayores brechas en SWE-bench Pro (69,2% vs 58,6%) y OSWorld-Verified (83,4% vs 78,7%). GPT-5.5 conserva el liderazgo en Terminal-Bench 2.1 (78,2% vs 74,6%). Elige 4.8 para codificación entre archivos y agentes de uso de computadora; elige GPT-5.5 específicamente cuando domine el trabajo en terminal.

Claude Opus 4.8 vs Gemini 3.1 Pro

Opus 4.8 lidera por amplios márgenes en SWE-bench Pro (+15,0) y OSWorld-Verified (+7,2). Los dos modelos se mantienen dentro del ruido en benchmarks científicos saturados como GPQA Diamond. Predetermina 4.8 para trabajo agéntico; considera Gemini específicamente cuando necesites la historia de integración de herramientas de Google.

Claude Opus 4.8 vs DeepSeek V4 Pro

DeepSeek V4 Pro (×0,1) sigue siendo la elección optimizada en costo cuando el precio bruto por token domina la decisión. Opus 4.8 conserva el liderazgo en fiabilidad de enrutamiento de herramientas, recuperación de contexto largo, métricas de alineación y uso de computadora, razón por la cual la mayoría de agentes empresariales en inglés siguen defaulteando a 4.8 a pesar de la brecha de precio.

Conclusión: ¿deberías usar Claude Opus 4.8?

El nuevo predeterminado para nuevos agentes en la familia Claude. Migra desde 4.7 cuando puedas revalidar; defaultea directamente a él para trabajo nuevo. Mantén Sonnet 4.6 como el caballo de batalla más barato debajo.

Preguntas frecuentes

¿Cuándo se lanzó Claude Opus 4.8?

Anthropic lanzó Opus 4.8 el 28 de mayo de 2026, 41 días después de Opus 4.7. Está disponible hoy en los productos Claude, la API de Claude (model id claude-opus-4-8), Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry y VM0.

¿Cómo se compara el precio de Opus 4.8 con 4.7?

El precio regular es idéntico: $5 por 1M tokens de entrada, $25 por 1M tokens de salida, $0,50 por 1M de entrada cacheada. El cambio es el modo rápido, ahora $10 / $50 por 1M tokens a 2,5× de velocidad — tres veces más barato que el modo rápido de modelos Claude anteriores.

¿Qué son los flujos de trabajo dinámicos?

Una nueva capacidad que permite a Opus 4.8 planificar una tarea y luego ejecutar cientos de subagentes paralelos dentro de una sola sesión. Anthropic posiciona esto como el camino hacia migraciones a escala de código base de cientos de miles de líneas de código en una sola ejecución de agente.

¿Qué niveles de esfuerzo soporta Opus 4.8?

Tres niveles: high (el nuevo predeterminado), extra (xhigh en Claude Code) y max. Los ajustes más altos gastan más tokens en razonamiento antes de producir una respuesta; los ajustes más bajos favorecen la velocidad y la eficiencia del límite de tasa.

¿Debería migrar de Opus 4.7 a 4.8?

Sí para trabajo nuevo — mismo multiplicador, mismo precio regular, comportamiento más fuerte en cada celda de comparación publicada excepto Terminal-Bench 2.1. Migra los agentes de producción fijados solo después de ejecutarlos en tu suite de regresión, y revisa tu sandboxing si el agente ingiere entradas no confiables (4.8 es ligeramente menos robusto a la inyección de prompts que 4.7).

¿Opus 4.8 soporta caché de prompts?

Sí. La entrada cacheada se factura a $0,50 por 1M tokens, un descuento de 10× sobre la porción cacheada. La API de Messages ahora también acepta entradas de sistema a mitad de conversación sin romper el caché.

Alternativas

Claude Opus 4.7

Modelo insignia anterior; ligeramente más robusto a la inyección de prompts

Claude Sonnet 4.6

Predeterminado más barato para la mayoría de bucles de agente

GPT-5.5

Lidera Terminal-Bench 2.1 para codificación agéntica de terminal

Usar Claude Opus 4.8 en VM0

Dos formas de acceder a Claude Opus 4.8 en VM0

VM0 admite Claude Opus 4.8 como modelo Built-in facturado en créditos VM0, y mediante bring-your-own con una Anthropic API key. La ruta Built-in usa enrutamiento gestionado de VM0 y el multiplicador de créditos explicado abajo; la ruta bring-your-own te factura directamente con el proveedor upstream y omite la conversión de créditos VM0.

Recomendación de VM0

VM0 posiciona Claude Opus 4.8 como modelo principal de agente, recomendado junto a Claude Opus 4.7, Claude Opus 4.6 y Claude Sonnet 4.6 para los pasos que determinan el resultado real de una ejecución. Estos son los modelos que elegimos para el rol de orquestador, para agentes que trabajan con código y para cualquier paso donde una respuesta incorrecta sea costosa.

Créditos y el multiplicador ×2

Cada modelo Built-in en VM0 se valora como un múltiplo de Claude Sonnet 4.6, que establece la base de ×1 crédito. Claude Opus 4.8 factura a ×2 créditos. El multiplicador es lo que aparece en tu factura de VM0; el precio de lista del proveedor en la tabla de arriba es lo que cobra el proveedor upstream antes de que VM0 lo convierta en créditos.

Claude Opus 4.8 factura a ×2, lo que significa que un paso aquí cuesta 2× los créditos de un paso equivalente en Sonnet 4.6 (la base ×1). Es un nivel premium en VM0, por lo que el patrón rentable es usar por defecto un modelo más barato y enrutar solo los pasos que realmente necesitan la profundidad de razonamiento adicional a Claude Opus 4.8.

Disponible en VM0 desde May 28, 2026.

¿Qué es Claude Opus 4.8?

Qué destaca de Claude Opus 4.8

Especificaciones rápidas

Benchmarks de Claude Opus 4.8

Precios de Claude Opus 4.8

Cómo se comporta Claude Opus 4.8 en la práctica

Flujos de trabajo dinámicos

Ediciones de código al primer intento

Recuperación de contexto largo

Honestidad y exceso de confianza

Velocidad y modo rápido

Advertencia sobre inyección de prompts

Mejores tareas para Claude Opus 4.8

La migración a escala de código base que solía necesitar un sprint

La ejecución de investigación de 1M tokens que realmente se sostiene

El orquestador de agentes que no miente sobre su trabajo

El flujo sensible a la latencia que finalmente cuadra en modo rápido

Cuándo evitar Claude Opus 4.8

Claude Opus 4.8 vs otros modelos

Claude Opus 4.8 vs Claude Opus 4.7

Claude Opus 4.8 vs Claude Sonnet 4.6

Claude Opus 4.8 vs GPT-5.5

Claude Opus 4.8 vs Gemini 3.1 Pro

Claude Opus 4.8 vs DeepSeek V4 Pro

Conclusión: ¿deberías usar Claude Opus 4.8?

Preguntas frecuentes

¿Cuándo se lanzó Claude Opus 4.8?

¿Cómo se compara el precio de Opus 4.8 con 4.7?

¿Qué son los flujos de trabajo dinámicos?

¿Qué niveles de esfuerzo soporta Opus 4.8?

¿Debería migrar de Opus 4.7 a 4.8?

¿Opus 4.8 soporta caché de prompts?

Alternativas

Usar Claude Opus 4.8 en VM0

Dos formas de acceder a Claude Opus 4.8 en VM0

Recomendación de VM0

Créditos y el multiplicador ×2

Más modelos en VM0