모든 모델

Claude Opus 4.8

Anthropic의 최신 플래그십. 2026년 5월 28일 출시되었으며, 더욱 강력해진 에이전트 코딩, 수백 개의 병렬 서브에이전트로 작업을 분산하는 동적 워크플로우, 그리고 Opus 4.7과 동일한 정가에 3배 저렴해진 고속 모드를 제공합니다.

1M tokens · Text / Vision / Code · Prompt cache

Claude Opus 4.8은 2026년 5월 28일 출시된 Anthropic의 플래그십으로, Opus 4.7과 동일한 $5/$25 벤더 정가를 유지하면서 직접적인 업그레이드를 제공합니다. Anthropic이 지금까지 출시한 모델 중 가장 높은 SWE-bench Pro(69.2%), OSWorld-Verified(83.4%), MCP-Atlas(82.2%), Humanity's Last Exam(도구 사용 시 57.9%) 점수를 기록했으며, 법률 에이전트 all-pass 기준에서 10%를 돌파한 최초의 모델입니다.

알아두어야 할 두 가지 구조적 변화는 동적 워크플로우(작업을 계획한 뒤 단일 세션 내에서 수백 개의 병렬 서브에이전트로 분산)와 고속 모드 가격 인하(1M 토큰당 $10/$50로 2.5배 속도 제공 — 이전 Claude 모델의 고속 모드보다 3배 저렴)입니다. 강도 수준은 high(기본값), extra, max로 확장되었습니다. Anthropic 스스로 이번 출시를 도약이라기보다 "완만하지만 실질적인 개선"이라고 표현합니다.

Claude Opus 4.8란?

2026년 5월 28일 · Claude 4 제품군의 최상위 등급. 신규 에이전트에 대한 Anthropic의 권장 기본값이며, Opus 4.7과 동일한 ×2 배수로 제공됩니다.

Claude Opus 4.8은 Opus 4.7 출시 41일 후인 2026년 5월 28일 Anthropic의 새 플래그십으로 출시되었습니다. 4.7과 동일한 코딩, 에이전트 스킬, 추론, 지식 노동 워크로드를 동일한 정가($5 입력 / $25 출력, 1M 토큰당)와 동일한 VM0 배수(×2)로 겨냥합니다. Anthropic은 이번 출시를 단계적 변화라기보다 "이전 모델 대비 완만하지만 실질적인 개선"으로 자리매김합니다.

VM0 사용자에게 중요한 두 가지 구조적 변화가 있습니다. 첫째, 동적 워크플로우입니다. 이 모델은 작업을 계획한 뒤 단일 세션 내에서 수백 개의 병렬 서브에이전트로 작업을 분산할 수 있으며, Anthropic은 이를 한 번의 실행으로 수십만 줄에 걸친 코드베이스 규모의 마이그레이션을 처리하기 위한 한 걸음으로 설명합니다. 둘째, 2.5배 속도의 고속 모드가 이제 1M 토큰당 $10 / $50로, 이전 Claude 모델의 고속 모드보다 3배 저렴합니다. 강도 수준은 high(기본값), extra(Claude Code에서는 xhigh), max의 세 단계로 확장됩니다.

독립적인 분석(LLM Stats, VentureBeat, Vellum)은 4.7 및 경쟁 모델 대비 상대적 순위를 뒷받침합니다. 4.8은 GPT-5.5가 여전히 선두인 Terminal-Bench 2.1(78.2% 대 4.8의 74.6%)을 제외하면 Anthropic이 공개한 비교 항목의 모든 셀에서 승리합니다. SWE-bench Pro에서 4.7에서 4.8로의 향상은 +4.9점, USAMO 2026에서는 +27.4, 새로운 1M 토큰 GraphWalks 장문 컨텍스트 F1에서는 +27.8입니다. 절대 점수는 방향성 지표로만 받아들이세요. SWE-bench Verified는 모든 프런티어 모델에서 포화에 가까워지고 있습니다.

Claude Opus 4.8의 주목할 점

대표적인 아키텍처 및 기능 특징.

Opus 4.8은 Opus 4.7의 1M 토큰 컨텍스트 윈도우와 128K 최대 출력을 유지하며, 전체 윈도우에 걸쳐 표준 입력 가격으로 과금됩니다. 강도 제어는 세 단계로 확장됩니다: high(새 기본값), extra(Claude Code 내에서는 xhigh), max. Messages API는 이제 프롬프트 캐싱을 깨뜨리지 않고 대화 도중 시스템 엔트리를 받아들입니다. 동적 워크플로우를 통해 Claude는 단일 세션 내에서 수백 개의 병렬 서브에이전트를 계획하고 디스패치할 수 있습니다. 고속 모드는 1M 토큰당 $10 / $50로 표준 속도의 약 2.5배로 실행됩니다. 텍스트, 비전, 코드 전반의 멀티모달 입력은 변경되지 않았습니다.

한눈에 보는 사양

제품군Claude 4 세대
모달리티텍스트, 비전, 코드
언어영어 우선, 다국어
프롬프트 캐싱지원(Anthropic)
컨텍스트 윈도우1M 토큰
최대 출력최대 128K 토큰
강도 수준High(기본값) / Extra / Max
벤더 정가$5 입력 / $25 출력, 1M당(고속 모드 $10/$50, 2.5배 속도)

Claude Opus 4.8 벤치마크

Anthropic의 Opus 4.8 시스템 카드에서 보고한 벤더 점수로, Opus 4.7, GPT-5.5, Gemini 3.1 Pro와 최대 강도 및 5회 시행 평균으로 비교한 수치입니다. 4.8은 Anthropic이 공개한 7개 셀 중 6개에서 선두입니다. GPT-5.5는 Terminal-Bench 2.1에서 선두를 유지합니다. SWE-bench Verified는 모든 프런티어 모델에서 포화에 가까워지고 있어, 더 어려운 SWE-bench Pro 세트가 더 지속적인 신호입니다.

SWE-bench Verified벤더 보고; Opus 4.7의 87.6%에서 상승
88.6%
SWE-bench Pro분야 선두(4.7: 64.3%, GPT-5.5: 58.6%, Gemini 3.1 Pro: 54.2%)
69.2%
Terminal-Bench 2.14.7의 2.0 기준 66.1%에서 상승; 여기서는 GPT-5.5가 78.2%로 선두
74.6%
OSWorld-Verified(컴퓨터 사용)분야 선두(4.7: 82.8%, GPT-5.5: 78.7%)
83.4%
Online-Mind2Web(브라우저 에이전트)벤더 보고
84%
MCP-AtlasOpus 4.7의 77.3%에서 상승
82.2%
BrowseComp(단일 에이전트)Opus 4.7의 79.3%에서 상승
84.3%
GraphWalks 장문 컨텍스트 F1(1M 토큰)Opus 4.7의 40.3%에서 상승
68.1%
Humanity's Last Exam(도구 사용)도구 미사용 시 49.8%; 분야 선두
57.9%
GPQA Diamond4.7 대비 보합 — 프런티어 모델 전반에서 포화
~93%
USAMO 2026(수학)Opus 4.7의 69.3%에서 상승
96.7%
GDPval-AA(지식 노동)선두(4.7: 1753, GPT-5.5: 1769)
1890 Elo
Finance Agent v2분야 선두
53.9%
법률 에이전트 all-pass이 기준을 돌파한 최초의 모델
>10%

Claude Opus 4.8 가격

공급사 정가, 100만 토큰당.

입력$5.00
출력$25.00
캐시 읽기$0.50
캐시 쓰기$6.25

Claude Opus 4.8는 실제로 어떻게 작동하는가

프로덕션 에이전트 실행에서 관찰된 동작.

동적 워크플로우

핵심적인 새 기능입니다. Opus 4.8은 작업을 계획한 뒤 동일한 세션 내에서 수백 개의 병렬 서브에이전트를 실행할 수 있습니다. Anthropic은 이를 한 번의 실행으로 수십만 줄에 걸친 코드베이스 규모의 마이그레이션으로 가는 경로로 자리매김합니다. VM0에서는 이전에 외부 스케줄링이 필요했던 분산 작업을 단일 에이전트 실행으로 오케스트레이션할 수 있음을 의미합니다.

첫 시도 코드 수정

Anthropic은 Opus 4.8이 코드를 검토할 때 결함을 놓칠 가능성이 4.7보다 약 4배 낮다고 보고하며, +4.9점의 SWE-bench Pro 향상(69.2% 대 64.3%)이 더 어렵고 덜 포화된 코딩 세트에서 이를 뒷받침합니다. 여러 파일에 걸쳐 깔끔하게 적용되어야 하는 패치라면 4.8을 선택하세요.

장문 컨텍스트 회상

1M 토큰에서의 GraphWalks F1이 40.3%에서 68.1%로 도약했으며 — 이번 출시에서 단일 벤치마크 기준 최대 향상입니다. 1M 토큰 윈도우가 이제 명목상이 아니라 범위 상단에서도 실제로 사용 가능합니다.

정직성과 과신

Anthropic은 4.7 대비 과신이 10배 이상 감소했으며, 결함 있는 결과를 무비판적으로 보고하는 비율 0%(Claude 제품군 최초), 사용자에게 중요한 사건을 제기하지 못하는 비율 3.7%를 보고합니다. 정렬 실패 발생률은 약 1.9로, Anthropic의 가장 잘 정렬된 Mythos Preview와 사실상 동등합니다.

속도와 고속 모드

표준 속도는 Opus 4.7과 비슷합니다. 핵심은 가격 변화입니다. 2.5배 속도의 고속 모드는 1M 토큰당 $10 / $50로, 이전 Claude 모델의 고속 모드보다 3배 저렴합니다. 실측 지연이 중요한 오케스트레이션 단계에서 사용할 가치가 있습니다.

프롬프트 인젝션 주의사항

Anthropic의 시스템 카드에 따르면 4.8은 에이전트 프롬프트 인젝션에 대해 4.7보다 다소 견고하지 않습니다 — Gray Swan 레드티밍에서 공격 성공률이 4.7의 6.0%에 비해 약 9.6%로 나타났습니다. 신뢰할 수 없는 입력을 처리하는 파이프라인에서 4.8을 실행하는 팀은 샌드박싱 방식을 검토해야 합니다.

Claude Opus 4.8에 가장 적합한 에이전트 작업

과거에는 스프린트가 필요했던 코드베이스 규모의 마이그레이션

수백 개 파일에 걸친 마이그레이션 — ORM 교체, 프레임워크 버전 업그레이드, 모노레포 전반의 보안 수정 — 을 Opus 4.8에 맡기고, 동적 워크플로우가 한 세션 내에서 병렬 서브에이전트로 작업을 분산하게 하세요. +4.9점의 SWE-bench Pro 향상과 코드 검토 시 놓친 결함의 4배 감소가 이런 종류의 실행에서 빛을 발합니다.

실제로 일관성을 유지하는 1M 토큰 리서치 실행

200페이지 분량의 계약서 초안, 경쟁사 제안서 세 건, 지난 분기의 법률 의견서를 윈도우에 넣고, Opus 4.8에게 시장 기준보다 더 빡빡한 모든 조항을 표시하라고 요청하세요. 1M에서 GraphWalks가 40.3%에서 68.1%로 도약한 것이 이런 종류의 교차 문서 종합을 새롭게 신뢰할 수 있게 만듭니다.

자기 작업에 대해 거짓말하지 않는 에이전트 오케스트레이터

요청을 열 단계로 나누고, 각각을 더 저렴한 서브에이전트에 디스패치한 뒤 결과를 보고하는 플래너로 4.8을 사용하세요. 결함 있는 결과를 무비판적으로 보고하는 비율 0%와 10배 감소한 과신이 결합되어, 에이전트 자체의 자기 보고가 신뢰할 수 있어야 할 때 프로덕션 팀이 4.8을 찾는 이유입니다.

고속 모드로 마침내 채산성이 맞는 지연 민감 흐름

2.5배 속도의 고속 모드는 과거에는 지금의 세 배 비용($10/$50, 1M당 — 이전 등급 대비)이 들었습니다. 인터랙티브 코파일럿, 온콜 요약기, 또는 실측 지연이 경험을 좌우하는 모든 단계에서 고속 모드 4.8이 이제 Claude 제품군의 기본 선택지입니다.

Claude Opus 4.8를 건너뛰어야 할 때

Sonnet 4.6이 비용의 일부로 동일한 품질 기준을 충족하는 대량 일상 작업, Kimi K2.7 Code가 훨씬 빠른 지연 민감 채팅 응답, GPT-5.5가 여전히 Terminal-Bench 2.1에서 선두(78.2% 대 4.8의 74.6%)인 에이전트 터미널 코딩, 그리고 샌드박싱 없이 신뢰할 수 없는 입력을 받아들이는 파이프라인에서는 Opus 4.8을 건너뛰세요 — 4.8의 프롬프트 인젝션 견고성은 4.7보다 약간 약합니다.

Claude Opus 4.8 vs 다른 모델

Claude Opus 4.8 vs Claude Opus 4.7

동일한 ×2 배수, 동일한 컨텍스트 윈도우, 동일한 정가. Opus 4.8은 Anthropic이 공개한 모든 셀에서 선두입니다(SWE-bench Verified +1, SWE-bench Pro +4.9, OSWorld-Verified +0.6, MCP-Atlas +4.9, BrowseComp +5.0, GraphWalks 1M +27.8, USAMO +27.4). 절충점은 약간 약한 프롬프트 인젝션 프로필(공격 성공률 약 9.6% 대 6.0%)입니다. 신규 에이전트는 4.8로 마이그레이션하세요. 4.7에 대해 검증을 마쳤고 회귀 테스트를 다시 실행하고 싶지 않은 경우에만 4.7에 고정하세요.

Claude Opus 4.8 vs Claude Sonnet 4.6

Sonnet 4.6(×1)은 여전히 대부분의 에이전트 루프에서 일꾼 기본값입니다. Sonnet이 어려운 추론, 장문 컨텍스트 회상, 또는 첫 시도 코드 수정에서 눈에 띄게 실패할 때 Opus 4.8로 승격하세요 — 보통 Sonnet이나 비용 절감형 서브에이전트에 위임하는 플래너로서입니다. 동적 워크플로우와 함께라면 Opus 4.8을 오케스트레이터로, Sonnet 4.6을 작업자로 두는 것이 새로 권장되는 패턴입니다.

Claude Opus 4.8 vs GPT-5.5

Opus 4.8은 Anthropic의 비교 세트 7개 셀 중 6개에서 선두이며, 가장 큰 격차는 SWE-bench Pro(69.2% 대 58.6%)와 OSWorld-Verified(83.4% 대 78.7%)에서 나타납니다. GPT-5.5는 Terminal-Bench 2.1(78.2% 대 74.6%)에서 선두를 유지합니다. 교차 파일 코딩과 컴퓨터 사용 에이전트에는 4.8을, 터미널 기반 작업이 주를 이룰 때는 특별히 GPT-5.5를 선택하세요.

Claude Opus 4.8 vs Gemini 3.1 Pro

Opus 4.8은 SWE-bench Pro(+15.0)와 OSWorld-Verified(+7.2)에서 큰 차이로 선두입니다. 두 모델은 GPQA Diamond 같은 포화된 과학 벤치마크에서는 오차 범위 내에 있습니다. 에이전트 작업에는 4.8을 기본으로 하고, Google의 도구 통합이 필요할 때 특별히 Gemini를 고려하세요.

Claude Opus 4.8 vs DeepSeek V4 Pro

DeepSeek V4 Pro(×0.1)는 순수 토큰 가격이 의사결정을 좌우할 때 비용 최적화 선택지로 남습니다. Opus 4.8은 도구 라우팅 신뢰성, 장문 컨텍스트 회상, 정렬 지표, 컴퓨터 사용에서 선두를 유지하며, 이것이 대부분의 엔터프라이즈 영어 에이전트가 가격 격차에도 불구하고 여전히 4.8을 기본으로 하는 이유입니다.

결론: Claude Opus 4.8를 사용해야 할까?

Claude 제품군의 신규 에이전트를 위한 새로운 기본값. 재검증이 가능할 때 4.7에서 마이그레이션하고, 새 작업에는 곧바로 기본으로 사용하세요. 그 아래에서 더 저렴한 일꾼으로 Sonnet 4.6을 유지하세요.

자주 묻는 질문

Claude Opus 4.8은 언제 출시되었나요?

Anthropic은 Opus 4.7 출시 41일 후인 2026년 5월 28일에 Opus 4.8을 출시했습니다. 오늘 Claude 제품군, Claude API(모델 id claude-opus-4-8), Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry, 그리고 VM0에서 사용할 수 있습니다.

Opus 4.8의 가격은 4.7과 어떻게 비교되나요?

정가는 동일합니다: 입력 1M 토큰당 $5, 출력 1M 토큰당 $25, 캐시된 입력 1M당 $0.50. 변화는 고속 모드로, 이제 2.5배 속도에 1M 토큰당 $10 / $50입니다 — 이전 Claude 모델의 고속 모드보다 3배 저렴합니다.

동적 워크플로우란 무엇인가요?

Opus 4.8이 작업을 계획한 뒤 단일 세션 내에서 수백 개의 병렬 서브에이전트를 실행할 수 있게 하는 새 기능입니다. Anthropic은 이를 한 번의 에이전트 실행으로 수십만 줄에 걸친 코드베이스 규모의 마이그레이션으로 가는 경로로 자리매김합니다.

Opus 4.8은 어떤 강도 수준을 지원하나요?

세 단계입니다: high(새 기본값), extra(Claude Code에서는 xhigh), max. 더 높은 설정은 응답을 생성하기 전에 추론에 더 많은 토큰을 사용하고, 더 낮은 설정은 속도와 속도 제한 효율을 우선합니다.

Opus 4.7에서 4.8로 마이그레이션해야 하나요?

새 작업이라면 예 — 동일한 배수, 동일한 정가, Terminal-Bench 2.1을 제외한 모든 공개 비교 셀에서 더 강한 동작입니다. 고정된 프로덕션 에이전트는 회귀 스위트를 통과시킨 후에만 마이그레이션하고, 에이전트가 신뢰할 수 없는 입력을 받아들인다면 샌드박싱을 검토하세요(4.8은 4.7보다 프롬프트 인젝션에 약간 덜 견고합니다).

Opus 4.8은 프롬프트 캐싱을 지원하나요?

예. 캐시된 입력은 1M 토큰당 $0.50로 과금되며, 캐시된 부분에 대해 10배 할인됩니다. Messages API는 이제 캐시를 깨뜨리지 않고 대화 도중 시스템 엔트리도 받아들입니다.

대안

VM0에서 Claude Opus 4.8 사용하기

VM0에서 Claude Opus 4.8에 접근하는 두 가지 방법

VM0는 Claude Opus 4.8를 VM0 크레딧으로 과금되는 Built-in 모델로 지원하며, Anthropic API key를 사용하는 BYO(직접 키 사용) 방식으로도 지원합니다. Built-in 경로는 VM0 Managed 라우팅과 아래에서 설명하는 크레딧 배수를 사용하고, BYO 경로는 상위 공급사가 직접 과금하며 VM0 크레딧 변환을 완전히 건너뜁니다.

VM0의 추천

VM0는 Claude Opus 4.8를 핵심 에이전트 모델로 자리매김하며, 에이전트 실행의 실제 결과를 좌우하는 단계에서 Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 4.6와 함께 추천합니다. 이 모델들은 오케스트레이터 역할, 코드를 다루는 에이전트, 그리고 오답의 대가가 큰 모든 단계에 우리가 선택할 모델입니다.

크레딧과 ×2 배수

VM0의 모든 Built-in 모델은 ×1 크레딧 기준점에 위치한 Claude Sonnet 4.6의 배수로 가격이 책정됩니다. Claude Opus 4.8는 ×2 크레딧으로 과금됩니다. 이 배수는 VM0 청구서에 표시되는 값이며, 위 가격표의 공급사 정가는 VM0가 이를 크레딧으로 변환하기 전에 상위 공급사가 부과하는 금액입니다.

Claude Opus 4.8는 ×2로 과금되며, 이는 여기서의 한 단계가 Sonnet 4.6(×1 기준점)에서의 동일한 단계 대비 2배의 크레딧이 든다는 뜻입니다. VM0에서 프리미엄 등급이므로, 비용 효율적인 패턴은 더 저렴한 모델을 기본으로 사용하고 추가적인 추론 깊이가 정말로 필요한 단계만 Claude Opus 4.8로 라우팅하는 것입니다.

May 28, 2026부터 VM0에서 사용 가능.