Claude Opus 4.7

Anthropic의 플래그십 Claude 4 모델. 장기 에이전트 루프, 어려운 추론, 첫 시도 코드 수정에서 제품군 내 가장 강력한 선택지입니다.

1M tokens · Text / Vision / Code · Prompt cache

Claude Opus 4.7은 작업이 처음부터 정확해야 할 때 찾는 모델입니다: 깔끔하게 컴파일되는 코드, 긴 도구 체인에 걸쳐 맥락을 잃지 않는 다단계 계획, 작은 모델이 헤매는 추상적 퍼즐 등입니다. 벤더 벤치마크(SWE-bench Verified, Terminal-Bench 2.0, ARC AGI 2, OSWorld, BrowseComp)가 Opus 4.6 대비 향상을 구체적인 수치로 보여줍니다.

벤더 정가는 1M 토큰당 $5 / $25이며 캐시된 입력은 1M당 $0.50로, Claude 제품군에서 가장 높습니다. 비용 효율적인 패턴은 Sonnet 4.6을 기본으로 유지하고 가장 어려운 단계만 Opus로 라우팅하는 것입니다.

Claude Opus 4.7란?

2026년 4월(Opus 4.6 후속) · Claude 4 제품군의 최상위 등급. Opus 4.6 사용자를 위한 Anthropic의 권장 업그레이드.

Claude Opus 4.7은 Anthropic Claude 4 제품군의 플래그십으로, 2026년 4월에 Opus 4.6에서의 권장 업그레이드로 출시되었습니다. Anthropic은 이를 표면 API의 리프레시가 아니라 에이전트 코딩과 추상 추론에서의 단계적 변화로 자리매김합니다. 4.6에서 도입된 1M 토큰 컨텍스트 윈도우와 적응형 추론 강도 수준이 변경 없이 이어지므로, 기존 에이전트 코드는 재작성 없이 그대로 적용됩니다.

동일 제품군의 일꾼인 Sonnet 4.6과 비교하면, Opus는 토큰당 더 많은 연산을 투입합니다. 그 동작상의 이득은 세 곳에서 나타납니다: 긴 에이전트 루프에서 놓치는 지시가 더 적고, 첫 시도 코드 패치 품질이 눈에 띄게 더 낫고, 대화 기록이 100K 토큰을 넘어선 후 회상이 더 강합니다. 절충점은 Claude 제품군에서 가장 높은 정가($5 / $25, 1M 토큰당)와 더 느린 토큰당 출력 속도이며, 이것이 Anthropic 스스로 Opus를 모든 곳의 기본값이 아니라 오케스트레이터 또는 에스컬레이션 등급으로 자리매김하는 이유입니다.

독립 리더보드(Artificial Analysis, Vellum)는 Opus 4.6 대비 상대적 순위를 뒷받침하지만 절대 수치는 주 단위로 바뀌며, OpenAI는 모든 프런티어 모델에서 SWE-bench Verified의 학습 데이터 오염을 지적했습니다. 공개 점수는 권위 있는 값이 아니라 방향성 지표로 받아들이세요. 구조적 동작 차이(장기 루프 일관성, 첫 시도 패치 품질, 다중 도구 라우팅 신뢰성)가 더 지속적인 신호입니다.

Claude Opus 4.7의 주목할 점

대표적인 아키텍처 및 기능 특징.

Opus 4.7은 Opus 4.6의 1M 토큰 컨텍스트 윈도우를 유지하며, 전체 윈도우에 걸쳐 표준 입력 가격으로 과금됩니다. 네 가지 강도 수준(low, medium, high, max)의 적응형 추론, 긴 실행에서 서버 측 컨텍스트 요약을 위한 Compaction API, 그리고 캐시된 입력을 입력 요율의 10분의 1로 과금하는 프롬프트 캐싱을 지원합니다. 다중 에이전트 및 도구 사용 표면은 4.6과 변경되지 않았으며, 피어 투 피어 에이전트 팀을 위한 Mailbox Protocol과 1.1배 배수로 미국 전용 추론을 노출하는 inference_geo 파라미터를 포함합니다. 입력은 텍스트, 비전, 코드 전반에 걸쳐 멀티모달입니다.

한눈에 보는 사양

제품군Claude 4 세대

모달리티텍스트, 비전, 코드

언어영어 우선, 다국어

프롬프트 캐싱지원(Anthropic)

컨텍스트 윈도우1M 토큰

최대 출력최대 64K 토큰

강도 수준Low / Medium / High / Max

벤더 정가$5 입력 / $25 출력, 1M당

Claude Opus 4.7 벤치마크

Anthropic의 Opus 4.7 출시 자료에서 보고한 벤더 점수로, 공개된 Opus 4.6 수치 대비 증감을 표시합니다. 독립 리뷰들은 4.7을 대부분의 에이전트 코딩 작업에서 GPT-5.2보다 앞에 두고, 추상 추론에서는 Gemini 3 Pro와 몇 점 이내에 둡니다. 절대 백분율은 방향성으로 받아들이세요. OpenAI는 모든 프런티어 모델에서 SWE-bench Verified의 학습 데이터 오염을 지적했습니다.

SWE-bench Verified벤더 보고; Opus 4.6의 80.8%에서 상승

~83.5%

SWE-bench Pro벤더 보고

출시 시점 Claude 제품군 선두

Terminal-Bench 2.0벤더 보고; Opus 4.6의 65.4%에서 상승

~71%

τ2-bench Retail벤더 보고 도구 사용

~93%

OSWorld(컴퓨터 사용)벤더 보고; Opus 4.6의 72.7%에서 상승

~76%

BrowseComp벤더 보고 웹 작업

~88%

ARC AGI 2벤더 보고; Opus 4.6의 68.8%에서 상승

~75%

Humanity's Last Exam(도구 사용)벤더 보고

Claude 제품군 선두

GPQA Diamond벤더 보고 대학원 수준 과학

~92%

MRCR v2(1M, 8-needle)장문 컨텍스트 회상

4.6의 76%에서 개선

MMMU Pro(멀티모달)벤더 보고

Claude 제품군 선두

Claude Opus 4.7 가격

공급사 정가, 100만 토큰당.

입력$5.00

출력$25.00

캐시 읽기$0.50

캐시 쓰기$6.25

Claude Opus 4.7는 실제로 어떻게 작동하는가

프로덕션 에이전트 실행에서 관찰된 동작.

도구 라우팅

Claude 제품군에서 잘못 라우팅된 도구 호출 비율이 가장 낮습니다. Sonnet 4.6 대비 격차는 조건부 도구 선택, 깊이 중첩된 인자, 긴 추론 끝에 디스패치되는 도구 호출 같은 어려운 엣지 케이스에서 벌어집니다.

장문 컨텍스트 회상

200K+ 토큰 에이전트 트랜스크립트에 걸쳐 일관적입니다. Anthropic이 Opus 4.6에서 도입하고 4.7을 위해 더 다듬은 컨텍스트 부식 개선 덕분에, 1M 토큰 윈도우가 이전 모델보다 훨씬 잘 버팁니다. 1M에서 벤더 보고된 MRCR v2는 Opus 4.6의 76% 대비 측정 가능한 향상을 보입니다.

첫 시도 코드 수정

Claude 제품군에서 가장 강한 패치 품질입니다. 에이전트가 계속 컴파일되고 테스트를 통과해야 하는 코드를 수정해야 할 때, 특히 패치가 여러 파일에 걸칠 때 올바른 선택입니다. Anthropic의 Terminal-Bench 2.0 결과가 이를 직접 반영합니다.

속도

Sonnet 4.6보다 느리고 Kimi K2.7 Code보다 눈에 띄게 느립니다. Anthropic은 Opus 4.6에 대해 최대 강도에서 초당 약 41토큰을 공개하며, 4.7도 비슷한 범위입니다. 추가 추론 깊이가 실제로 필요한 단계에만 할당하고, 더 가벼운 등급을 병렬로 실행하세요.

환각 동작

Opus 4.7은 Anthropic의 보수적인 거부 태도를 유지하며 지어내기보다 불확실성을 인정하는 경향이 있습니다. 이것이 Kimi K2.7 Code, DeepSeek V4 Pro 같은 더 저렴한 오픈웨이트 대안이 이제 벤치마크에서 대등함에도 불구하고, 프로덕션 팀이 고위험 추론에 프리미엄을 계속 지불하는 이유입니다.

Claude Opus 4.7에 가장 적합한 에이전트 작업

사람이 놓치는 것을 잡아내는 PR 리뷰

풀 리퀘스트가 30개 파일을 변경할 때, Opus 4.7은 전체 변경을 작업 기억에 담고 auth/middleware.ts에서 바뀐 부분과 그것이 깨뜨린 routes/admin.test.ts의 테스트를 연결하는 리뷰를 작성합니다. 주니어 리뷰어가 보통 시니어 엔지니어가 두 번째 검토에서 잡아내는 종류의 교차 파일 피드백을 얻고, 팀은 CI는 통과하지만 프로덕션에서 깨지는 패치를 더 적게 배포합니다.

더미 전체를 읽는 리서치 실행

200페이지 분량의 계약서 초안, 경쟁사 제안서 세 건, 지난 분기의 법률 의견서를 1M 토큰 컨텍스트 윈도우에 넣고, Opus에게 시장 기준보다 더 빡빡한 모든 조항을 표시하고 예상되는 협상 포인트를 나열하라고 요청하세요. 작은 모델은 100K 토큰 이후 앞부분을 누락하기 시작하지만, Opus는 전체 그림을 시야에 두고 인용하는 정확한 단락을 참조합니다.

다중 도구 계획을 실행하는 오케스트레이터

Opus 4.7을 고객의 요청을 열 단계로 나누고, 각 단계를 Sonnet이나 비용 절감형 서브에이전트에 디스패치한 뒤 결과를 다시 엮는 플래너로 사용하세요. Opus를 플래너 계층에서만 실행하고(나머지는 더 저렴한 등급으로) 처음부터 끝까지 Opus로 실행하는 것의 일부 비용으로, 대부분의 품질을 보존합니다.

CI 실행을 낭비하지 않는 첫 시도 코드 수정

Opus 4.7에게 50개 파일의 코드베이스를 한 ORM에서 다른 ORM으로 마이그레이션하거나, 엉킨 모듈을 리팩터링하거나, 리포 전반에 보안 수정을 적용하라고 요청하세요. 패치가 첫 시도에 깔끔하게 적용되는 빈도가 제품군의 어떤 모델보다 높으며, 이것이 벤더 보고된 Terminal-Bench 2.0이 반영하는 바이자, 당신의 CI 청구서도 반영할 바입니다.

Claude Opus 4.7를 건너뛰어야 할 때

Sonnet 4.6이 비용의 일부로 동일한 품질 기준을 충족하는 대량 일상 작업, Kimi K2.7 Code가 훨씬 빠른 지연 민감 채팅 응답, 그리고 GPT-5.4 Mini가 더 저렴한 지원 대량 옵션인 대량 분류 또는 추출 작업에서는 Opus 4.7을 건너뛰세요.

Claude Opus 4.7 vs 다른 모델

Claude Opus 4.7 vs Claude Opus 4.8

Opus 4.8은 동일한 VM0 배수의 더 새로운 플래그십입니다. 새로운 고위험 에이전트에는 4.8을 사용하세요. 기존 워크플로우가 4.7에 대해 검증되었고 최신 벤치마크 향상보다 안정성이 더 중요한 경우에만 4.7을 유지하세요.

Claude Opus 4.7 vs Claude Sonnet 4.6

Sonnet 4.6은 Claude 제품군의 일꾼 기본값이자 대부분의 에이전트에 올바른 선택입니다. Sonnet이 어려운 추론, 장문 컨텍스트, 또는 첫 시도 코드 수정에서 눈에 띄게 실패할 때만 Opus 4.7로 승격하세요 — 보통 Sonnet이나 비용 절감형 서브에이전트에 아래로 위임하는 오케스트레이터로서입니다.

Claude Opus 4.7 vs Claude Opus 4.6

동일한 컨텍스트 윈도우(1M 토큰), 동일한 벤더 가격, 동일한 적응형 추론 아키텍처. Opus 4.7은 SWE-bench Verified, Terminal-Bench 2.0, ARC AGI 2, OSWorld 전반에서 벤더 보고된 향상을 갖춘 더 새로운 세대입니다. 신규 에이전트에는 4.7을 선택하세요. 기존 에이전트가 해당 버전에 대해 검증되었고 동작 안정성이 필요한 경우에만 4.6에 고정하세요.

Claude Opus 4.7 vs Kimi K2.7 Code

Moonshot의 Kimi K2.7 Code는 오픈소스 프런티어에서 여러 에이전트 벤치마크를 선도합니다(벤더 보고 SWE-bench Pro 58.6 대 Opus 4.6의 53.4). Opus 4.7은 프로덕션 영어 에이전트의 도구 라우팅 신뢰성과 안전성 프로필에서 선두를 유지하며, 이것이 대부분의 엔터프라이즈 팀이 여전히 이를 고위험 등급으로 두는 이유입니다.

Claude Opus 4.7 vs DeepSeek V4 Pro

DeepSeek V4 Pro는 대부분의 추론 벤치마크에서 Opus에 뒤지지만 코딩에서는 대등합니다(벤더 보고 SWE-bench Verified가 약 0.2점 이내). 구분은 단순합니다: 순수 비용이 좌우하면 DeepSeek를, 신뢰성, 안전성 프로필, 또는 도구 라우팅 정확도가 호출당 가격보다 더 중요하면 Opus 4.7을 선택하세요.

결론: Claude Opus 4.7를 사용해야 할까?

Opus 4.7은 에스컬레이션 등급입니다. Sonnet 4.6을 기본으로 하고, Sonnet이 눈에 띄게 실패하는 특정 단계에서만 Opus로 승격하세요.

자주 묻는 질문

Claude Opus 4.7의 컨텍스트 윈도우는 무엇인가요?

100만 토큰이며, 응답당 최대 64K 토큰의 출력입니다. 전체 윈도우가 표준 요율로 과금됩니다. 900K 토큰 요청은 9K 토큰 요청과 동일한 토큰당 요율입니다.

Claude Opus 4.7은 이미지를 처리할 수 있나요?

예. Opus 4.7은 멀티모달입니다. 텍스트와 코드와 함께 이미지 입력을 받아들이므로 스크린샷 기반 및 문서 비전 에이전트가 기본으로 작동합니다.

언제 Sonnet 4.6 대신 Opus 4.7을 선택해야 하나요?

(a) 에이전트가 플래너/오케스트레이터이고 결정이 연쇄적으로 영향을 미칠 때, (b) 실행이 충분히 길어 Sonnet이 지시를 누락하기 시작할 때, 또는 (c) 출력이 첫 시도에 깔끔하게 적용되어야 할 때(코드 수정, 구조화된 페이로드)입니다.

Opus 4.6에서 Opus 4.7로 마이그레이션해야 하나요?

예. Anthropic은 4.6보다 4.7을 명시적으로 권장합니다. 동일한 배수, 더 강한 동작입니다. 고정된 프로덕션 에이전트는 회귀 스위트를 통과시킨 후에만 마이그레이션하세요.

Opus 4.7은 프롬프트 캐싱을 지원하나요?

예. 캐시된 입력은 1M 토큰당 $0.50로 과금됩니다. 캐시된 부분에 대해 10배 할인입니다. 시스템 프롬프트나 도구 스키마가 호출 간에 안정적일 때마다 사용할 가치가 있습니다.

대안

Claude Opus 4.8

고위험 에이전트를 위한 더 새로운 플래그십

Claude Sonnet 4.6

대부분의 에이전트 루프에 더 저렴한 기본값

Kimi K2.7 Code

비용 절감형 오픈웨이트 코딩 대안

VM0에서 Claude Opus 4.7 사용하기

VM0에서 Claude Opus 4.7에 접근하는 두 가지 방법

VM0는 Claude Opus 4.7를 VM0 크레딧으로 과금되는 Built-in 모델로 지원하며, Anthropic API key를 사용하는 BYO(직접 키 사용) 방식으로도 지원합니다. Built-in 경로는 VM0 Managed 라우팅과 아래에서 설명하는 크레딧 배수를 사용하고, BYO 경로는 상위 공급사가 직접 과금하며 VM0 크레딧 변환을 완전히 건너뜁니다.

VM0의 추천

VM0는 Claude Opus 4.7를 핵심 에이전트 모델로 자리매김하며, 에이전트 실행의 실제 결과를 좌우하는 단계에서 Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 4.6와 함께 추천합니다. 이 모델들은 오케스트레이터 역할, 코드를 다루는 에이전트, 그리고 오답의 대가가 큰 모든 단계에 우리가 선택할 모델입니다.

크레딧과 ×2 배수

VM0의 모든 Built-in 모델은 ×1 크레딧 기준점에 위치한 Claude Sonnet 4.6의 배수로 가격이 책정됩니다. Claude Opus 4.7는 ×2 크레딧으로 과금됩니다. 이 배수는 VM0 청구서에 표시되는 값이며, 위 가격표의 공급사 정가는 VM0가 이를 크레딧으로 변환하기 전에 상위 공급사가 부과하는 금액입니다.

Claude Opus 4.7는 ×2로 과금되며, 이는 여기서의 한 단계가 Sonnet 4.6(×1 기준점)에서의 동일한 단계 대비 2배의 크레딧이 든다는 뜻입니다. VM0에서 프리미엄 등급이므로, 비용 효율적인 패턴은 더 저렴한 모델을 기본으로 사용하고 추가적인 추론 깊이가 정말로 필요한 단계만 Claude Opus 4.7로 라우팅하는 것입니다.

April 17, 2026부터 VM0에서 사용 가능.