VM0의 GPT-5.5. OpenAI의 플래그십 추론 모델

OpenAI GPT-5 제품군의 플래그십. OpenAI 등급에서 에이전트 코딩, 심층 추론, 컴퓨터 사용 루프에 가장 강력한 선택지입니다.

400K tokens · Text / Vision / Code · Prompt cache

GPT-5.5는 심층 추론과 신뢰할 수 있는 도구 사용이 모두 필요할 때 찾는 모델입니다: 다단계 에이전트 루프 오케스트레이션, 첫 시도에 성공해야 하는 코드 수정, 여러 GUI 동작에 걸친 컴퓨터 사용 워크플로우 등입니다. 벤더 벤치마크(SWE-bench Verified, AIME 2025, GPQA Diamond)가 GPT-5.4 대비 향상을 구체적인 수치로 보여줍니다.

벤더 정가는 1M 토큰당 $5 / $30이며 캐시된 입력은 1M당 $0.50입니다. VM0의 Built-in 카탈로그에서 ×2 크레딧으로 가장 비싼 모델이므로, 비용 효율적인 패턴은 GPT-5.4나 Claude Sonnet 4.6을 모든 곳의 기본값으로 유지하고 가장 어려운 단계만 GPT-5.5로 라우팅하는 것입니다.

GPT-5.5란?

2026년 4월(GPT-5.4 후속) · GPT-5 제품군의 최상위 등급. 에이전트 코딩과 추론을 위한 OpenAI의 플래그십.

GPT-5.5는 OpenAI GPT-5 세대의 플래그십으로, 2026년 4월에 GPT-5.4에서의 권장 업그레이드로 출시되었습니다. OpenAI는 이를 표면 API의 리프레시가 아니라 에이전트 도구 사용과 컴퓨터 사용 작업에서의 단계적 변화로 자리매김합니다. GPT-5와 함께 도입된 400K 토큰 컨텍스트 윈도우와 reasoning_effort 파라미터가 변경 없이 이어지므로, 기존 Codex 에이전트는 재작성 없이 그대로 적용됩니다.

동일 제품군의 일꾼인 GPT-5.4와 비교하면, GPT-5.5는 추론에 토큰당 더 많은 연산을 투입합니다. 그 동작상의 이득은 세 곳에서 나타납니다: 다중 파일 리팩터에서 더 강한 첫 시도 코드 패치, 긴 에이전트 루프에서 잘못 라우팅된 도구 호출의 실질적 감소, 그리고 대학원 수준 과학 추론(GPQA Diamond)과 경시 수학(AIME 2025)에서의 눈에 띄는 향상입니다. 절충점은 GPT-5 변형 중 가장 높은 정가($5 / $30, 1M 토큰당)와 VM0의 ×2 크레딧 배수이며, 이것이 OpenAI 스스로 GPT-5.5를 모든 곳의 기본값이 아니라 플래너 또는 에스컬레이션 등급으로 자리매김하는 이유입니다.

독립 리더보드(Artificial Analysis, Vellum)는 GPT-5.4 대비 상대적 순위를 뒷받침하며, 대부분의 에이전트 코딩 작업에서 GPT-5.5를 Claude Opus 4.7과 몇 점 이내에 둡니다. 절대 수치는 주 단위로 바뀌며 OpenAI 스스로 프런티어 모델 전반에서 SWE-bench Verified의 학습 데이터 오염을 지적했습니다. 공개 점수는 권위 있는 값이 아니라 방향성 지표로 받아들이세요. 구조적 동작 차이(도구 호출 정확도, 컴퓨터 사용 신뢰성, 첫 시도 패치 품질)가 더 지속적인 신호입니다.

GPT-5.5의 주목할 점

대표적인 아키텍처 및 기능 특징.

GPT-5.5는 GPT-5.4의 400K 토큰 컨텍스트 윈도우를 유지하며, 전체 윈도우에 걸쳐 표준 입력 가격으로 과금됩니다. 네 가지 수준(minimal, low, medium, high)의 reasoning_effort 파라미터, 캐시된 입력을 입력 요율의 10분의 1로 과금하는 프롬프트 캐싱, 그리고 codex CLI가 기본으로 사용하는 Responses API 표면을 지원합니다. 도구 사용, 구조화된 출력, 컴퓨터 사용은 5.4와 변경되지 않았습니다. 입력은 텍스트, 비전, 코드 전반에 걸쳐 멀티모달이며, 모델은 네이티브 이미지 생성이 없습니다(그것은 Images API를 사용하세요).

한눈에 보는 사양

제품군GPT-5 세대

모달리티텍스트, 비전, 코드

언어영어 우선, 다국어

프롬프트 캐싱지원(OpenAI)

컨텍스트 윈도우400K 토큰

최대 출력최대 128K 토큰

추론 강도Minimal / Low / Medium / High

벤더 정가$5 입력 / $30 출력, 1M당

GPT-5.5 벤치마크

OpenAI의 GPT-5.5 출시 자료에서 보고한 벤더 점수로, 공개된 GPT-5.4 수치 대비 증감을 표시합니다. 독립 리뷰들은 에이전트 코딩 작업에서 5.5를 Claude Opus 4.7과 몇 점 이내에 둡니다. 절대 백분율은 방향성으로 받아들이세요. OpenAI는 모든 프런티어 모델에서 SWE-bench Verified의 학습 데이터 오염을 지적했습니다.

SWE-bench Verified벤더 보고; 5.4의 74.9%에서 상승

~82%

Terminal-Bench 2.0벤더 보고 도구 사용

~69%

AIME 2025(도구 미사용)벤더 보고 경시 수학

~96%

GPQA Diamond벤더 보고 대학원 과학

~89%

OSWorld(컴퓨터 사용)벤더 보고

~74%

MMMU(멀티모달)벤더 보고

GPT-5 제품군 선두

속도Artificial Analysis, 중간 강도

~70 토큰/초

GPT-5.5 가격

공급사 정가, 100만 토큰당.

입력$5.00

출력$30.00

캐시 읽기$0.50

캐시 쓰기과금되지 않음

GPT-5.5는 실제로 어떻게 작동하는가

프로덕션 에이전트 실행에서 관찰된 동작.

도구 라우팅

GPT-5 제품군에서 잘못 라우팅된 도구 호출 비율이 가장 낮습니다. 5.4 대비 격차는 조건부 도구 선택, 깊이 중첩된 인자, 긴 추론 끝에 디스패치되는 도구 호출 같은 어려운 엣지 케이스에서 벌어집니다.

첫 시도 코드 수정

GPT-5 제품군에서 가장 강한 패치 품질입니다. 에이전트가 계속 컴파일되고 테스트를 통과해야 하는 코드를 수정해야 할 때, 특히 패치가 여러 파일에 걸칠 때 올바른 선택입니다. 벤더 보고된 SWE-bench Verified가 이를 직접 반영합니다.

컴퓨터 사용

다단계 GUI 시퀀스에서 5.4보다 실질적으로 더 신뢰할 수 있으며, 이것이 OSWorld 격차가 포착하는 바입니다. 에이전트가 수십 단계에 걸쳐 브라우저나 데스크톱 앱을 구동하고 실행 도중 탈선의 비용이 높을 때 찾으세요.

속도

5.4보다 느리고 5.4 Mini보다 눈에 띄게 느립니다. Artificial Analysis 기준 중간 강도에서 초당 약 70토큰입니다. 추가 추론 깊이가 실제로 필요한 단계에만 할당하고, 더 가벼운 등급을 병렬로 실행하세요.

환각 동작

GPT-5.5는 GPT-5 세대의 더 엄격한 보정을 이어받으며 지어내기보다 불확실성을 인정하는 경향이 있습니다. 이것이 DeepSeek V4 Pro 같은 더 저렴한 대안이 이제 벤치마크에서 대등함에도 불구하고, 프로덕션 팀이 고위험 추론에 프리미엄을 계속 지불하는 이유입니다.

GPT-5.5에 가장 적합한 에이전트 작업

다중 도구 계획을 실행하는 오케스트레이터

GPT-5.5를 고객의 요청을 열 단계로 나누고, 각 단계를 GPT-5.4 또는 5.4 Mini 등급 서브에이전트에 디스패치한 뒤 결과를 다시 엮는 플래너로 사용하세요. 5.5를 플래너 계층에서만 실행하고(나머지는 더 저렴한 등급으로) 처음부터 끝까지 5.5로 실행하는 것의 일부 비용으로, 대부분의 품질을 보존합니다.

CI 실행을 낭비하지 않는 첫 시도 코드 수정

GPT-5.5에게 50개 파일의 코드베이스를 한 ORM에서 다른 ORM으로 마이그레이션하거나, 엉킨 모듈을 리팩터링하거나, 리포 전반에 보안 수정을 적용하라고 요청하세요. 패치가 첫 시도에 깔끔하게 적용되는 빈도가 제품군의 어떤 모델보다 높으며, 이것이 바로 당신의 CI 청구서가 반영할 바입니다.

워크플로우를 끝까지 완료해야 하는 컴퓨터 사용 에이전트

에이전트가 다단계 예약 흐름, 데스크톱 앱, 또는 레거시 관리자 UI를 통해 브라우저를 구동할 때, 5.5의 더 강한 OSWorld 점수는 실행 도중 탈선과 사람 개입의 감소로 이어집니다. 긴 세션이 재시작되지 않아도 되는 첫 순간에 프리미엄이 스스로 값을 합니다.

어려운 수학 또는 어려운 과학 리서치 단계

경시 수준의 수학 문제 세트나 대학원 물리 유도를 넣으면 5.5는 5.4에서 보이는 오프바이원 실수 없이 풀어냅니다. AIME 2025와 GPQA Diamond가 바로 이런 종류의 동작을 포착합니다.

GPT-5.5를 건너뛰어야 할 때

GPT-5.4가 절반의 크레딧 비용으로 동일한 품질 기준을 충족하는 대량 일상 작업, GPT-5.4 Mini가 훨씬 빠른 지연 민감 채팅 응답, 그리고 GPT-5.4 Mini가 더 저렴한 지원 대량 옵션인 대량 분류 또는 추출 작업에서는 GPT-5.5를 건너뛰세요.

GPT-5.5 vs 다른 모델

GPT-5.5 vs GPT-5.4

GPT-5.4는 GPT-5 제품군의 일꾼 기본값이자 대부분의 에이전트에 올바른 선택입니다. 5.4가 어려운 추론, 긴 에이전트 루프, 또는 첫 시도 코드 수정에서 눈에 띄게 실패할 때만 GPT-5.5로 승격하세요 — 보통 5.4 또는 5.4 Mini 등급 서브에이전트에 아래로 위임하는 오케스트레이터로서입니다.

GPT-5.5 vs Claude Opus 4.7

서로 다른 제품군에서 동일한 역할: 고위험 오케스트레이터이자 더 저렴한 등급이 실패할 때 에스컬레이션하는 모델입니다. Opus 4.7은 1M 토큰 컨텍스트 윈도우와 Anthropic의 안전성 프로필을 갖췄고, GPT-5.5는 더 강한 컴퓨터 사용 점수를 가지며 이미 Codex 프레임워크를 쓰는 팀의 자연스러운 선택입니다. 기존 에이전트가 겨냥하는 프레임워크와 생태계에 따라 선택하세요.

GPT-5.5 vs Gemini 3 Pro

Gemini 3 Pro는 순수 장문 컨텍스트 추론(2M 토큰 윈도우)과 일부 멀티모달 벤치마크에서 선두입니다. GPT-5.5는 에이전트 코딩(SWE-bench Verified, Terminal-Bench)과 컴퓨터 사용에서 선두입니다. 에이전트가 코드를 편집하거나 UI를 구동할 때는 GPT-5.5를, 워크로드가 무거운 문서나 영상 이해일 때는 Gemini 3 Pro를 선택하세요.

결론: GPT-5.5를 사용해야 할까?

GPT-5.5는 OpenAI 쪽의 에스컬레이션 등급입니다. GPT-5.4를 기본으로 하고, 5.4가 눈에 띄게 실패하는 특정 단계에서만 5.5로 승격하세요.

자주 묻는 질문

GPT-5.5의 컨텍스트 윈도우는 무엇인가요?

400,000 토큰이며, 응답당 최대 128K 토큰의 출력입니다. 전체 윈도우가 표준 요율로 과금됩니다.

GPT-5.5는 이미지를 처리할 수 있나요?

예. GPT-5.5는 멀티모달입니다. 텍스트와 코드와 함께 이미지 입력을 받아들이므로 스크린샷 기반 및 문서 비전 에이전트가 기본으로 작동합니다. 이미지 생성에는 OpenAI Images API를 사용하세요.

언제 GPT-5.4 대신 GPT-5.5를 선택해야 하나요?

(a) 에이전트가 플래너/오케스트레이터이고 결정이 연쇄적으로 영향을 미칠 때, (b) 실행이 충분히 길어 5.4가 도구 호출을 잘못 라우팅하기 시작할 때, 또는 (c) 출력이 첫 시도에 깔끔하게 적용되어야 할 때(코드 수정, 구조화된 페이로드, 컴퓨터 사용 워크플로우)입니다.

GPT-5.5는 프롬프트 캐싱을 지원하나요?

예. 캐시된 입력은 1M 토큰당 $0.50로 과금됩니다 — 캐시된 부분에 대해 10배 할인입니다. 시스템 프롬프트나 도구 스키마가 호출 간에 안정적일 때마다 사용할 가치가 있습니다.

GPT-5.5는 VM0에서 어떤 프레임워크를 사용하나요?

Codex입니다. VM0는 codex CLI가 기본으로 사용하는 Codex 프레임워크의 Responses API 표면을 통해 GPT-5.5를 라우팅합니다. Claude Code 프레임워크 에이전트는 VM0에서 GPT-5 모델과 호환되지 않습니다.

대안

VM0에서 GPT-5.5 사용하기

VM0에서 GPT-5.5에 접근하는 두 가지 방법

VM0는 GPT-5.5를 VM0 크레딧으로 과금되는 Built-in 모델로 지원하며, OpenAI API key를 사용하는 BYO(직접 키 사용) 방식으로도 지원합니다. Built-in 경로는 VM0 Managed 라우팅과 아래에서 설명하는 크레딧 배수를 사용하고, BYO 경로는 상위 공급사가 직접 과금하며 VM0 크레딧 변환을 완전히 건너뜁니다.

VM0의 추천

VM0는 GPT-5.5를 핵심 에이전트 모델로 자리매김하며, 에이전트 실행의 실제 결과를 좌우하는 단계에서 Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 4.6와 함께 추천합니다. 이 모델들은 오케스트레이터 역할, 코드를 다루는 에이전트, 그리고 오답의 대가가 큰 모든 단계에 우리가 선택할 모델입니다.

크레딧과 ×2 배수

VM0의 모든 Built-in 모델은 ×1 크레딧 기준점에 위치한 Claude Sonnet 4.6의 배수로 가격이 책정됩니다. GPT-5.5는 ×2 크레딧으로 과금됩니다. 이 배수는 VM0 청구서에 표시되는 값이며, 위 가격표의 공급사 정가는 VM0가 이를 크레딧으로 변환하기 전에 상위 공급사가 부과하는 금액입니다.

GPT-5.5는 ×2로 과금되며, 이는 여기서의 한 단계가 Sonnet 4.6(×1 기준점)에서의 동일한 단계 대비 2배의 크레딧이 든다는 뜻입니다. VM0에서 프리미엄 등급이므로, 비용 효율적인 패턴은 더 저렴한 모델을 기본으로 사용하고 추가적인 추론 깊이가 정말로 필요한 단계만 GPT-5.5로 라우팅하는 것입니다.

April 2026부터 VM0에서 사용 가능.