VM0의 GPT-5.4. OpenAI 일꾼 모델

OpenAI GPT-5 제품군의 일꾼. Claude Sonnet 4.6과 함께 ×1 크레딧 기준선에 위치하며 대부분의 Codex 프레임워크 에이전트에 적합한 기본값입니다.

400K tokens · Text / Vision / Code · Prompt cache

GPT-5.4는 OpenAI GPT-5 제품군의 일꾼 — 기본적으로 모든 곳에서 계속 실행하는 모델입니다. 벤더 보고된 SWE-bench Verified 74.9%는 코딩에서 Claude Sonnet 4.6과 같은 범위에 두며, 그 도구 사용 정확도는 대부분의 프로덕션 Codex 프레임워크 에이전트가 맞춰 튜닝되는 대상입니다.

벤더 정가는 1M 토큰당 $2.5 / $15이며 캐시된 입력은 1M당 $0.25입니다. VM0 Managed에서 ×1 크레딧 — Claude Sonnet 4.6과 동일한 기준선 — 에 위치하며, 이는 에이전트가 이미 Codex 프레임워크에 있고 균형 잡힌 비용/품질 기본값을 원할 때 자연스러운 선택으로 만듭니다.

GPT-5.4란?

2026년 4월 · GPT-5 제품군의 일꾼. 대부분의 Codex 프레임워크 에이전트를 위한 권장 기본값.

GPT-5.4는 OpenAI GPT-5 세대의 일꾼으로, 플래그십 GPT-5.5 및 비용 최적화형 GPT-5.4 Mini와 함께 2026년 4월에 출시되었습니다. OpenAI는 이를 Codex 프레임워크 에이전트의 모든 곳 기본값으로 자리매김합니다 — 특정 단계가 5.5로의 에스컬레이션을 정당화하지 않는 한 모든 단계에서 계속 실행하는 모델입니다.

구조적으로 GPT-5.4는 400K 토큰 컨텍스트 윈도우, reasoning_effort 파라미터, 프롬프트 캐싱, 그리고 Responses API 표면을 GPT-5 제품군의 나머지와 공유합니다. GPT-5.5와의 차이는 토큰당 연산 투입입니다: 5.4는 더 빠르고 저렴하게 실행되고, 5.5는 추론 깊이에 더 투자합니다. GPT-5.4 Mini와의 차이는 그 반대입니다 — 5.4는 에이전트 실행을 실제로 결정짓는 단계를 위해 더 많은 품질을 갖습니다.

VM0에서는 Claude Sonnet 4.6과 동일한 기준선인 ×1 크레딧 배수에 위치하며, 이는 Anthropic과 OpenAI 기본값 간의 나란한 비용 비교를 손쉽게 만듭니다. 둘 사이의 선택은 보통 프레임워크(Codex 대 Claude Code), 생태계(기존 통합, 도구 정의), 그리고 팀이 어느 모델에 더 동작상의 익숙함을 가지고 있는지로 귀결됩니다.

GPT-5.4의 주목할 점

대표적인 아키텍처 및 기능 특징.

GPT-5.4는 GPT-5 제품군의 나머지와 동일한 아키텍처를 사용합니다: 400K 토큰 컨텍스트 윈도우, 네 가지 수준(minimal, low, medium, high)의 reasoning_effort 파라미터, 캐시된 입력을 입력 요율의 10분의 1로 과금하는 프롬프트 캐싱, 그리고 codex CLI가 기본으로 사용하는 Responses API 표면입니다. 도구 사용, 구조화된 출력, 컴퓨터 사용이 지원됩니다. 입력은 텍스트, 비전, 코드 전반에 걸쳐 멀티모달입니다.

한눈에 보는 사양

제품군GPT-5 세대

모달리티텍스트, 비전, 코드

언어영어 우선, 다국어

프롬프트 캐싱지원(OpenAI)

컨텍스트 윈도우400K 토큰

최대 출력최대 128K 토큰

추론 강도Minimal / Low / Medium / High

벤더 정가$2.5 입력 / $15 출력, 1M당

GPT-5.4 벤치마크

OpenAI의 GPT-5 출시 자료에서 보고한 벤더 점수로, 이전 OpenAI 세대 대비 증감을 표시합니다. 독립 리뷰들은 GPT-5.4를 Claude Sonnet 4.6과 동일한 코딩 품질 대역에 둡니다. 절대 백분율은 방향성으로 받아들이세요.

SWE-bench Verified벤더 보고

74.9%

Terminal-Bench 2.0벤더 보고 도구 사용

~58%

AIME 2025(도구 미사용)벤더 보고 경시 수학

~92%

GPQA Diamond벤더 보고 대학원 과학

~85%

OSWorld(컴퓨터 사용)벤더 보고

~62%

속도Artificial Analysis, 중간 강도

~110 토큰/초

GPT-5.4 가격

공급사 정가, 100만 토큰당.

입력$2.50

출력$15.00

캐시 읽기$0.25

캐시 쓰기과금되지 않음

GPT-5.4는 실제로 어떻게 작동하는가

프로덕션 에이전트 실행에서 관찰된 동작.

도구 라우팅

표준 Codex 프레임워크 도구 카탈로그 전반에 걸쳐 견고한 기준선 정확도입니다. 5.5가 앞서는 지점은 어려운 엣지 케이스(조건부 도구 선택, 깊이 중첩된 인자)이며 — 일상적인 경우에 5.4는 훨씬 낮은 지연으로 올바르게 라우팅합니다.

코드 수정

표준 리팩터 및 버그 수정 워크로드에서 Claude Sonnet 4.6과 비슷한 패치 품질입니다. 5.5가 앞서기 시작하는 지점은 패치가 첫 시도에 깔끔하게 적용되어야 하는 다중 파일 변경입니다.

속도

5.5보다 실질적으로 빠릅니다 — Artificial Analysis 기준 중간 강도에서 초당 약 110토큰입니다. 이것이 사용자에게 보이는 지연이 중요한 인터랙티브 채팅 응답과 짧은 에이전트 루프에서 5.4가 기본값으로 남는 이유의 일부입니다.

비용 효율

Sonnet 4.6 품질 대역의 출력 동작을 갖춘 ×1 크레딧입니다. 이미 Codex 프레임워크에 있는 팀에게는 이것이 비용/품질의 최적점입니다 — 눈에 띄게 필요한 단계에서만 5.5로 승격하세요.

환각 동작

OpenAI가 GPT-5 세대와 함께 출시한 보정 개선을 이어받습니다. 특히 학습 범위 밖의 질문에서 GPT-4 시리즈보다 자신만만하게 틀린 답을 내놓을 가능성이 낮습니다.

GPT-5.4에 가장 적합한 에이전트 작업

Codex 프레임워크의 기본 에이전트 단계

에이전트가 이미 codex CLI나 임의의 Codex 프레임워크 통합 위에 구축되어 있다면, GPT-5.4가 자연스러운 모든 곳 기본값입니다. ×1 크레딧, 인터랙티브 사용에 충분히 빠르며, 대부분의 에이전트 실행을 지배하는 일상적인 도구 호출에 충분히 정확합니다.

비전을 갖춘 인터랙티브 채팅

스크린샷 기반 UI, 문서 Q&A, 이미지 주석 — GPT-5.4는 세 가지 모두를 일꾼 속도로 멀티모달하게 처리합니다. ×1 배수가 턴당 비용을 Sonnet 4.6과 같은 대역에 유지하므로, 동일한 워크로드에서 둘을 서로 A/B 테스트할 수 있습니다.

Claude Sonnet 4.6 대비 비용/품질 A/B

두 모델 모두 VM0 Managed에서 ×1 크레딧에 위치하여 비용으로 직접 비교할 수 있습니다. 동일한 에이전트를 양쪽에서 일주일간 실행하고 특정 워크로드의 동작으로 선택하세요 — 어느 쪽도 보편적으로 더 낫지 않으며, 올바른 기본값은 도구 카탈로그와 프롬프트 스타일에 달려 있습니다.

GPT-5.4를 건너뛰어야 할 때

5.5가 눈에 띄게 앞서는 가장 어려운 추론, 컴퓨터 사용, 또는 다중 파일 코드 수정 단계, 그리고 5.4 Mini가 벤더 수준에서 네 배 더 저렴한 고볼륨 대량 분류 또는 사전 필터 작업에서는 GPT-5.4를 건너뛰세요.

GPT-5.4 vs 다른 모델

GPT-5.4 vs GPT-5.5

동일 제품군, 다른 포지셔닝. 5.5(×2)는 가장 강한 추론, 컴퓨터 사용, 첫 시도 코드 품질을 제공합니다. 5.4(×1)는 동일한 컨텍스트 윈도우와 기능 세트를 절반의 크레딧 비용과 눈에 띄게 높은 속도로 제공합니다. 5.4를 기본으로 하고, 눈에 띄게 필요한 단계에서만 5.5로 에스컬레이션하세요.

GPT-5.4 vs Claude Sonnet 4.6

각 생태계의 두 ×1 기준선입니다. Sonnet 4.6은 Claude Code 프레임워크에서, GPT-5.4는 Codex에서 실행됩니다. 기존 에이전트와 도구 정의가 겨냥하는 프레임워크에 따라 선택하세요. 순수 출력 품질에서는 충분히 가까워서 워크로드에서 A/B 테스트하는 것이 올바른 판단입니다.

GPT-5.4 vs GPT-5.4 Mini

동일 제품군, 다른 포지셔닝. 5.4(×1)는 토큰당 더 많은 추론 품질을 갖고, 5.4 Mini(×0.3)는 대량 및 사전 필터 작업에 훨씬 저렴한 옵션을 제공합니다. 분산 분류에는 5.4 Mini를, 에이전트 실행을 결정짓는 단계에는 5.4를 사용하세요.

결론: GPT-5.4를 사용해야 할까?

GPT-5.4는 VM0의 Codex 프레임워크 에이전트를 위한 모든 곳 기본값입니다. 어려운 추론에는 5.5로 에스컬레이션하고, 대량 사전 필터링에는 5.4 Mini로 내려가세요.

자주 묻는 질문

GPT-5.4의 컨텍스트 윈도우는 무엇인가요?

400,000 토큰이며, 응답당 최대 128K 토큰의 출력입니다. 전체 윈도우가 표준 요율로 과금됩니다.

GPT-5.4는 이미지를 처리할 수 있나요?

예. GPT-5.4는 멀티모달입니다. 텍스트와 코드와 함께 이미지 입력을 기본으로 받아들입니다.

언제 Claude Sonnet 4.6 대신 GPT-5.4를 선택해야 하나요?

에이전트가 이미 Codex 프레임워크 위에 구축되어 있거나 OpenAI 생태계(도구 카탈로그, 구조화된 출력, Responses API)가 필요할 때입니다. 둘 다 ×1 크레딧에 위치하므로 비용은 동일하며, 선택은 프레임워크와 동작 적합성으로 귀결됩니다.

GPT-5.4는 프롬프트 캐싱을 지원하나요?

예. 캐시된 입력은 1M 토큰당 $0.25로 과금됩니다 — 캐시된 부분에 대해 10배 할인입니다.

GPT-5.4는 VM0에서 어떤 프레임워크를 사용하나요?

Codex입니다. VM0는 모든 GPT-5 모델을 Codex 프레임워크의 Responses API 표면을 통해 라우팅합니다.

대안

GPT-5.5

가장 어려운 단계를 위한 에스컬레이션 등급

GPT-5.4 Mini

대량 작업을 위한 더 저렴한 옵션

Claude Sonnet 4.6

Claude Code 프레임워크의 ×1 동급

VM0에서 GPT-5.4 사용하기

VM0에서 GPT-5.4에 접근하는 두 가지 방법

VM0는 GPT-5.4를 VM0 크레딧으로 과금되는 Built-in 모델로 지원하며, OpenAI API key를 사용하는 BYO(직접 키 사용) 방식으로도 지원합니다. Built-in 경로는 VM0 Managed 라우팅과 아래에서 설명하는 크레딧 배수를 사용하고, BYO 경로는 상위 공급사가 직접 과금하며 VM0 크레딧 변환을 완전히 건너뜁니다.

VM0의 추천

VM0는 GPT-5.4를 핵심 에이전트 모델로 자리매김하며, 에이전트 실행의 실제 결과를 좌우하는 단계에서 Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 4.6와 함께 추천합니다. 이 모델들은 오케스트레이터 역할, 코드를 다루는 에이전트, 그리고 오답의 대가가 큰 모든 단계에 우리가 선택할 모델입니다.

크레딧과 ×1 배수

VM0의 모든 Built-in 모델은 ×1 크레딧 기준점에 위치한 Claude Sonnet 4.6의 배수로 가격이 책정됩니다. GPT-5.4는 ×1 크레딧으로 과금됩니다. 이 배수는 VM0 청구서에 표시되는 값이며, 위 가격표의 공급사 정가는 VM0가 이를 크레딧으로 변환하기 전에 상위 공급사가 부과하는 금액입니다.

GPT-5.4는 다른 모든 Built-in 모델의 가격이 기준으로 삼는 ×1 기준점에 위치하므로, VM0에서 모델을 선택할 때 비용을 비교하는 단위가 됩니다.

April 2026부터 VM0에서 사용 가능.