GPT-5.5 on VM0. OpenAIのフラッグシップ推論モデル

OpenAIのGPT-5ファミリーのフラッグシップ。OpenAIティアにおけるエージェントコーディング、深い推論、コンピュータ使用ループに最強の選択肢。

400K tokens · Text / Vision / Code · Prompt cache

GPT-5.5は、深い推論と信頼性の高いツール使用の両方が必要な作業に手を伸ばすモデルです。マルチステップのエージェントループのオーケストレーション、一発で着地しなければならないコード編集、多数のGUIアクションにまたがるコンピュータ使用ワークフローに対応します。ベンダーベンチマーク（SWE-bench Verified、AIME 2025、GPQA Diamond）がGPT-5.4からの向上を具体的な数字で示しています。

ベンダー定価は$5/$30/1Mトークン、キャッシュ入力は$0.50/1M。VM0のBuilt-inカタログで最も高額な×2クレジットのモデルであるため、コスト効率の良いパターンは、GPT-5.4またはClaude Sonnet 4.6をどこでもデフォルトに保ち、最も難しいステップのみGPT-5.5にルーティングすることです。

GPT-5.5とは？

2026年4月（GPT-5.4の後継） · GPT-5ファミリーの最上位ティア。OpenAIのエージェントコーディングと推論のフラッグシップ。

GPT-5.5はOpenAIのGPT-5世代のフラッグシップで、2026年4月にGPT-5.4からの推奨アップグレードとしてリリースされました。OpenAIは、表面APIのリフレッシュではなく、エージェントツール使用とコンピュータ使用タスクにおける段階的な改善として位置付けています。GPT-5で導入された400Kトークンコンテキストウィンドウとreasoning_effortパラメーターは変更なしで引き継がれているため、既存のCodexエージェントは書き換えなしで導入できます。

GPT-5.4（同ファミリーのワークホース）と比較して、GPT-5.5はトークンあたりにより多くの計算を推論に投資します。その行動的な見返りは3点に現れます：マルチファイルリファクタリングでの初回コードパッチの強化、長いエージェントループでのツール呼び出しの誤ルーティングの大幅な減少、大学院レベルの科学的推論（GPQA Diamond）と競技数学（AIME 2025）での顕著な向上です。トレードオフはGPT-5バリアント中で最高額の定価（$5/$30/1Mトークン）とVM0上の×2クレジット乗数で、これがOpenAI自身がGPT-5.5をどこでもデフォルトではなくプランナーまたはエスカレーションティアとして位置付けている理由です。

独立系リーダーボード（Artificial Analysis、Vellum）はGPT-5.4に対する相対的な順位を裏付け、GPT-5.5を多くのエージェントコーディングタスクでClaude Opus 4.7の数ポイント以内に位置付けています。絶対値は週ごとに変動し、OpenAI自身がフロンティアモデル全体でSWE-bench Verifiedのトレーニングデータ汚染を指摘しています。公開スコアを権威ではなく方向性として捉え、構造化された行動の違い（ツール呼び出しの正確性、コンピュータ使用の信頼性、初回パッチ品質）こそがより持続的なシグナルです。

GPT-5.5の注目ポイント

アーキテクチャと機能の主な特徴。

GPT-5.5はGPT-5.4から400Kトークンコンテキストウィンドウを継承し、ウィンドウ全体が標準入力価格で課金されます。reasoning_effortパラメーターを4レベル（minimal、low、medium、high）でサポートし、プロンプトキャッシュではキャッシュ入力が入力レートの10分の1で課金され、codex CLIがデフォルトで使用するResponses APIサーフェスを使用します。ツール使用、構造化出力、コンピュータ使用は5.4から変更ありません。入力はテキスト、ビジョン、コードにわたってマルチモーダル。モデルにはネイティブな画像生成はありません（それにはImages APIを使用）。

スペック概要

ファミリーGPT-5世代

モダリティテキスト、ビジョン、コード

言語英語中心、多言語対応

プロンプトキャッシュサポート（OpenAI）

コンテキストウィンドウ400Kトークン

最大出力最大128Kトークン

推論努力レベルMinimal / Low / Medium / High

ベンダー定価入力$5 / 出力$30 /1M

GPT-5.5のベンチマーク

OpenAIのGPT-5.5リリース資料からのベンダー報告スコア、公開されているGPT-5.4の数字に対するデルタを示しています。独立レビューは、エージェントコーディングタスクで5.5をClaude Opus 4.7の数ポイント以内に位置付けています。絶対パーセンテージは方向性として捉えてください。OpenAIは全フロンティアモデルでSWE-bench Verifiedのトレーニングデータ汚染を指摘しています。

SWE-bench Verifiedベンダー報告。5.4の74.9%から向上

~82%

Terminal-Bench 2.0ベンダー報告のツール使用

~69%

AIME 2025（ツールなし）ベンダー報告の競技数学

~96%

GPQA Diamondベンダー報告の大学院科学

~89%

OSWorld（コンピュータ使用）ベンダー報告

~74%

MMMU（マルチモーダル）ベンダー報告

GPT-5ファミリーをリード

速度Artificial Analysis、中努力

~70トークン/秒

GPT-5.5の価格

プロバイダー定価、100万トークンあたり。

入力$5.00

出力$30.00

キャッシュ読み取り$0.50

キャッシュ書き込み課金対象外

GPT-5.5の実践的な挙動

本番エージェント実行で観測された動作。

ツールルーティング

GPT-5ファミリーで最も低いツール呼び出しの誤ルーティング率。5.4との差は、条件付きツール選択、深くネストされた引数、長い推論の後に発行されるツール呼び出しなど、難しいエッジケースで広がります。

初回コード編集

GPT-5ファミリーで最強のパッチ品質。エージェントがコンパイルとテストを通り続ける必要があるコードを修正する場合、特にパッチが複数ファイルにまたがる場合の正しい選択肢です。ベンダー報告のSWE-bench Verifiedがこれを直接反映しています。

コンピュータ使用

マルチステップGUIシーケンスにおいて5.4よりも大幅に信頼性が高く、OSWorldのデルタが捉えているのはこれです。エージェントがブラウザやデスクトップアプリを数十ステップにわたって駆動し、途中での脱線コストが高い場合に手を伸ばしてください。

速度

5.4より遅く、5.4 Miniよりも顕著に遅い。Artificial Analysisによれば中努力で約70トークン/秒。実際に追加の推論深度を必要とするステップのために予約し、より軽いティアを並列で実行してください。

ハルシネーション挙動

GPT-5.5はGPT-5世代からのOpenAIのより厳格なキャリブレーションを引き継ぎ、作話するよりも不確実性を認める傾向があります。これが、DeepSeek V4 Proのようなより安価な代替がベンチマークで同等になった現在でも、プロダクションチームが高リスクの推論にプレミアムを払い続ける理由です。

GPT-5.5に最適なエージェントタスク

マルチツールプランを実行するオーケストレーター

GPT-5.5を、顧客のリクエストを10ステップに分割し、各ステップをGPT-5.4または5.4 Miniティアのサブエージェントにディスパッチし、結果を再びつなぎ合わせるプランナーとして使用してください。プランナーレイヤーのみ5.5を実行する（その他はすべてより安価なティア）と、5.5をエンドツーエンドで実行するよりも一部のコストで済み、ほとんどの品質が保持されます。

CI実行を無駄にしない初回コード編集

GPT-5.5に、50ファイルのコードベースをあるORMから別のORMに移行する、絡まったモジュールをリファクタリングする、またはリポジトリ全体にセキュリティ修正を適用するよう依頼してください。パッチは他のどのファミリーモデルよりも初回でクリーンに適用されることが多く、それこそがあなたのCI請求書に反映されます。

ワークフローを完了しなければならないコンピュータ使用エージェント

エージェントがマルチステップ予約フロー、デスクトップアプリ、レガシー管理UIをブラウザで駆動している場合、5.5のより強力なOSWorldスコアが、途中での脱線の減少と人間による引き継ぎの減少に翻訳されます。長いセッションを再起動する必要がなくなった最初の一回でプレミアムは元が取れます。

難しい数学または難しい科学のリサーチステップ

競技グレードの数学問題セットや大学院物理学の導出を投げ込むと、5.5は5.4で見られる1つずれのミスなしで作業を進めます。AIME 2025とGPQA Diamondがまさにこの種の挙動を捉えています。

GPT-5.5を避けるべきケース

GPT-5.4が半分のクレジットコストで同じ品質バーに達する高ボリュームのルーティン作業、GPT-5.4 Miniがはるかに高速なレイテンシ感応型チャット返信、GPT-5.4 Miniがベンダーレベルで約35倍安価な大量分類または抽出ジョブではGPT-5.5をスキップしてください。

GPT-5.5 vs 他のモデル

GPT-5.5 vs GPT-5.4

GPT-5.4はGPT-5ファミリーのワークホースデフォルトであり、ほとんどのエージェントに対する正しい選択です。GPT-5.5への昇格は、5.4が難しい推論、長いエージェントループ、初回コード編集で目に見えて失敗する場合のみ、通常は5.4または5.4 Miniティアのサブエージェントに下方委任するオーケストレーターとして行ってください。

GPT-5.5 vs Claude Opus 4.7

異なるファミリーで同じ役割：高リスクオーケストレーター、より安価なティアが失敗したときにエスカレートするモデル。Opus 4.7は1MトークンコンテキストウィンドウとAnthropicの安全性プロファイルを持ち、GPT-5.5はより強力なコンピュータ使用スコアを持ち、既にCodexフレームワークを使用しているチームの自然な選択です。既存のエージェントが対象とするフレームワークとエコシステムで選択してください。

GPT-5.5 vs Gemini 3 Pro

Gemini 3 Proは生の長文コンテキスト推論（2Mトークンウィンドウ）と一部のマルチモーダルベンチマークでリードします。GPT-5.5はエージェントコーディング（SWE-bench Verified、Terminal-Bench）とコンピュータ使用でリードします。エージェントがコードを編集したりUIを駆動したりするときはGPT-5.5を選び、ワークロードが重いドキュメントまたは動画理解の場合はGemini 3 Proを選んでください。

結論: GPT-5.5を使うべきか？

GPT-5.5はOpenAI側のエスカレーションティアです。GPT-5.4をデフォルトにし、5.4が目に見えて失敗する特定のステップにのみ5.5に昇格してください。

よくある質問

GPT-5.5のコンテキストウィンドウは？

400,000トークン、レスポンスあたり最大128Kトークンの出力。ウィンドウ全体が標準レートで課金されます。

GPT-5.5は画像を処理できますか？

はい。GPT-5.5はマルチモーダルです。テキストとコードと並んで画像入力を受け付けるため、スクリーンショット駆動およびドキュメントビジョンエージェントがネイティブに動作します。画像生成にはOpenAI Images APIを使用してください。

GPT-5.5とGPT-5.4のどちらを選ぶべき？

（a）エージェントがプランナー/オーケストレーターで意思決定が連鎖する場合、（b）実行が十分に長く5.4がツール呼び出しの誤ルーティングを始める場合、または（c）出力が初回でクリーンに適用される必要がある場合（コード編集、構造化ペイロード、コンピュータ使用ワークフロー）。

GPT-5.5はプロンプトキャッシュをサポートしていますか？

はい。キャッシュ入力は$0.50/1Mトークン — キャッシュ部分で10倍の割引。システムプロンプトまたはツールスキーマが呼び出し間で安定している場合に使う価値があります。

GPT-5.5はVM0上でどのフレームワークを使用しますか？

Codex。VM0はGPT-5.5をCodexフレームワークのResponses APIサーフェス経由でルーティングし、これはcodex CLIがデフォルトで使用するものです。Claude Codeフレームワークエージェントは、VM0上でGPT-5モデルと互換性がありません。

代替モデル

VM0でGPT-5.5を使う

VM0でGPT-5.5にアクセスする2つの方法

VM0はGPT-5.5を、VM0クレジットで課金されるBuilt-inモデル、およびOpenAI API keyを使用したBring-your-ownの2通りでサポートしています。Built-inパスではVM0 Managedルーティングと後述のクレジット倍率が適用され、Bring-your-ownパスでは上流プロバイダーに直接課金され、VM0クレジットへの変換は行われません。

VM0の推奨

VM0はGPT-5.5をコアエージェントモデルとして位置付けており、Claude Opus 4.7、Claude Opus 4.6、Claude Sonnet 4.6と並んで、エージェント実行の実際の成果を左右するステップに推奨されます。これらは、オーケストレーター役、コードを扱うエージェント、誤った回答のコストが高いステップに選ぶモデルです。

クレジットと×2倍率

VM0のすべてのBuilt-inモデルは、×1クレジット基準となるClaude Sonnet 4.6の倍数で価格設定されています。GPT-5.5は×2クレジットで課金されます。倍率はVM0の請求書に表示されるもので、上記の価格表のベンダー定価はVM0がクレジットに変換する前に上流プロバイダーが請求する金額です。

GPT-5.5は×2で課金されます。つまり、1ステップのコストはSonnet 4.6（×1基準）の同等ステップの2倍です。VM0のプレミアムティアであるため、コスト効率の良いパターンは、デフォルトでより安価なモデルを使用し、本当に追加の推論深度が必要なステップのみをGPT-5.5にルーティングすることです。

VM0でApril 2026から利用可能。