GPT-5.4 on VM0. The OpenAI workhorse
OpenAIs Arbeitstier der GPT-5-Familie. Sitzt auf der ×1 Credit-Basislinie neben Claude Sonnet 4.6 und ist der richtige Standard für die meisten Codex-Framework-Agenten.
400K tokens · Text / Vision / Code · Prompt cache
GPT-5.4 ist das Arbeitstier der GPT-5-Familie von OpenAI — das Modell, das du standardmäßig überall laufen lässt. Vom Anbieter gemeldete SWE-bench Verified bei 74,9% platziert es beim Coding im selben Bereich wie Claude Sonnet 4.6, und seine Tool-Use-Genauigkeit ist das, worauf die meisten produktiven Codex-Framework-Agenten getunt sind.
Listenpreis des Anbieters ist $2,5 / $15 pro 1M Tokens mit gecachtem Input zu $0,25 / 1M. Es liegt bei ×1 Credits auf VM0 Managed — dieselbe Basislinie wie Claude Sonnet 4.6 — was es zur natürlichen Wahl macht, wenn dein Agent bereits auf dem Codex-Framework läuft und du einen ausgewogenen Kosten/Qualitäts-Default willst.
Was ist GPT-5.4?
April 2026 · Arbeitstier der GPT-5-Familie. Der empfohlene Standard für die meisten Codex-Framework-Agenten.
GPT-5.4 ist das Arbeitstier der GPT-5-Generation von OpenAI, veröffentlicht im April 2026 neben dem Flaggschiff GPT-5.5 und dem kostenoptimierten GPT-5.4 Mini. OpenAI positioniert es als Standard überall für Agenten auf dem Codex-Framework — das Modell, das du auf jedem Schritt laufen lässt, sofern ein spezifischer Schritt keine Eskalation auf 5.5 rechtfertigt.
Architektonisch teilt GPT-5.4 das 400K-Token-Kontextfenster, den reasoning_effort-Parameter, Prompt Caching und die Responses-API-Oberfläche mit dem Rest der GPT-5-Familie. Der Unterschied zu GPT-5.5 ist die Rechen-Investition pro Token: 5.4 läuft schneller und günstiger, 5.5 investiert mehr in Reasoning-Tiefe. Der Unterschied zu GPT-5.4 Mini ist umgekehrt — 5.4 trägt mehr Qualität für die Schritte, die tatsächlich den Agent-Lauf entscheiden.
Auf VM0 liegt es beim ×1 Credit-Multiplikator, derselben Basislinie wie Claude Sonnet 4.6, was Side-by-Side-Kostenvergleiche zwischen Anthropic- und OpenAI-Defaults trivial macht. Die Wahl zwischen beiden hängt meist vom Framework (Codex vs. Claude Code), Ökosystem (bestehende Integrationen, Tool-Definitionen) und davon ab, für welches Modell dein Team mehr Verhaltens-Muskelgedächtnis hat.
Das zeichnet GPT-5.4 aus
Architektur- und Funktionsmerkmale im Überblick.
GPT-5.4 nutzt dieselbe Architektur wie der Rest der GPT-5-Familie: 400K-Token-Kontextfenster, reasoning_effort-Parameter auf vier Stufen (minimal, niedrig, mittel, hoch), Prompt Caching, wobei gecachter Input zu einem Zehntel des Input-Preises berechnet wird, und die Responses API, die codex CLI standardmäßig nutzt. Tool-Use, Structured Outputs und Computer-Use werden unterstützt. Eingaben sind multimodal über Text, Vision und Code.
Technische Daten auf einen Blick
GPT-5.4 Benchmarks
Vom Anbieter gemeldete Werte aus OpenAIs GPT-5-Release-Materialien, mit Deltas gegenüber der vorherigen OpenAI-Generation. Unabhängige Reviews platzieren GPT-5.4 im selben Coding-Qualitätsband wie Claude Sonnet 4.6. Behandle absolute Prozente als richtungsweisend.
GPT-5.4 Preise
Listenpreis des Anbieters, pro 1 Mio. Tokens.
Wie sich GPT-5.4 in der Praxis verhält
Beobachtetes Verhalten aus produktiven Agent-Durchläufen.
Tool-Routing
Solide Basisgenauigkeit über den Standard-Tool-Katalog des Codex-Frameworks. Wo 5.5 vorzieht, sind harte Randfälle (bedingte Tool-Auswahl, tief verschachtelte Argumente) — bei den Routinefällen routet 5.4 korrekt mit deutlich niedrigerer Latenz.
Code-Edits
Vergleichbare Patch-Qualität wie Claude Sonnet 4.6 bei Standard-Refactor- und Bug-Fix-Workloads. Wo 5.5 anfängt zu führen, sind Multi-File-Änderungen, bei denen der Patch im ersten Versuch sauber sitzen muss.
Geschwindigkeit
Deutlich schneller als 5.5 — etwa 110 Tokens/sec bei mittlerem Effort laut Artificial Analysis. Das ist mit ein Grund, warum 5.4 der Standard für interaktive Chat-Antworten und kurze Agent-Schleifen bleibt, in denen nutzerseitige Latenz zählt.
Kosteneffizienz
×1 Credits mit Output-Verhalten im Sonnet-4.6-Qualitätsband. Für Teams, die bereits auf dem Codex-Framework sind, ist dies der Kosten/Qualitäts-Sweet-Spot — promote auf 5.5 nur bei Schritten, die es sichtbar brauchen.
Halluzinationsverhalten
Erbt die Kalibrierungsverbesserungen, die OpenAI mit der GPT-5-Generation ausgeliefert hat. Weniger anfällig für selbstbewusste Falschantworten als die GPT-4-Serie, besonders bei Fragen außerhalb des Trainingshorizonts.
Beste Agent-Aufgaben für GPT-5.4
Der Standard-Agent-Schritt auf dem Codex-Framework
Wenn dein Agent bereits auf codex CLI oder einer beliebigen Codex-Framework-Integration aufgebaut ist, ist GPT-5.4 der natürliche Standard überall. ×1 Credits, schnell genug für interaktive Nutzung, genau genug für die Routine-Tool-Calls, die die meisten Agent-Läufe dominieren.
Der interaktive Chat mit Vision
Screenshot-gesteuerte UIs, Document Q&A, Bildannotation — GPT-5.4 verarbeitet alle drei multimodal in Arbeitstier-Geschwindigkeit. Der ×1-Multiplikator hält die Kosten pro Turn im selben Bereich wie Sonnet 4.6, sodass du beide auf derselben Workload gegeneinander A/B-testen kannst.
Das Kosten/Qualitäts-A/B gegen Claude Sonnet 4.6
Beide Modelle liegen bei ×1 Credits auf VM0 Managed, was sie direkt kostenvergleichbar macht. Lass denselben Agenten eine Woche auf beiden laufen und wähle nach Verhalten auf deiner spezifischen Workload — keines ist universell besser, und der richtige Standard hängt von deinem Tool-Katalog und Prompt-Stil ab.
Wann du GPT-5.4 überspringen solltest
Verzichte auf GPT-5.4 bei den schwersten Reasoning-, Computer-Use- oder Multi-File-Code-Edit-Schritten, bei denen 5.5 spürbar führt, und bei volumenstarker Bulk-Klassifikation oder Pre-Filter-Arbeit, wo 5.4 Mini beim Anbieter viermal günstiger ist.
GPT-5.4 vs andere Modelle
GPT-5.4 vs GPT-5.5
Gleiche Familie, andere Positionierung. 5.5 (×2) gibt dir das stärkste Reasoning, Computer-Use und First-Attempt-Code-Qualität; 5.4 (×1) gibt dir dasselbe Kontextfenster und Feature-Set bei der Hälfte der Credit-Kosten und deutlich höherer Geschwindigkeit. Standardmäßig 5.4; auf 5.5 nur bei Schritten eskalieren, die es sichtbar brauchen.
GPT-5.4 vs Claude Sonnet 4.6
Die zwei ×1-Basislinien, eine in jedem Ökosystem. Sonnet 4.6 läuft auf dem Claude-Code-Framework; GPT-5.4 läuft auf Codex. Wähle nach Framework, auf das deine bestehenden Agenten und Tool-Definitionen zielen. Bei roher Output-Qualität liegen sie nah genug beieinander, dass A/B-Tests auf deiner Workload die richtige Wahl sind.
GPT-5.4 vs GPT-5.4 Mini
Gleiche Familie, andere Positionierung. 5.4 (×1) trägt mehr Reasoning-Qualität pro Token; 5.4 Mini (×0,3) gibt dir eine deutlich günstigere Option für Bulk- und Pre-Filter-Arbeit. Nutze 5.4 Mini für Fan-Out-Klassifikation und 5.4 für die Schritte, die den Agent-Lauf entscheiden.
Fazit: Solltest du GPT-5.4 nutzen?
GPT-5.4 ist der Standard überall für Codex-Framework-Agenten auf VM0. Eskaliere auf 5.5 für hartes Reasoning, falle auf 5.4 Mini für Bulk-Pre-Filtering.
Häufig gestellte Fragen
Was ist das Kontextfenster von GPT-5.4?
400.000 Token, mit bis zu 128K Token Output pro Antwort. Das gesamte Fenster wird zu Standardpreisen berechnet.
Kann GPT-5.4 Bilder verarbeiten?
Ja. GPT-5.4 ist multimodal. Es akzeptiert Bildeingaben neben Text und Code nativ.
Wann GPT-5.4 statt Claude Sonnet 4.6 wählen?
Wenn dein Agent bereits auf dem Codex-Framework gebaut ist oder du das OpenAI-Ökosystem brauchst (Tool-Katalog, Structured Outputs, Responses API). Beide liegen bei ×1 Credits, also sind die Kosten identisch und die Wahl hängt von Framework und Verhalten ab.
Unterstützt GPT-5.4 Prompt Caching?
Ja. Gecachter Input wird mit $0,25 pro 1M Token berechnet — ein 10×-Rabatt auf den gecachten Anteil.
Welches Framework nutzt GPT-5.4 auf VM0?
Codex. VM0 routet alle GPT-5-Modelle über die Responses-API-Oberfläche des Codex-Frameworks.
Alternativen
GPT-5.4 auf VM0 nutzen
Zwei Wege, um GPT-5.4 auf VM0 zu nutzen
VM0 unterstützt GPT-5.4 als Built-in-Modell, das in VM0-Credits abgerechnet wird, sowie über Bring-your-own mit einem OpenAI API key. Der Built-in-Weg nutzt VM0 Managed Routing und den unten erklärten Credit-Multiplikator; der Bring-your-own-Weg rechnet direkt mit dem Upstream-Anbieter ab und überspringt die VM0-Credit-Umrechnung.
VM0s Empfehlung
VM0 positioniert GPT-5.4 als Core-Agent-Modell, empfohlen neben Claude Opus 4.7, Claude Opus 4.6 und Claude Sonnet 4.6 für die Schritte, die das tatsächliche Ergebnis eines Agent-Durchlaufs bestimmen. Das sind die Modelle, die wir für die Orchestrator-Rolle, für code-bearbeitende Agents und für jeden Schritt wählen, bei dem eine falsche Antwort teuer ist.
Credits und der ×1-Multiplikator
Jedes Built-in-Modell auf VM0 wird als Vielfaches von Claude Sonnet 4.6 bepreist, das die ×1-Credit-Basislinie bildet. GPT-5.4 wird mit ×1 Credits abgerechnet. Der Multiplikator erscheint auf deiner VM0-Rechnung; der Anbieter-Listenpreis in der obigen Preistabelle ist das, was der Upstream-Anbieter berechnet, bevor VM0 ihn in Credits umrechnet.
GPT-5.4 bildet die ×1-Basislinie, an der alle anderen Built-in-Modelle gemessen werden — es ist die Einheit, in der du Kosten vergleichst, wenn du auf VM0 zwischen Modellen wählst.
Verfügbar auf VM0 seit April 2026.