Alle Modelle

GPT-5.4 on VM0. The OpenAI workhorse

OpenAIs Arbeitstier der GPT-5-Familie. Sitzt auf der ×1 Credit-Basislinie neben Claude Sonnet 4.6 und ist der richtige Standard für die meisten Codex-Framework-Agenten.

400K tokens · Text / Vision / Code · Prompt cache

GPT-5.4 ist das Arbeitstier der GPT-5-Familie von OpenAI — das Modell, das du standardmäßig überall laufen lässt. Vom Anbieter gemeldete SWE-bench Verified bei 74,9% platziert es beim Coding im selben Bereich wie Claude Sonnet 4.6, und seine Tool-Use-Genauigkeit ist das, worauf die meisten produktiven Codex-Framework-Agenten getunt sind.

Listenpreis des Anbieters ist $2,5 / $15 pro 1M Tokens mit gecachtem Input zu $0,25 / 1M. Es liegt bei ×1 Credits auf VM0 Managed — dieselbe Basislinie wie Claude Sonnet 4.6 — was es zur natürlichen Wahl macht, wenn dein Agent bereits auf dem Codex-Framework läuft und du einen ausgewogenen Kosten/Qualitäts-Default willst.

Was ist GPT-5.4?

April 2026 · Arbeitstier der GPT-5-Familie. Der empfohlene Standard für die meisten Codex-Framework-Agenten.

GPT-5.4 ist das Arbeitstier der GPT-5-Generation von OpenAI, veröffentlicht im April 2026 neben dem Flaggschiff GPT-5.5 und dem kostenoptimierten GPT-5.4 Mini. OpenAI positioniert es als Standard überall für Agenten auf dem Codex-Framework — das Modell, das du auf jedem Schritt laufen lässt, sofern ein spezifischer Schritt keine Eskalation auf 5.5 rechtfertigt.

Architektonisch teilt GPT-5.4 das 400K-Token-Kontextfenster, den reasoning_effort-Parameter, Prompt Caching und die Responses-API-Oberfläche mit dem Rest der GPT-5-Familie. Der Unterschied zu GPT-5.5 ist die Rechen-Investition pro Token: 5.4 läuft schneller und günstiger, 5.5 investiert mehr in Reasoning-Tiefe. Der Unterschied zu GPT-5.4 Mini ist umgekehrt — 5.4 trägt mehr Qualität für die Schritte, die tatsächlich den Agent-Lauf entscheiden.

Auf VM0 liegt es beim ×1 Credit-Multiplikator, derselben Basislinie wie Claude Sonnet 4.6, was Side-by-Side-Kostenvergleiche zwischen Anthropic- und OpenAI-Defaults trivial macht. Die Wahl zwischen beiden hängt meist vom Framework (Codex vs. Claude Code), Ökosystem (bestehende Integrationen, Tool-Definitionen) und davon ab, für welches Modell dein Team mehr Verhaltens-Muskelgedächtnis hat.

Das zeichnet GPT-5.4 aus

Architektur- und Funktionsmerkmale im Überblick.

GPT-5.4 nutzt dieselbe Architektur wie der Rest der GPT-5-Familie: 400K-Token-Kontextfenster, reasoning_effort-Parameter auf vier Stufen (minimal, niedrig, mittel, hoch), Prompt Caching, wobei gecachter Input zu einem Zehntel des Input-Preises berechnet wird, und die Responses API, die codex CLI standardmäßig nutzt. Tool-Use, Structured Outputs und Computer-Use werden unterstützt. Eingaben sind multimodal über Text, Vision und Code.

Technische Daten auf einen Blick

FamilieGPT-5 Generation
ModalitätenText, Vision, Code
SprachenEnglisch-zentriert, mehrsprachig
Prompt CachingUnterstützt (OpenAI)
Kontextfenster400K Token
Max OutputBis zu 128K Token
Reasoning EffortMinimal / Niedrig / Mittel / Hoch
Listenpreis$2,5 Input / $15 Output pro 1M

GPT-5.4 Benchmarks

Vom Anbieter gemeldete Werte aus OpenAIs GPT-5-Release-Materialien, mit Deltas gegenüber der vorherigen OpenAI-Generation. Unabhängige Reviews platzieren GPT-5.4 im selben Coding-Qualitätsband wie Claude Sonnet 4.6. Behandle absolute Prozente als richtungsweisend.

SWE-bench Verifiedvendor-reported
74.9%
Terminal-Bench 2.0vendor-reported tool use
~58%
AIME 2025 (no tools)vendor-reported competition math
~92%
GPQA Diamondvendor-reported graduate science
~85%
OSWorld (computer use)vendor-reported
~62%
SpeedArtificial Analysis, medium effort
~110 tokens/sec

GPT-5.4 Preise

Listenpreis des Anbieters, pro 1 Mio. Tokens.

Input$2.50
Output$15.00
Cache Read$0.25
Cache WriteNicht abgerechnet

Wie sich GPT-5.4 in der Praxis verhält

Beobachtetes Verhalten aus produktiven Agent-Durchläufen.

Tool-Routing

Solide Basisgenauigkeit über den Standard-Tool-Katalog des Codex-Frameworks. Wo 5.5 vorzieht, sind harte Randfälle (bedingte Tool-Auswahl, tief verschachtelte Argumente) — bei den Routinefällen routet 5.4 korrekt mit deutlich niedrigerer Latenz.

Code-Edits

Vergleichbare Patch-Qualität wie Claude Sonnet 4.6 bei Standard-Refactor- und Bug-Fix-Workloads. Wo 5.5 anfängt zu führen, sind Multi-File-Änderungen, bei denen der Patch im ersten Versuch sauber sitzen muss.

Geschwindigkeit

Deutlich schneller als 5.5 — etwa 110 Tokens/sec bei mittlerem Effort laut Artificial Analysis. Das ist mit ein Grund, warum 5.4 der Standard für interaktive Chat-Antworten und kurze Agent-Schleifen bleibt, in denen nutzerseitige Latenz zählt.

Kosteneffizienz

×1 Credits mit Output-Verhalten im Sonnet-4.6-Qualitätsband. Für Teams, die bereits auf dem Codex-Framework sind, ist dies der Kosten/Qualitäts-Sweet-Spot — promote auf 5.5 nur bei Schritten, die es sichtbar brauchen.

Halluzinationsverhalten

Erbt die Kalibrierungsverbesserungen, die OpenAI mit der GPT-5-Generation ausgeliefert hat. Weniger anfällig für selbstbewusste Falschantworten als die GPT-4-Serie, besonders bei Fragen außerhalb des Trainingshorizonts.

Beste Agent-Aufgaben für GPT-5.4

Der Standard-Agent-Schritt auf dem Codex-Framework

Wenn dein Agent bereits auf codex CLI oder einer beliebigen Codex-Framework-Integration aufgebaut ist, ist GPT-5.4 der natürliche Standard überall. ×1 Credits, schnell genug für interaktive Nutzung, genau genug für die Routine-Tool-Calls, die die meisten Agent-Läufe dominieren.

Der interaktive Chat mit Vision

Screenshot-gesteuerte UIs, Document Q&A, Bildannotation — GPT-5.4 verarbeitet alle drei multimodal in Arbeitstier-Geschwindigkeit. Der ×1-Multiplikator hält die Kosten pro Turn im selben Bereich wie Sonnet 4.6, sodass du beide auf derselben Workload gegeneinander A/B-testen kannst.

Das Kosten/Qualitäts-A/B gegen Claude Sonnet 4.6

Beide Modelle liegen bei ×1 Credits auf VM0 Managed, was sie direkt kostenvergleichbar macht. Lass denselben Agenten eine Woche auf beiden laufen und wähle nach Verhalten auf deiner spezifischen Workload — keines ist universell besser, und der richtige Standard hängt von deinem Tool-Katalog und Prompt-Stil ab.

Wann du GPT-5.4 überspringen solltest

Verzichte auf GPT-5.4 bei den schwersten Reasoning-, Computer-Use- oder Multi-File-Code-Edit-Schritten, bei denen 5.5 spürbar führt, und bei volumenstarker Bulk-Klassifikation oder Pre-Filter-Arbeit, wo 5.4 Mini beim Anbieter viermal günstiger ist.

GPT-5.4 vs andere Modelle

GPT-5.4 vs GPT-5.5

Gleiche Familie, andere Positionierung. 5.5 (×2) gibt dir das stärkste Reasoning, Computer-Use und First-Attempt-Code-Qualität; 5.4 (×1) gibt dir dasselbe Kontextfenster und Feature-Set bei der Hälfte der Credit-Kosten und deutlich höherer Geschwindigkeit. Standardmäßig 5.4; auf 5.5 nur bei Schritten eskalieren, die es sichtbar brauchen.

GPT-5.4 vs Claude Sonnet 4.6

Die zwei ×1-Basislinien, eine in jedem Ökosystem. Sonnet 4.6 läuft auf dem Claude-Code-Framework; GPT-5.4 läuft auf Codex. Wähle nach Framework, auf das deine bestehenden Agenten und Tool-Definitionen zielen. Bei roher Output-Qualität liegen sie nah genug beieinander, dass A/B-Tests auf deiner Workload die richtige Wahl sind.

GPT-5.4 vs GPT-5.4 Mini

Gleiche Familie, andere Positionierung. 5.4 (×1) trägt mehr Reasoning-Qualität pro Token; 5.4 Mini (×0,3) gibt dir eine deutlich günstigere Option für Bulk- und Pre-Filter-Arbeit. Nutze 5.4 Mini für Fan-Out-Klassifikation und 5.4 für die Schritte, die den Agent-Lauf entscheiden.

Fazit: Solltest du GPT-5.4 nutzen?

GPT-5.4 ist der Standard überall für Codex-Framework-Agenten auf VM0. Eskaliere auf 5.5 für hartes Reasoning, falle auf 5.4 Mini für Bulk-Pre-Filtering.

Häufig gestellte Fragen

Was ist das Kontextfenster von GPT-5.4?

400.000 Token, mit bis zu 128K Token Output pro Antwort. Das gesamte Fenster wird zu Standardpreisen berechnet.

Kann GPT-5.4 Bilder verarbeiten?

Ja. GPT-5.4 ist multimodal. Es akzeptiert Bildeingaben neben Text und Code nativ.

Wann GPT-5.4 statt Claude Sonnet 4.6 wählen?

Wenn dein Agent bereits auf dem Codex-Framework gebaut ist oder du das OpenAI-Ökosystem brauchst (Tool-Katalog, Structured Outputs, Responses API). Beide liegen bei ×1 Credits, also sind die Kosten identisch und die Wahl hängt von Framework und Verhalten ab.

Unterstützt GPT-5.4 Prompt Caching?

Ja. Gecachter Input wird mit $0,25 pro 1M Token berechnet — ein 10×-Rabatt auf den gecachten Anteil.

Welches Framework nutzt GPT-5.4 auf VM0?

Codex. VM0 routet alle GPT-5-Modelle über die Responses-API-Oberfläche des Codex-Frameworks.

Alternativen

GPT-5.4 auf VM0 nutzen

Zwei Wege, um GPT-5.4 auf VM0 zu nutzen

VM0 unterstützt GPT-5.4 als Built-in-Modell, das in VM0-Credits abgerechnet wird, sowie über Bring-your-own mit einem OpenAI API key. Der Built-in-Weg nutzt VM0 Managed Routing und den unten erklärten Credit-Multiplikator; der Bring-your-own-Weg rechnet direkt mit dem Upstream-Anbieter ab und überspringt die VM0-Credit-Umrechnung.

VM0s Empfehlung

VM0 positioniert GPT-5.4 als Core-Agent-Modell, empfohlen neben Claude Opus 4.7, Claude Opus 4.6 und Claude Sonnet 4.6 für die Schritte, die das tatsächliche Ergebnis eines Agent-Durchlaufs bestimmen. Das sind die Modelle, die wir für die Orchestrator-Rolle, für code-bearbeitende Agents und für jeden Schritt wählen, bei dem eine falsche Antwort teuer ist.

Credits und der ×1-Multiplikator

Jedes Built-in-Modell auf VM0 wird als Vielfaches von Claude Sonnet 4.6 bepreist, das die ×1-Credit-Basislinie bildet. GPT-5.4 wird mit ×1 Credits abgerechnet. Der Multiplikator erscheint auf deiner VM0-Rechnung; der Anbieter-Listenpreis in der obigen Preistabelle ist das, was der Upstream-Anbieter berechnet, bevor VM0 ihn in Credits umrechnet.

GPT-5.4 bildet die ×1-Basislinie, an der alle anderen Built-in-Modelle gemessen werden — es ist die Einheit, in der du Kosten vergleichst, wenn du auf VM0 zwischen Modellen wählst.

Verfügbar auf VM0 seit April 2026.