Alle Modelle

GPT-5.4 Mini on VM0. The cost-saving GPT-5

OpenAIs kostenoptimiertes Mitglied der GPT-5-Familie. ×0,3 Credits, multimodale Vision und schnell genug für volumenstarkes Routing, Klassifikation und Pre-Filter-Arbeit.

400K tokens · Text / Vision / Code · Prompt cache

GPT-5.4 Mini ist das kostensparende Mitglied der GPT-5-Familie von OpenAI — das Modell, zu dem du greifst, wenn Stückkosten mehr zählen als Spitzen-Reasoning-Qualität. Es behält das 400K-Kontextfenster und die multimodalen Eingaben der Familie, kürzt aber Compute pro Token, was sich in niedrigerem Preis ($0,75 / $4,5 pro 1M) und merklich höherer Geschwindigkeit niederschlägt.

Auf VM0 liegt es bei ×0,3 Credits, demselben Multiplikator wie Claude Haiku 4.5 und Kimi K2.6, was es zur natürlichen OpenAI-seitigen Wahl für Bulk-Klassifikation, Fan-Out-Routing, Pre-Filter und jeden Agent-Schritt macht, bei dem das Drücken auf ein Drittel der GPT-5.4-Kosten der entscheidende Faktor ist.

Was ist GPT-5.4 Mini?

April 2026 · Kostensparende Variante der GPT-5-Familie. Das OpenAI-seitige Pendant zu Claude Haiku 4.5.

GPT-5.4 Mini ist das kostenoptimierte Mitglied der GPT-5-Generation von OpenAI, veröffentlicht im April 2026 neben GPT-5.5 und GPT-5.4. OpenAI positioniert es als Hochdurchsatz-Stufe — das Modell, das du auf Klassifikations-, Routing- und Pre-Filter-Schritten laufen lässt, wo das größere 5.4 oder 5.5 für Routine-Entscheidungen verschwendet wäre.

Architektonisch teilt es das 400K-Token-Kontextfenster der GPT-5-Familie, den reasoning_effort-Parameter, Prompt Caching und die Responses-API-Oberfläche, die codex CLI standardmäßig nutzt. Der Trade-off gegenüber 5.4 ist Reasoning-Tiefe: Mini handhabt Standard-Tool-Calls, kurze Zusammenfassungen und Structured-Output-Workloads gut, fängt aber bei den schwereren mehrstufigen Plänen an zu driften, wo 5.4 noch hält. Der Trade-off gegenüber Konkurrenten im selben Preispunkt ist Ökosystem — wenn du bereits auf Codex bist, hält das Bleiben in der OpenAI-Oberfläche Tool-Definitionen und Structured-Output-Schemas konsistent.

Auf VM0 liegt Mini beim ×0,3 Credit-Multiplikator, gleich wie Claude Haiku 4.5, Kimi K2.6 und DeepSeek V4 Pro. Innerhalb der kostensparenden Stufe hängt die Wahl meist von Framework und Verhaltens-Fit auf deiner spezifischen Workload ab.

Das zeichnet GPT-5.4 Mini aus

Architektur- und Funktionsmerkmale im Überblick.

GPT-5.4 Mini nutzt dieselbe Architektur wie der Rest der GPT-5-Familie: 400K-Token-Kontextfenster, reasoning_effort-Parameter auf vier Stufen, Prompt Caching, wobei gecachter Input zu einem Zehntel des Input-Preises berechnet wird, und die Responses-API-Oberfläche. Tool-Use, Structured Outputs und multimodale Vision-Eingaben werden unterstützt. Das Modell ist ein kleinerer, schnellerer Verwandter — weniger Parameter pro Token, mehr Durchsatz pro Dollar.

Technische Daten auf einen Blick

FamilieGPT-5 Generation
ModalitätenText, Vision, Code
SprachenEnglisch-zentriert, mehrsprachig
Prompt CachingUnterstützt (OpenAI)
Kontextfenster400K Token
Max OutputBis zu 128K Token
Reasoning EffortMinimal / Niedrig / Mittel / Hoch
Listenpreis$0,75 Input / $4,5 Output pro 1M

GPT-5.4 Mini Benchmarks

Vom Anbieter gemeldete Werte aus OpenAIs GPT-5 Mini Release-Materialien. Unabhängige Reviews platzieren 5.4 Mini bei den meisten Agent-Benchmarks im selben kostensparenden Band wie Claude Haiku 4.5. Behandle absolute Prozente als richtungsweisend.

SWE-bench Verifiedvendor-reported
~60%
Terminal-Bench 2.0vendor-reported tool use
~42%
AIME 2025 (no tools)vendor-reported competition math
~84%
GPQA Diamondvendor-reported graduate science
~74%
SpeedArtificial Analysis, medium effort
~165 tokens/sec

GPT-5.4 Mini Preise

Listenpreis des Anbieters, pro 1 Mio. Tokens.

Input$0.75
Output$4.50
Cache Read$0.07
Cache WriteNicht abgerechnet

Wie sich GPT-5.4 Mini in der Praxis verhält

Beobachtetes Verhalten aus produktiven Agent-Durchläufen.

Geschwindigkeit

Schnellstes Modell der GPT-5-Familie — etwa 165 Tokens/sec bei mittlerem Effort laut Artificial Analysis. Diese Eigenschaft macht es für interaktive Chat-Antworten und kurze Fan-Out-Tool-Calls tragfähig, wo nutzerseitige Latenz dominiert.

Routine-Tool-Calls

Genau auf dem Standard-Tool-Katalog des Codex-Frameworks. Wo 5.4 vorzieht, sind harte Randfälle (bedingte Tool-Auswahl, tief verschachtelte Argumente) — bei den Routinefällen handhabt Mini das Tool-Routing sauber zu einem Drittel der Kosten.

Bulk-Klassifikation & Pre-Filter

Stärkste Kosten/Qualitäts-Position in der GPT-5-Familie für Fan-Out-Arbeit. Bulk-PR-Triage, Support-Ticket-Kategorisierung, Dokumenten-Stufen-Klassifikation — all die Workloads, für die du zuvor handgerollte Regex genutzt hättest, sind jetzt als echter Modellaufruf bezahlbar.

Kosteneffizienz

×0,3 Credits inklusive multimodaler Vision. Bei diesem Preispunkt liegen Mini, Claude Haiku 4.5 und Kimi K2.6 im selben Band — die Wahl kommt meist auf Framework-Fit und Verhalten auf deiner spezifischen Workload an.

Wann eskalieren

Mini driftet bei langen mehrstufigen Plänen, hartem Reasoning und First-Attempt-Multi-File-Code-Edits. Baue den Agenten so, dass der Orchestrator entscheidet, wann auf 5.4 oder 5.5 eskaliert wird, nicht so, dass Mini versucht, die ganze Schleife zu tragen.

Beste Agent-Aufgaben für GPT-5.4 Mini

Der Fan-Out-Klassifizierer, der auf jedem Event läuft

Eingehendes Support-Ticket, PR-Kommentar, Sales-Call-Transkript, Document-Upload — Mini liest jedes und routet es an den richtigen Downstream-Agenten oder menschlichen Reviewer. ×0,3 Credits und 165 Tokens/sec bedeuten, dass die Kosten pro Event klein genug sind, um ihn auf jedem Event laufen zu lassen (nicht nur auf gesampelten Batches).

Der Pre-Filter-Schritt vor dem teuren Modell

Setze Mini oben in den Tool-Call des Agenten, sodass er entscheidet, ob die Anfrage überhaupt eskalieren muss. Die meisten Anfragen bekommen eine schnelle günstige Antwort; nur die verbleibende Minderheit zahlt die volle GPT-5.4- oder 5.5-Kosten. Hier verändert das Stapeln von kostensparenden und Kern-Stufen tatsächlich, was bezahlbar ist.

Die interaktive Chat-Antwort

Kurze multimodale Turns, bei denen nutzerseitige Latenz das Erlebnis dominiert. Mini antwortet schnell genug, dass Streaming sofort wirkt, und multimodale Unterstützung bedeutet, dass ein Screenshot im Gespräch einfach funktioniert.

Wann du GPT-5.4 Mini überspringen solltest

Verzichte auf GPT-5.4 Mini bei den schwersten Reasoning-, mehrstufiger Agent-Orchestrierung, Computer-Use-Sequenzen und First-Attempt-Multi-File-Code-Edits — eskaliere auf 5.4 für Routine-Versionen dieser Aufgaben und 5.5 für die schwersten.

GPT-5.4 Mini vs andere Modelle

GPT-5.4 Mini vs GPT-5.4

Gleiche Familie, andere Positionierung. 5.4 Mini (×0,3) gewinnt bei Kosten und Geschwindigkeit; 5.4 (×1) gewinnt bei Reasoning-Qualität und Tool-Routing-Genauigkeit in harten Fällen. Das Standardmuster: mit Mini vorfiltern und verbleibende Fälle auf 5.4 eskalieren.

GPT-5.4 Mini vs Claude Haiku 4.5

Gleicher Multiplikator (×0,3). Mini läuft auf dem Codex-Framework; Haiku 4.5 läuft auf Claude Code. Beide sind multimodal und zielen auf denselben kostensparenden Slot. Wähle nach Framework, auf das deine bestehenden Agenten und Tool-Definitionen zielen.

GPT-5.4 Mini vs DeepSeek V4 Flash

DeepSeek V4 Flash (×0,02) ist beim Anbieter dramatisch günstiger und die richtige Wahl für reine Bulk-Single-Shot-Arbeit. GPT-5.4 Mini (×0,3) trägt mehr Reasoning-Qualität und bleibt im OpenAI-Ökosystem, was zählt, wenn deine Tool-Definitionen und Structured-Output-Schemas bereits auf Codex getunt sind.

Fazit: Solltest du GPT-5.4 Mini nutzen?

GPT-5.4 Mini ist der kostensparende Standard auf der OpenAI-Seite. Vorfiltern mit Mini, eskalieren auf GPT-5.4 für Routine-Schritte, eskalieren auf GPT-5.5 nur für das schwerste Reasoning.

Häufig gestellte Fragen

Was ist das Kontextfenster von GPT-5.4 Mini?

400.000 Token, mit bis zu 128K Token Output pro Antwort — gleich wie der Rest der GPT-5-Familie.

Kann GPT-5.4 Mini Bilder verarbeiten?

Ja. Wie der Rest der GPT-5-Familie akzeptiert es Bildeingaben neben Text und Code.

Wann GPT-5.4 Mini statt Claude Haiku 4.5 wählen?

Wenn dein Agent bereits auf dem Codex-Framework gebaut ist oder du das OpenAI Structured-Output- / Tool-Call-Ökosystem brauchst. Beide liegen bei ×0,3 Credits, also sind die Kosten identisch und die Wahl hängt von Framework und Verhalten ab.

Unterstützt GPT-5.4 Mini Prompt Caching?

Ja. Gecachter Input wird mit $0,075 pro 1M Token berechnet — ein 10×-Rabatt auf den gecachten Anteil.

Welches Framework nutzt GPT-5.4 Mini auf VM0?

Codex. VM0 routet alle GPT-5-Modelle über die Responses-API-Oberfläche des Codex-Frameworks.

Alternativen

GPT-5.4 Mini auf VM0 nutzen

Zwei Wege, um GPT-5.4 Mini auf VM0 zu nutzen

VM0 unterstützt GPT-5.4 Mini als Built-in-Modell, das in VM0-Credits abgerechnet wird, sowie über Bring-your-own mit einem OpenAI API key. Der Built-in-Weg nutzt VM0 Managed Routing und den unten erklärten Credit-Multiplikator; der Bring-your-own-Weg rechnet direkt mit dem Upstream-Anbieter ab und überspringt die VM0-Credit-Umrechnung.

VM0s Empfehlung

VM0 positioniert GPT-5.4 Mini als kostensparende Option statt als Core-Agent-Modell. Nutze es zur Optimierung der Stückkosten bei Nicht-Kernarbeit wie Massenklassifikation, Vorfiltern, latenzkritischen Kurzantworten oder fest zugewiesenen Legacy-Agents, während Claude Opus 4.7, Claude Opus 4.6 oder Claude Sonnet 4.6 die entscheidenden Schritte übernehmen.

Credits und der ×0.3-Multiplikator

Jedes Built-in-Modell auf VM0 wird als Vielfaches von Claude Sonnet 4.6 bepreist, das die ×1-Credit-Basislinie bildet. GPT-5.4 Mini wird mit ×0.3 Credits abgerechnet. Der Multiplikator erscheint auf deiner VM0-Rechnung; der Anbieter-Listenpreis in der obigen Preistabelle ist das, was der Upstream-Anbieter berechnet, bevor VM0 ihn in Credits umrechnet.

GPT-5.4 Mini wird mit ×0.3 abgerechnet, d.h. ein Schritt kostet hier nur das 0.3-fache der Credits eines äquivalenten Schritts mit Sonnet 4.6 (der ×1-Basislinie). Damit liegt es deutlich unter der Credit-Basislinie und ist die natürliche Wahl für volumenstarke Hintergrundarbeit, bei der Kosten pro Schritt wichtiger sind als höchste Reasoning-Qualität.

Verfügbar auf VM0 seit April 2026.