Alle Modelle

GPT-5.5 on VM0. OpenAI's flagship reasoning model

OpenAIs Flaggschiff der GPT-5-Familie. Die stärkste Wahl für agentisches Coding, tiefes Reasoning und Computer-Use-Schleifen in der OpenAI-Klasse.

400K tokens · Text / Vision / Code · Prompt cache

GPT-5.5 ist das Modell, zu dem du greifst, wenn die Arbeit sowohl tiefes Reasoning als auch zuverlässigen Tool-Use braucht: Orchestrierung mehrstufiger Agent-Schleifen, Code-Änderungen, die im ersten Versuch sitzen müssen, und Computer-Use-Workflows über viele GUI-Aktionen. Anbieter-Benchmarks (SWE-bench Verified, AIME 2025, GPQA Diamond) liefern konkrete Zahlen zu den Fortschritten gegenüber GPT-5.4.

Listenpreis des Anbieters ist $5 / $30 pro 1M Tokens mit gecachtem Input zu $0,50 / 1M. Es ist das teuerste Modell im Built-in-Katalog von VM0 mit ×2 Credits, daher besteht das kosteneffiziente Muster darin, GPT-5.4 oder Claude Sonnet 4.6 als Standard überall laufen zu lassen und nur die schwierigsten Schritte an GPT-5.5 zu routen.

Was ist GPT-5.5?

April 2026 (Nachfolger von GPT-5.4) · Spitzenmodell der GPT-5-Familie. OpenAIs Flaggschiff für agentisches Coding und Reasoning.

GPT-5.5 ist das Flaggschiff der GPT-5-Generation von OpenAI, veröffentlicht im April 2026 als empfohlenes Upgrade von GPT-5.4. OpenAI positioniert es als sprunghafte Verbesserung bei agentischem Tool-Use und Computer-Use-Aufgaben statt als oberflächliches API-Refresh. Das mit GPT-5 eingeführte 400K-Token-Kontextfenster und der reasoning_effort-Parameter bleiben unverändert, sodass bestehende Codex-Agenten ohne Umschreibungen übernommen werden können.

Verglichen mit GPT-5.4 (dem Arbeitstier derselben Familie) investiert GPT-5.5 mehr Rechenleistung pro Token in Reasoning. Der Nutzen zeigt sich in drei Bereichen: stärkere First-Attempt-Code-Patches bei Multi-File-Refactorings, deutlich weniger fehlgeleitete Tool-Calls in langen Agent-Schleifen und spürbare Fortschritte bei wissenschaftlichem Reasoning auf Graduiertenniveau (GPQA Diamond) und Wettbewerbsmathematik (AIME 2025). Der Preis dafür ist der höchste Listenpreis unter den GPT-5-Varianten ($5 / $30 pro 1M Tokens) und ein ×2 Credit-Multiplikator auf VM0, weshalb OpenAI selbst GPT-5.5 als Planner- oder Eskalationsebene positioniert statt als Standard überall.

Unabhängige Leaderboards (Artificial Analysis, Vellum) bestätigen die relative Reihenfolge gegenüber GPT-5.4 und platzieren GPT-5.5 bei den meisten agentischen Coding-Aufgaben innerhalb weniger Punkte von Claude Opus 4.7. Absolute Zahlen verschieben sich wöchentlich, und OpenAI selbst hat Trainingsdaten-Kontamination bei SWE-bench Verified über alle Frontier-Modelle hinweg markiert. Behandle die öffentlichen Werte als richtungsweisend statt autoritativ; die strukturellen Verhaltensunterschiede (Tool-Call-Genauigkeit, Computer-Use-Zuverlässigkeit, First-Attempt-Patch-Qualität) sind das verlässlichere Signal.

Das zeichnet GPT-5.5 aus

Architektur- und Funktionsmerkmale im Überblick.

GPT-5.5 behält das 400K-Token-Kontextfenster von GPT-5.4 und berechnet über das gesamte Fenster den Standard-Input-Preis. Es unterstützt den reasoning_effort-Parameter auf vier Stufen (minimal, niedrig, mittel, hoch), Prompt Caching, wobei gecachter Input zu einem Zehntel des Input-Preises berechnet wird, und die Responses API, die codex CLI standardmäßig nutzt. Tool-Use, Structured Outputs und Computer-Use sind gegenüber 5.4 unverändert. Eingaben sind multimodal über Text, Vision und Code; das Modell hat keine native Bildgenerierung (nutze dafür die Images API).

Technische Daten auf einen Blick

FamilieGPT-5 Generation
ModalitätenText, Vision, Code
SprachenEnglisch-zentriert, mehrsprachig
Prompt CachingUnterstützt (OpenAI)
Kontextfenster400K Token
Max OutputBis zu 128K Token
Reasoning EffortMinimal / Niedrig / Mittel / Hoch
Listenpreis$5 Input / $30 Output pro 1M

GPT-5.5 Benchmarks

Vom Anbieter gemeldete Werte aus OpenAIs GPT-5.5-Release-Materialien, mit Deltas gegenüber den öffentlichen GPT-5.4-Zahlen. Unabhängige Reviews platzieren 5.5 bei agentischen Coding-Aufgaben innerhalb weniger Punkte von Claude Opus 4.7. Behandle absolute Prozente als richtungsweisend; OpenAI hat Trainingsdaten-Kontamination bei SWE-bench Verified über alle Frontier-Modelle gemeldet.

SWE-bench Verifiedvendor-reported; up from 5.4's 74.9%
~82%
Terminal-Bench 2.0vendor-reported tool use
~69%
AIME 2025 (no tools)vendor-reported competition math
~96%
GPQA Diamondvendor-reported graduate science
~89%
OSWorld (computer use)vendor-reported
~74%
MMMU (multimodal)vendor-reported
Leads GPT-5 family
SpeedArtificial Analysis, medium effort
~70 tokens/sec

GPT-5.5 Preise

Listenpreis des Anbieters, pro 1 Mio. Tokens.

Input$5.00
Output$30.00
Cache Read$0.50
Cache WriteNicht abgerechnet

Wie sich GPT-5.5 in der Praxis verhält

Beobachtetes Verhalten aus produktiven Agent-Durchläufen.

Tool-Routing

Niedrigste Rate fehlgeleiteter Tool-Calls in der GPT-5-Familie. Der Abstand zu 5.4 wird bei harten Randfällen größer: bedingte Tool-Auswahl, tief verschachtelte Argumente und Tool-Calls nach langen Reasoning-Strecken.

First-Attempt-Code-Edits

Stärkste Patch-Qualität in der GPT-5-Familie. Die richtige Wahl, wenn ein Agent Code ändern muss, der weiter kompilieren und Tests bestehen muss, besonders bei Multi-File-Patches. Vom Anbieter gemeldete SWE-bench-Verified-Werte spiegeln das direkt wider.

Computer Use

Deutlich zuverlässiger als 5.4 bei mehrstufigen GUI-Sequenzen, was das OSWorld-Delta erfasst. Greife danach, wenn der Agent über Dutzende Schritte einen Browser oder eine Desktop-App steuert und ein Mid-Run-Abriss teuer wäre.

Geschwindigkeit

Langsamer als 5.4 und merklich langsamer als 5.4 Mini. Etwa 70 Tokens/sec bei mittlerem Effort laut Artificial Analysis. Reserviere es für Schritte, die die zusätzliche Reasoning-Tiefe wirklich brauchen, und lasse leichtere Stufen parallel laufen.

Halluzinationsverhalten

GPT-5.5 trägt die strengere Kalibrierung der GPT-5-Generation und gibt Unsicherheit eher zu, statt zu konfabulieren. Deshalb zahlen Produktionsteams trotz günstigerer Alternativen wie DeepSeek V4 Pro, die ihn in Benchmarks mittlerweile erreichen, weiter den Aufpreis für High-Stakes-Reasoning.

Beste Agent-Aufgaben für GPT-5.5

Der Orchestrator, der einen Multi-Tool-Plan ausführt

Nutze GPT-5.5 als Planner, der die Anfrage eines Kunden in zehn Schritte zerlegt, jeden Schritt an einen Sub-Agenten der GPT-5.4- oder 5.4-Mini-Klasse delegiert und die Ergebnisse wieder zusammenfügt. 5.5 nur auf der Planner-Ebene laufen zu lassen (und die günstigeren Stufen überall sonst) kostet einen Bruchteil davon, 5.5 durchgängig laufen zu lassen — bei weitgehend gleicher Qualität.

Code-Edits im ersten Versuch, die keinen CI-Lauf verschwenden

Lass GPT-5.5 eine 50-Datei-Codebasis von einem ORM zu einem anderen migrieren, ein verworrenes Modul refactoren oder einen Security-Fix über das Repo anwenden. Der Patch lässt sich öfter im ersten Versuch sauber anwenden als bei jedem anderen Modell der Familie — und genau das wird deine CI-Rechnung widerspiegeln.

Der Computer-Use-Agent, der den Workflow zu Ende bringt

Wenn der Agent einen Browser durch einen mehrstufigen Buchungsflow, eine Desktop-App oder eine Legacy-Admin-UI steuert, übersetzt sich 5.5's stärkerer OSWorld-Wert in weniger Mid-Run-Abrisse und weniger menschliche Übernahmen. Der Aufpreis rechnet sich beim ersten langen Session, die nicht neu gestartet werden muss.

Der harte Mathematik- oder Wissenschafts-Forschungsschritt

Wirf einen Mathematik-Aufgabenkatalog auf Wettbewerbsniveau oder eine Physik-Herleitung auf Graduiertenniveau hinein, und 5.5 arbeitet sie ohne die Off-by-One-Ausrutscher von 5.4 durch. AIME 2025 und GPQA Diamond erfassen genau dieses Verhalten.

Wann du GPT-5.5 überspringen solltest

Verzichte auf GPT-5.5 bei volumenstarker Routine-Arbeit, bei der GPT-5.4 zur halben Credit-Last dieselbe Qualität liefert, bei latenzempfindlichen Chat-Antworten, wo GPT-5.4 Mini deutlich schneller ist, und bei Bulk-Klassifikation oder Extraktionsjobs, wo DeepSeek V4 Flash beim Anbieter ungefähr 35× günstiger ist.

GPT-5.5 vs andere Modelle

GPT-5.5 vs GPT-5.4

GPT-5.4 ist das Arbeitstier-Default in der GPT-5-Familie und die richtige Wahl für die meisten Agenten. Promote auf GPT-5.5 nur, wenn 5.4 sichtbar an hartem Reasoning, langen agentischen Schleifen oder First-Attempt-Code-Edits scheitert, in der Regel als Orchestrator, der nach unten an Sub-Agenten der 5.4- oder 5.4-Mini-Klasse delegiert.

GPT-5.5 vs Claude Opus 4.7

Gleiche Rolle in verschiedenen Familien: der High-Stakes-Orchestrator und das Modell, auf das du eskalierst, wenn die günstigere Stufe versagt. Opus 4.7 hat das 1M-Token-Kontextfenster und Anthropics Sicherheitsprofil; GPT-5.5 hat stärkere Computer-Use-Werte und ist die natürliche Wahl für Teams, die bereits auf dem Codex-Framework sind. Wähle nach Framework und Ökosystem, auf das deine bestehenden Agenten zielen.

GPT-5.5 vs Gemini 3 Pro

Gemini 3 Pro führt bei reinem Long-Context-Reasoning (2M-Token-Fenster) und bei einigen multimodalen Benchmarks. GPT-5.5 führt bei agentischem Coding (SWE-bench Verified, Terminal-Bench) und Computer Use. Wähle GPT-5.5, wenn der Agent Code editiert oder eine UI steuert; wähle Gemini 3 Pro, wenn die Last auf Dokumenten- oder Video-Verständnis liegt.

Fazit: Solltest du GPT-5.5 nutzen?

GPT-5.5 ist die Eskalationsebene auf der OpenAI-Seite. Standardmäßig GPT-5.4; auf 5.5 nur bei den spezifischen Schritten promoten, an denen 5.4 sichtbar scheitert.

Häufig gestellte Fragen

Was ist das Kontextfenster von GPT-5.5?

400.000 Token, mit bis zu 128K Token Output pro Antwort. Das gesamte Fenster wird zu Standardpreisen berechnet.

Kann GPT-5.5 Bilder verarbeiten?

Ja. GPT-5.5 ist multimodal. Es akzeptiert Bildeingaben neben Text und Code, sodass Screenshot- und Document-Vision-Agenten nativ funktionieren. Für Bildgenerierung die OpenAI Images API nutzen.

Wann GPT-5.5 statt GPT-5.4 wählen?

Wenn (a) der Agent Planner / Orchestrator ist und Entscheidungen kaskadieren, (b) der Lauf lang genug ist, dass 5.4 anfängt, Tool-Calls fehlzuleiten, oder (c) die Ausgabe im ersten Versuch sauber anwendbar sein muss (Code-Edits, strukturierte Payloads, Computer-Use-Workflows).

Unterstützt GPT-5.5 Prompt Caching?

Ja. Gecachter Input wird mit $0,50 pro 1M Token berechnet — ein 10×-Rabatt auf den gecachten Anteil. Lohnt sich, wenn dein System-Prompt oder Tool-Schema über Calls hinweg stabil ist.

Welches Framework nutzt GPT-5.5 auf VM0?

Codex. VM0 routet GPT-5.5 über die Responses-API-Oberfläche des Codex-Frameworks, die codex CLI standardmäßig nutzt. Agenten des Claude-Code-Frameworks sind auf VM0 nicht mit GPT-5-Modellen kompatibel.

Alternativen

GPT-5.5 auf VM0 nutzen

Zwei Wege, um GPT-5.5 auf VM0 zu nutzen

VM0 unterstützt GPT-5.5 als Built-in-Modell, das in VM0-Credits abgerechnet wird, sowie über Bring-your-own mit einem OpenAI API key. Der Built-in-Weg nutzt VM0 Managed Routing und den unten erklärten Credit-Multiplikator; der Bring-your-own-Weg rechnet direkt mit dem Upstream-Anbieter ab und überspringt die VM0-Credit-Umrechnung.

VM0s Empfehlung

VM0 positioniert GPT-5.5 als Core-Agent-Modell, empfohlen neben Claude Opus 4.7, Claude Opus 4.6 und Claude Sonnet 4.6 für die Schritte, die das tatsächliche Ergebnis eines Agent-Durchlaufs bestimmen. Das sind die Modelle, die wir für die Orchestrator-Rolle, für code-bearbeitende Agents und für jeden Schritt wählen, bei dem eine falsche Antwort teuer ist.

Credits und der ×2-Multiplikator

Jedes Built-in-Modell auf VM0 wird als Vielfaches von Claude Sonnet 4.6 bepreist, das die ×1-Credit-Basislinie bildet. GPT-5.5 wird mit ×2 Credits abgerechnet. Der Multiplikator erscheint auf deiner VM0-Rechnung; der Anbieter-Listenpreis in der obigen Preistabelle ist das, was der Upstream-Anbieter berechnet, bevor VM0 ihn in Credits umrechnet.

GPT-5.5 wird mit ×2 abgerechnet, d.h. ein Schritt kostet hier das 2-fache der Credits eines äquivalenten Schritts mit Sonnet 4.6 (der ×1-Basislinie). Es ist eine Premium-Stufe auf VM0, daher ist das kosteneffiziente Muster: Standardmäßig ein günstigeres Modell nutzen und nur die Schritte an GPT-5.5 weiterleiten, die wirklich die zusätzliche Reasoning-Tiefe benötigen.

Verfügbar auf VM0 seit April 2026.