GPT-5.5 Instant als neuer ChatGPT-Default – mit deutlich weniger Halluzinationen

OpenAI hat am 5. Mai GPT-5.5 Instant veröffentlicht und das Modell direkt als neuen Standard in ChatGPT scharfgeschaltet. Es ersetzt GPT-5.3 Instant, das parallel noch drei Monate für zahlende Nutzer über die Modellauswahl verfügbar bleibt. Über die API läuft das Modell unter dem Alias chat-latest.

Im Mittelpunkt des Releases stehen drei Themen: Faktentreue, Antwortstil und Personalisierung. Dazu kommt eine doch recht bemerkenswerte Einordnung im Sicherheitsumfeld – es ist das erste Instant-Modell, das OpenAI selbst als „High Capability" in den Bereichen Cybersecurity sowie Biological & Chemical einstuft.

Weniger Halluzinationen, aber mit Hersteller-Sternchen

OpenAI nennt zwei zentrale Kennzahlen aus internen Auswertungen: 52,5 Prozent weniger halluzinierte Aussagen bei „high-stakes"-Prompts aus Medizin, Recht und Finanzen sowie 37,3 Prozent weniger inkorrekte Aussagen in besonders schwierigen Konversationen, die Nutzer in der Vergangenheit als faktisch fehlerhaft markiert hatten. Beides bezogen auf den Vorgänger GPT-5.3 Instant.

Im Blogpost formuliert OpenAI das so:

Instant is now more dependable, with significant improvements in factuality across the board and the largest gains in domains where accuracy matters most.

Wichtige Einschränkung: Das sind ausschließlich OpenAI-eigene Evaluationen, ohne unabhängige Replikation. Wer die Zahl als Marketing-Wert liest und nicht als Naturkonstante, liegt richtig.

Antwortverhalten: kürzer, weniger Emoji-Konfetti

Neben der Faktentreue arbeitet OpenAI an dem, was man höflich „Stil" und unhöflich „die Marotten des Vorgängermodells" nennen könnte. Aus dem Blog:

the model's responses are tighter and more to-the-point without losing substance […] reducing the verbosity and overformatting that can make responses too long. It also asks fewer unnecessary follow-up questions and avoids things that can make responses feel cluttered, like gratuitous emojis.

OpenAI selbst beziffert die Wirkung am Beispiel einer Coworker-Frage: 30,2 Prozent weniger Wörter, 29,2 Prozent weniger Zeilen gegenüber GPT-5.3 Instant. Wer in den letzten Monaten genervt war von ChatGPTs Hang zur Bullet-Point-Orgie samt Emoji-Streusel, dürfte das als Erleichterung verbuchen.

Das Mathe-Beispiel mit dem ehrlichen Beigeschmack

Im Blog präsentiert OpenAI ein Mathematik-Beispiel als Beleg für „smartere" Antworten – und das ist dramaturgisch interessant. GPT-5.5 Instant wird als bessere Lösung verkauft, weil es eine ursprünglich falsche algebraische Umformung fängt und am Ende mit der Quadratformel korrigiert. GPT-5.3 Instant hingegen erkennt zwar denselben Fehler, schlussfolgert dann aber „no real solution" statt noch einmal nachzurechnen.

Was im Originaltext nicht hervorgehoben wird: GPT-5.5 Instant beginnt seine Antwort selbst mit „Yes – this is correct" – also einer falschen Bestätigung – und korrigiert sich erst mitten im Text. Das Modell ist nicht von Anfang an genauer, sondern hat ein besseres Recovery-Verhalten. Eine ehrlichere Überschrift wäre: macht den gleichen Fehler, kommt aber selbständig wieder raus. Was tatsächlich nützlicher ist, aber eben nicht das Gleiche wie „smarter from the start".

Benchmarks: solide Zugewinne, alles intern

Die im Blog und bei TechCrunch sowie The New Stack berichteten Werte zeichnen ein konsistentes Bild im Vergleich zu GPT-5.3 Instant:

AIME 2025 (Mathematik): 81,2 vs. 65,4
MMMU-Pro (multimodales Reasoning): 76,0 vs. 69,2
CharXiv (wissenschaftliche Diagramme): 81,6 vs. 75,0

Hier gilt der gleiche Vorbehalt wie bei den Hallu-Zahlen: herstellereigene Werte, keine unabhängige Drittmessung. Die Größenordnung – insbesondere bei AIME – ist trotzdem nicht zu vernachlässigen.

Memory Sources: Kontextnutzung wird sichtbar(er)

Das aus Datenschutz-Sicht relevanteste Feature ist „Memory Sources". GPT-5.5 Instant kann auf vergangene Chats, hochgeladene Dateien und – sofern verbunden – Gmail zugreifen, um Antworten zu personalisieren. Neu ist, dass Nutzer angezeigt bekommen, welche dieser Quellen tatsächlich in eine personalisierte Antwort eingeflossen sind. Einzelne Einträge lassen sich löschen oder korrigieren.
OpenAI schränkt im Blog selbst ein:

Memory sources are designed to make personalization easier to understand, but they may not show every factor that shaped an answer.

Die Anzeige sei also nicht zwangsläufig vollständig – das System kann Chats referenziert haben, die in den „Sources" nicht auftauchen. Memory Sources rollen über alle ChatGPT-Consumer-Pläne im Web aus, mobil folgt. Die erweiterte Personalisierung aus Chats, Dateien und Gmail ist zunächst Plus- und Pro-Nutzern im Web vorbehalten, der Rest folgt in den nächsten Wochen. Geteilte Chats enthalten die Memory Sources nicht.

Preparedness: Erstes Instant-Modell mit „High Capability"-Stempel

Spannender als die Komfort-Features ist ein Detail aus der System Card: GPT-5.5 Instant ist das erste Instant-Modell, das OpenAI im Rahmen seines Preparedness Frameworks als „High Capability" in zwei kritischen Domänen einstuft – Cybersecurity sowie Biological & Chemical. Im internen Cyber Range erreicht es eine kombinierte Pass-Rate von 76,9 Prozent, ungefähr auf dem Niveau von GPT-5.3 Codex, aber deutlich unter GPT-5.5 Thinking mit 92,3 Prozent.

Praktische Konsequenz: OpenAI hat zusätzliche Safeguards aktiviert – Refusal-Training, automatisierte Monitor-Systeme, die problematische Konversationen unterbrechen, sowie Akteurs- und Sicherheitskontrollen.

Bei einer Disziplin gibt es zudem einen Rückschritt zugegeben: Auf den Jailbreak-Evaluierungen liegt GPT-5.5 Instant unter GPT-5.3 Instant. OpenAI bezeichnet die Ergebnisse offiziell als „directional rather than definitive" und kündigt Nachbesserungen an. Bei den Benchmarks „gore“ und „sexual content“ weist die System Card statistisch signifikante Verschlechterungen aus, die nach OpenAI-Angaben über System-Level-Mitigationen wieder aufgefangen werden.

Was sonst noch dabei ist

Routing: Der Model-Selector in ChatGPT kann automatisch von GPT-5.5 Instant auf GPT-5.5 Thinking wechseln, wenn eine Aufgabe komplexer wird.
HealthBench: Verbesserungen über die Bank, am deutlichsten bei HealthBench Professional (+5,5 Punkte gegenüber GPT-5.3 Instant, längen-adjustiert).
API-Migration: GPT-5.3 Instant bleibt drei Monate als Option, danach Retirement.

Einordnung

Das Update ist ein Inkrement, kein Sprung. Die genannten Verbesserungen folgen dem typischen Muster aktueller LLM-Releases: bessere Basismodelle, gezieltes Tuning auf bekannte Benchmarks, mehr Kontext-Augmentation. Sämtliche Vergleichszahlen stammen von OpenAI selbst – ohne externe Replikation bleibt der „52,5 Prozent weniger Halluzinationen"-Wert vorerst eine Hersteller-Behauptung. Praktisch interessant wird sein, ob sich die Reduktion auch im Alltagsbetrieb bemerkbar macht oder ob sie nur auf den intern definierten Prompt-Sets sichtbar ist.

Bemerkenswert ist die Iterations-Frequenz: GPT-5.3 Instant kam am 3. März, jetzt – exakt zwei Monate später, am 5.5. – schiebt OpenAI GPT-5.5 Instant nach. Das ist ein Tempo, bei dem „Default-Wechsel" für die meisten Nutzer kaum noch ein Ereignis ist, sondern Hintergrundrauschen. Wer sich auf konkretes Modellverhalten verlässt – Stilrichtlinien, Test-Suiten, Prompt-Engineering im Produkt – wird damit dauerhaft im Reaktionsmodus arbeiten.

Quellen: OpenAI Blog, GPT-5.5 Instant System Card, TechCrunch, The New Stack, Axios.