Claude Sonnet 5: agentischer, billiger

Claude Code hat heute Abend an meinem Ghost-Theme weitergewerkelt, und ich hätte den Modellwechsel fast verschlafen. Erst eine Zeile im Terminal hat mich darauf gestoßen, dass da seit ein paar Minuten ein anderes Modell die Tasten führt. Claude Sonnet 5, von Anthropic heute, am 30. Juni, veröffentlicht – als das bislang agentischste Modell der Sonnet-Reihe.

Gut 30 Minuten nach Launch habe ich noch kein belastbares Urteil über die Qualität. Was ich habe, ist die Pressemitteilung – und die lohnt einen zweiten Blick, bevor man die Zahlen für bare Münze nimmt.

TL;DR

Anthropic hat Claude Sonnet 5 veröffentlicht – das bislang agentischste Sonnet, ab sofort Standardmodell für Free und Pro.

Bei „Humanity’s Last Exam“ (mit Tools) und GDPval-AA v2 liegt Sonnet 5 praktisch auf Opus-4.8-Niveau, beim harten Coding bleibt Opus vorn.
Einführungspreis: 2 / 10 US-Dollar pro Million Token (In/Out) bis 31. August, danach 3 / 15.
Haken: Der neue Tokenizer mappt denselben Input auf bis zu das 1,35-Fache an Token – gegenüber dem Vorgänger Sonnet 4.6, nicht gegenüber Opus. Anthropic nennt den Umstieg „ungefähr kostenneutral“ – aber nur bis 31. August.
Alle Leistungszahlen sind herstellereigen, eine unabhängige Drittmessung gibt es noch nicht.

Was Anthropic da rausgehauen hat

Der Pitch ist schnell erzählt. Sonnet 5 soll planen, Tools wie Browser und Terminal bedienen und länger autonom durcharbeiten, als es bei einem Sonnet bisher drin war. Anthropic verkauft das als Annäherung an die teurere Opus-Klasse – die Leistung liege nah an Opus 4.8, der Preis aber deutlich darunter.

Verfügbar ist das Modell ab sofort über alle Pläne. Für Free und Pro ist es das neue Standardmodell, Max-, Team- und Enterprise-Nutzer bekommen es ebenfalls. In Claude Code und über die Claude-Plattform läuft es unter dem API-Namen claude-sonnet-5. Die Rate-Limits hat Anthropic über Chat, Cowork, Claude Code und Plattform angehoben, weil höhere Effort-Level mehr Token fressen.

Der Preis sieht nach Rabatt aus – bis du das Sternchen liest

Hier wird es interessant. Zum Start kostet Sonnet 5 2 US-Dollar pro Million Input-Token und 10 US-Dollar pro Million Output-Token, und zwar bis zum 31. August. Danach geht es auf 3 beziehungsweise 15 US-Dollar hoch. Zum Vergleich: Opus 4.8 liegt bei 5 und 25 US-Dollar. Auf dem Papier ein hübscher Abstand nach unten – und der bleibt auch echt, dazu gleich. Das Sternchen steht nämlich woanders.

Es steht in Fußnote zwei: Sonnet 5 bringt einen neuen Tokenizer mit, wie schon Opus 4.7, und derselbe Input mappt jetzt auf mehr Token – je nach Inhalt das 1,0- bis 1,35-Fache. Anthropic schreibt selbst, der Einführungspreis sei so gesetzt, dass der Umstieg ungefähr kostenneutral ausfällt. Übersetzt heißt das: Wer sein bisheriges Sonnet 4.6-Budget auf Sonnet 5 hochrechnet und die Token-Zahl konstant lässt, verkalkuliert sich – nicht gegen Opus, sondern gegen sein eigenes Vorher.

Rechnen wir es mal durch: derselbe Text, Input-Seite, im ungünstigsten Fall 1,35× so viele Token. Zum Einführungspreis von 2 US-Dollar landest du bei rund 2,70 statt der 3 US-Dollar auf Sonnet 4.6 – eine Spur günstiger, daher das „kostenneutral“. Ab dem 1. September steht der Zähler bei 3 US-Dollar mal 1,35, macht gut 4 US-Dollar für exakt denselben Input. Bis zu 35 Prozent über dem, was Sonnet 4.6 vorher gekostet hat.

Benchmarks: die Lücke schrumpft

Jetzt mit Zahlen. Anthropic stellt Sonnet 5 gegen den Vorgänger Sonnet 4.6 und das teurere Opus 4.8:

Benchmark	Sonnet 5	Sonnet 4.6	Opus 4.8
SWE-bench Pro (Coding)	63,2 %	58,1 %	69,2 %
Terminal-Bench 2.1 (Coding)	80,4 %	67,0 %	82,7 %
Humanity’s Last Exam, ohne Tools	43,2 %	34,6 %	49,8 %
Humanity’s Last Exam, mit Tools	57,4 %	46,8 %	57,9 %
OSWorld-Verified (Computer-Use)	81,2 %	78,5 %	83,4 %
GDPval-AA v2 (Knowledge Work, Score)	1.618	1.395	1.615

Zwei Werte stechen raus. Bei „Humanity’s Last Exam“ mit Tools liegt Sonnet 5 mit 57,4 Prozent praktisch auf Opus 4.8-Niveau (57,9 Prozent) – ein halber Punkt Abstand. Und bei GDPval-AA v2 steht das billigere Modell mit 1.618 sogar minimal über dem teuren Opus (1.615). Die „Annäherung an Opus“ ist hier keine PR-Phrase mehr, sondern steht in der Tabelle.

Bevor jetzt jemand „Sonnet 5 schlägt Opus“ titelt, ein Einordnungs-Dämpfer: Drei Punkte auf einer 1.600er-Skala sind Rauschen, keine Überlegenheit – das ist ein Gleichstand, kein Thronwechsel. Beim harten Coding bleibt Opus vorn: Bei SWE-bench Pro trennen die beiden sechs Punkte, das merkt man in der Praxis. Der größte Sprung gegenüber Sonnet 4.6 steckt in Terminal-Bench 2.1, plus 13 Punkte – da hat sich beim agentischen Arbeiten am Terminal wirklich etwas getan.

Und der Sternchen-Charakter bleibt. Es sind Anthropics eigene Messungen, eine knappe halbe Stunde nach Launch gibt es keine unabhängige Drittmessung. Wie beweglich diese Werte sind, zeigt Anthropic selbst: Die alten Sonnet 4.6-Zahlen wurden nachträglich neu bewertet, weil sich der Grader geändert hat. Andere Methodik, andere Zahl für dasselbe Modell. Launch-Benchmarks taugen zur Orientierung, nicht als Naturkonstante.

Die zehn Partner-Zitate im Beitrag laufen in dieselbe Richtung – mehr agentisch, führt Tasks zu Ende, prüft sich unaufgefordert selbst. Schön zu lesen, aber es sind handverlesene Early-Access-Stimmen in einem Marketing-Text. Ich werte sie als das.

Sicherheit: die Cyber-Bremse ist ab Werk an

Der nüchternste Teil der Mitteilung ist der ehrlichste. Im Behavioral Audit schneidet Sonnet 5 insgesamt sicherer ab als Sonnet 4.6, halluziniert weniger und schleimt weniger. Gegen Opus 4.8 und das Mythos Preview zeigt es allerdings eine höhere Rate an Fehlausrichtung – das kleinere Modell ist eben kein Sicherheits-Selbstläufer.

Beim Thema „Cyber“ wird Anthropic konkret. Trainiert wurde Sonnet 5 darauf nicht. In einer mit Mozilla entwickelten Eval sollten Modelle Exploits für Lücken in Firefox 147 bauen – Sonnet 5 schaffte in keinem Fall einen voll funktionsfähigen Exploit, lag bei den Teilerfolgen aber minimal über Sonnet 4.6. Anthropic führt das auf die gestiegene Allgemein-Intelligenz zurück, nicht auf gezieltes Training. Konsequenz: Die Cyber-Safeguards sind standardmäßig aktiv, dieselben wie bei Opus 4.7 und 4.8. Ein Modell, das beim Bauen von Angriffs-Code besser werden könnte, kriegt vorsorglich einen Riegel vorgeschoben. Das ist die vernünftige Variante.

Mein Take dazu

Wenn man mich fragt ist die eigentliche Nachricht daran das Preisschild. Agentische Fähigkeiten, die bei „Humanity’s Last Exam“ mit Tools und bei GDPval auf Opus-Höhe liegen, aber im günstigeren Sonnet-Bereich – das ändert die Rechnung für alle, die Agenten in Masse laufen lassen. Genau da lohnt der zweite Blick: Gegen Opus ist der Preisvorteil sauber, beide zählen Token gleich. Das Sternchen greift gegenüber dem Vorgänger – und nur bis Ende August. Danach zahlst du für denselben Input eher mehr als auf Sonnet 4.6. Das gibt Anthropic selbst zu, man muss es nur lesen. Und beim reinen Coding ist Opus weiter das schärfere Werkzeug, wenn auch nicht mehr mit großem Vorsprung.

Bleibt der Rest: herstellereigene Zahlen, kuratierte Lob-Zitate, null unabhängige Daten. Ob die agentischen Sprünge im echten, chaotischen Alltag halten, zeigt sich erst in den nächsten Tagen – nicht in einer Launch-Grafik. Der stille Modellwechsel in meinem Terminal ist dabei das Bild, das hängen bleibt. Diese Modelle schieben sich inzwischen unter dir durch, ohne dass du es merkst. Praktisch. Und ein bisschen unheimlich.