GLM-5.2: 1M Kontext, Open Weights, Hersteller-Benchmarks

Z.ai hat am 13. Juni GLM‑5.2 veröffentlicht und das Modell sofort über alle Stufen des GLM Coding Plan scharfgeschaltet. Flaggschiff, Coding-Fokus, ein Kontextfenster von einer Million Token. Wenige Tage später lagen die Gewichte unter MIT-Lizenz auf Hugging Face – damit liegt vor, was Z.ai versprochen hatte: ein offenes, Frontier-nahes Modell zum Selberhosten.

Im KW24-Pick hatte ich das nur kurz angetippt, weil außer einer Ankündigung wenig Handfestes da war. Jetzt gibt es die Modelcard, ein paar Zahlen und die Weights. Zeit für den genaueren Blick.

TL;DR

Z.ai hat GLM‑5.2 veröffentlicht – das neue Flaggschiff der GLM-5-Serie mit Coding-Fokus.

Mixture-of-Experts, rund 750 Milliarden Parameter, davon ~40 Milliarden pro Token aktiv
Kontextfenster von 1M Token (vorher 200K), Open Weights unter MIT-Lizenz auf Hugging Face
Coding-Benchmarks stark – aber durchweg herstellereigen, unabhängige Zahlen fehlen noch
Lokal lauffähig nur mit ernsthafter Hardware: ein 8-GPU-Knoten aufwärts, eine einzelne H100 reicht nicht
Sofort nutzbar über den GLM Coding Plan und gängige Coding Agents

Ein 750-Milliarden-Brocken mit Spar-Tricks

Unter der Haube steckt ein Mixture-of-Experts-Modell. Die Gesamtgröße geben die Quellen uneinheitlich an – VentureBeat nennt 753 Milliarden Parameter, die Modelcard und der vLLM-Recipe landen bei rund 744 Milliarden. Aktiv sind pro Token nur etwa 40 Milliarden, der Rest schläft. Für die Praxis bedeutet das zweierlei – groß genug, um Hardware zu sprengen, und sparsam genug, um überhaupt zu laufen.

Der eigentliche Sprung gegenüber GLM‑5.1 ist das Kontextfenster. Eine Million Token, vorher waren es 200.000. Z.ai verkauft das nicht als reine Zahl, sondern als „solid 1M“ – also nutzbar über die volle Länge, nicht nur auf dem Papier. Ob das im Dauerbetrieb hält, zeigt sich erst in den nächsten Wochen.

Dazu kommen zwei Effizienz-Kniffe. IndexShare recycelt denselben Attention-Index über je vier Layer und senkt die Rechenlast pro Token bei vollem Kontext nach Herstellerangabe um das 2,9-Fache. Und die Multi-Token-Prediction wurde von drei auf fünf Draft-Tokens erweitert, was das Decoding beschleunigt. Klingt nach Kleinkram, summiert sich bei einer Million Token aber zu echten Kosten.

Die Benchmarks – herstellereigen, wie (fast) immer

Die Zahlen, die Z.ai mitliefert, lesen sich stark. Auf Terminal-Bench 2.1 springt GLM‑5.2 von 62,0 (GLM‑5.1) auf 81,0 und liegt damit in Sichtweite von Opus 4.8 mit 85,0. Auf SWE-bench Pro geht es von 58,4 auf 62,1 hoch. Bei FrontierSWE meldet der Hersteller 74,4 Prozent, knapp hinter Opus 4.8 (75,1) und vor GPT‑5.5 (72,6). Auf MCP-Atlas dann 77,0 gegen 75,3 für GPT‑5.5.

Hübsche Tabelle. Nur sind das wie so häufig auch hier herstellereigene Werte, keine unabhängige Drittmessung. Wer die Zahlen als Marketing liest und nicht als Naturkonstante, liegt auch hier wieder richtig. Unabhängige Benchmarks von dritter Seite gibt es noch nicht. Bis die da sind, gilt für jede dieser Zeilen das Hersteller-Sternchen.

Open Weights heißt nicht „läuft auf deinem Rechner“

Die MIT-Lizenz ist das eigentlich Bemerkenswerte. Keine regionalen Sperren, kein Kleingedrucktes – herunterladen, fine-tunen, lokal betreiben, fertig. Auf dem Papier.

In der Realität wiegt das Modell rund 1,5 Terabyte. Der FP8-Checkpoint passt laut vLLM-Recipe erst auf einen kompletten Knoten aus acht H200- oder H20-GPUs. Das volle 1M-Fenster willst du auf acht B200 fahren. Eine einzelne H100 reicht da nicht – auch nicht, wenn du sie ganz lieb anschaust und ihr gut zuredest. „Lokal lauffähig“ und „läuft auf deinem Server“ sind hier zwei verschiedene Sätze.

Und „Open Weights“ heißt nicht automatisch, dass die Gewichte am Tag der Ankündigung auch wirklich liegen. Bei GLM‑5.2 hat es ein paar Tage gedauert, dann waren sie da. Es geht auch anders – siehe MiniMax M3, wo das „Open“ eine Weile ohne die „Weights“ auskommen musste.

Zugang, Preise, Coding Agents

Wer es ausprobieren will, braucht den Download nicht. GLM‑5.2 ist sofort über den GLM Coding Plan nutzbar, auf allen Stufen von Lite bis Team, ab rund 12,60 US-Dollar im Monat. Die API-Preise bleiben laut Z.ai auf dem Niveau von GLM‑5.1.

Out of the Box arbeitet das Modell mit den üblichen Coding Agents zusammen – Claude Code, Cline, Roo Code, OpenCode, Crush und weiteren. Fährst du einen davon ohnehin, ist der Wechsel ein Config-Eintrag, kein Umbau. API-Zugang und Chatbot kamen kurz nach dem Launch dazu.