MiniMax M3: Open-Weight-Modell ohne Weights zum Start

MiniMax hat heute M3 vorgestellt. Die Überschrift, die das Unternehmen selbst übers Release schreibt, ist ambitioniert – das erste Open-Weight-Modell, das Coding und Agentic, ein Context-Window von einer Million Token und native Multimodalität in einem Modell vereint. Drei Dinge, die bislang nur eine Handvoll geschlossener Modelle gleichzeitig hinbekommen hat.

Jetzt Mal Tacheles: Ein Open-Weight-Modell ohne Weights ist erstmal keins. Die Produktseite trägt „Open-Weight“ groß über allem, der Launch-Blog kündigt die Gewichte aber erst „in den nächsten zehn Tagen“ auf HuggingFace und GitHub an. Heute, zum Start, ist M3 ein geschlossenes API-Modell mit einem Versprechen obendrauf. Das Versprechen ist glaubwürdig, dazu später. Aber der Reihe nach.

TL;DR

MiniMax positioniert M3 als erstes Open-Weight-Modell mit Coding, 1M-Context und Multimodalität in einem. Die wichtigsten Vorbehalte auf einen Blick:

Die Gewichte sind zum Launch nicht da – sie kommen laut MiniMax erst „in den nächsten zehn Tagen". Open-Weight ist bislang eine Ankündigung.
Alle Benchmark-Werte stammen aus MiniMax' eigener Messung. Die Benchmarks sind fremd, die Zahlen sind es nicht.
Eine offizielle Parameterzahl für M3 fehlt. Die kursierenden 229,9 Mrd. total / 9,8 Mrd. aktiv stehen so nur im Architektur-Teaser, nicht in der M3-Spec.
Der Track Record spricht für MiniMax: M2, M2.5 und M2.7 liegen tatsächlich offen auf HuggingFace. Skepsis ja, Generalverdacht nein.

Drei auf einen Streich – sagt MiniMax

Technisch ist M3 kein kleiner Schritt. Herzstück ist eine neue Architektur namens MSA, kurz für MiniMax Sparse Attention. Sie soll genau das Problem lösen, an dem lange Kontexte sonst ersticken – die quadratisch wachsende Last der vollen Attention. MiniMax beziffert den Effekt mit einem 15,6-fachen Decoding-Speedup bei einer Sequenzlänge von einer Million Token. Das Context-Window reicht über die API bis 1M Token, garantiert sind mindestens 512K.

Dazu kommt native Multimodalität, nach eigener Aussage von Schritt null an mittrainiert und nicht nachträglich drangeflanscht. Und die Demos, mit denen MiniMax die Agentic-Fähigkeiten bewirbt, haben Format: ein ICLR-2025-Paper, das M3 in knapp zwölf Stunden autonom reproduziert haben soll, mit 18 Commits und 23 erzeugten Diagrammen. Oder die Optimierung eines CUDA-Kernels über rund 24 Stunden, 147 Iterationen, 1.959 Tool-Calls, die Hardware-Auslastung von 7,6 auf 71,3 Prozent geschraubt. Beeindruckend, keine Frage. Nur eben von MiniMax selbst inszeniert und protokolliert.

Fremder Benchmark, eigene Messung

Womit wir beim Punkt wären, der mir an diesem Release am meisten zu denken gibt. MiniMax hängt Coding und Agentic ganz groß auf und untermauert das mit Benchmarks, die einen guten Ruf haben. Auf SWE-Bench Pro übertreffe M3 die Modelle GPT-5.5 und Gemini 3.1 Pro und nähere sich Opus 4.7. Auf BrowseComp stehen 83,5 Punkte gegen 79,3 für Opus 4.7. Auf SVG-Bench und OmniDocBench liegt M3 nach eigener Darstellung ebenfalls vorn.

Das ist mehr wert als die übliche Hausnummer auf der selbst gebastelten Bench. SWE-Bench Pro stammt nicht von MiniMax, sondern ist ein etablierter Test – wer den wählt, stellt sich zumindest einem fremden Maßstab. Genau hier sitzt aber das obligatorische Hersteller-Sternchen: Der Benchmark ist fremd, die Messung ist es nicht. Eingetragen, gerechnet und veröffentlicht hat diese Zahlen MiniMax. Eine unabhängige Drittmessung – etwa durch Artificial Analysis oder über das SWE-rebench-Leaderboard – existiert für M3 zum Launch schlicht noch nicht. Beide listen Stand heute nur bis M2.7.

Warum das mehr als Erbsenzählerei ist, zeigt der eigene Track Record. Beim Vorgänger M2.7 warb MiniMax mit „3× schneller als Opus“. Artificial Analysis maß nach und kam auf 45,6 Token pro Sekunde statt der beworbenen rund 100. Auf dem Intelligence Index landete M2.7 bei 50 Punkten – solide, aber hinter Gemini 3.1 Pro, GPT-5.4, Opus 4.6 und Sonnet 4.6. Nicht Frontier, sondern oberes Mittelfeld. Wer Herstellerzahlen grundsätzlich als Marketing-Wert liest und nicht als Naturkonstante, wird auch bei M3 erst die unabhängige Messung abwarten.

Und wie groß ist das Ding eigentlich?

Eine Frage, die man auf der ganzen Produktseite vergeblich sucht: Wie viele Parameter hat M3? Steht da nicht. Im Launch-Blog auch nicht. Die einzige Zahl, die kursiert – 229,9 Milliarden total, 9,8 Milliarden aktiv über 256 Experten – stammt aus dem Architektur-Teaser zur MSA und steht dort im Umfeld der M2-Reihe, nicht als saubere M3-Spezifikation.

Zum Einordnen: M2 hatte 230 Milliarden Parameter total bei 10 Milliarden aktiven. M3 dürfte in derselben Größenordnung mitspielen, bestätigt ist das nicht. Solange der Technical Report fehlt, bleibt die Modellgröße eine Leerstelle – und das bei einem Modell, dessen ganzer Pitch auf Effizienz und „offen für alle“ baut. Wer self-hosten will, muss wissen, was er sich da auf die GPUs lädt. Diese Information liefert MiniMax bislang nicht mit.

Open-Weight steht drauf, Weights sind noch nicht drin

Bleibt der Aufhänger. „Open-Weight“ ist das prominenteste Wort auf der Seite, und es ist zum Launch eine Wechselverkäuferei. Der Blog formuliert es selbst klar – Technical Report und Gewichte folgen „in den nächsten zehn Tagen“. Bis dahin kann niemand das Modell herunterladen, selbst hosten oder feintunen. Man kann es über die API mieten, mehr nicht.

Bevor man daraus jetzt das große „alles nur PR" strickt, ein Dämpfer in die andere Richtung. MiniMax hat geliefert, und zwar wiederholt. M2, M2.5 und M2.7 liegen als Open-Weight-Modelle auf HuggingFace, abrufbar und self-hostbar. Das Versprechen ruht also nicht auf Goodwill, sondern auf einer Reihe gehaltener Zusagen. Die Wahrscheinlichkeit, dass die Gewichte kommen, ist hoch. Nur kommuniziert wird eben in der Gegenwartsform, was erst Zukunft ist. Und das ist ein Unterschied, den man nicht so einfach wegwischen sollte.

Einordnung

M3 ist mit hoher Wahrscheinlichkeit ein starkes Modell. Die MSA-Architektur ist eine echte Ansage, die Agentic-Demos sind nicht nichts, und wenn die Gewichte wie versprochen offen kommen, ist das für die Open-Weight-Welt ein dicker Brocken. Der Abstand zwischen dem, was MiniMax heute behauptet, und dem, was heute überprüfbar ist, ist eben größer, als der Marketing-Text suggeriert.

Drei Dinge fehlen zum vollständigen Bild, und alle drei reicht MiniMax erst nach: eine unabhängige Benchmark-Messung, die Parameterzahl und die Gewichte selbst. Bis dahin ist M3 ein Modell, über das man viel Gutes lesen, aber wenig selbst nachprüfen kann.

Heißer Take: Ich freue mich auf M3. In zehn Tagen. Wenn die Weights da sind, die Zahl unter dem Modell steht und Artificial Analysis durchgemessen hat. Vorher ist es ein gut gemachter Trailer, aber kein Kinostart mit Blockbuster-Niveau.