AI Picks KW 23: Microsofts MAI-Offensive und Gemma 4 12B

Anscheinend ist gerade Modell-Woche, andernfalls kann ich mir nicht erklären, was hier los ist. Gefühlt fallen im Minutentakt neue LLM-Versionen bei den Herstellern hinten raus. Und ich habe wirklich nur die Blog-relevanten und interessanten Kandidaten aufgenommen. Kleine Warnung: Das wird wieder etwas umfangreicher diese Woche.

Auf geht's – der Rückblick in die 23. Kalenderwoche im Jahre des Herren 2026.

Unlimited AI memory finally unlocked

Das ist schon ein paar Tage älter, aber ich bin erst diese Woche bei QuData darüber gestolpert.

Wenn ich sowas lese, muss ich zwangsläufig an die kalte Fusion, den Supraleiter bei Raumtemperatur und den Wunderakku mit 5 Minuten Ladezeit denken. Die werden uns auch seit 30 Jahren regelmäßig versprochen – „wir stehen ganz kurz vor dem Durchbruch, jetzt aber wirklich, schon nächstes Jahr, ehrlich!“

Worum es geht: Das südkoreanische Forschungsinstitut ETRI hat mit OmniXtend eine Speichererweiterung auf Ethernet-Basis vorgestellt. Statt Speicher fest an einzelne Server zu koppeln, wird er über Standard-Ethernet zu einem Pool zusammengeschaltet, auf den alle Beschleuniger in Echtzeit zugreifen. In der FPGA-Demo hat sich die LLM-Inferenz-Leistung bei knappem Speicher mehr als verdoppelt, sobald die Erweiterung aktiv war.

Zugegeben, das liest sich ganz schlüssig. Aber Ethernet? Really? Die Memory Wall plagt die Deep-Learning-Forschung nicht erst seit gestern, sondern gefühlt, seitdem es sie gibt. Und zwischen einer FPGA-Demo im Labor und einem Datacenter, das HBM-Bandbreiten gewohnt ist, liegt erfahrungsgemäß ein weiter, steiniger Weg. Ich notiere das mal unter „klingt spannend, Wiedervorlage 2028“.

Nvidia RTX Spark Laptops

NVIDIA bläst zum Frontalangriff auf das Apple MacBook – oder so. In der Pressemeldung klingt das dann so:

1 petaflop of AI Performance, industry-leading power efficiency, full-stack NVIDIA AI and graphics technology, and up to 128GB of unified memory

Auch im Boot: Microsoft, damit die Kisten dann auch unter Windows laufen. Ist ja peinlich genug, dass ausgerechnet bisher nur die AMD-Halo-Plattform nativ mit Windows sprechen kann. Die Heise-Meldung ist relativ nüchtern und ordnet ein, dass der Notebook-Prozessor N1X mit jahrelanger Verspätung kommt und Geräte frühestens im Herbst zu erwarten sind. Die Nvidia-Meldung dagegen: erwartungsgemäß mit ganz vielen Hersteller-Sternchen.

Ich bin gespannt. Einerseits würde ein ernsthafter Konkurrent dem Markt guttun, das ist alles gerade etwas zu Apple-Silicon-lastig und gehypt. Andererseits schreiben sie ganz groß „New Beginning for Personal Computers“ direkt unter die Hauptüberschrift – bedient das dann den Gaming-Markt gleich mit? Ich meine, niemand lässt ernsthaft produktiv lokale Large Language Models auf Laptop-Hardware laufen. Das ist eher ein Dev- und Forschungszweig.

Heise hat dazu ein unterhaltsames Video mit Jan-Keno Janssen in Taipei (den sie übrigens nicht zur Keynote auf der Computex eingeladen haben) – das beschreibt den ganzen Wahnsinn dahinter noch viel besser.

Nemotron 3 Ultra

Nvidia gleich nochmal, diesmal mit Modellen statt Blech. Die Familie eigener Modelle wächst um ein neues „Ultra-Modell“, vorgestellt auf der GTC Taipei. Und Nvidia-typisch sparen sie nicht mit Superlativen in der Pressemeldung – „fünfmal schneller“ ist so ein Wert, den man getrost als Hersteller-Sternchen lesen darf, bis unabhängige Messungen vorliegen.

Die Eckdaten sind trotzdem interessant: rund 500 Milliarden Parameter total, davon 50 Milliarden aktiv pro Token, hybride Latent-MoE-Architektur. Damit komplettiert Ultra die Nemotron-3-Reihe nach oben – das Nano (30B, 3,5B aktiv) liegt schon seit Dezember auf Hugging Face, das Super (120B, 12B aktiv) folgte im Frühjahr.

So langsam verliere ich den Überblick, da gefühlt mittlerweile jeden Tag was Neues kommt. Aber Nemotron 3 Ultra sollte man wohl auf dem Schirm haben.

Introducing Mellum2

Das Thema lokal lauffähige Modelle wird gefühlt von Woche zu Woche interessanter. JetBrains wirft Mellum2 in den Ring. Und ich muss gestehen: Die hatte ich bisher so gar nicht auf dem Schirm (obwohl es da einen Vorgänger gibt – wer möchte raten? Genau: Mellum).

MoE, 12B total, davon 2,5B aktiv pro Token – 64 Experten, 8 davon aktiv. Dazu 131K Kontext, Apache 2.0 und gleich sechs Varianten von Base bis Thinking. Läuft jetzt nicht auf einem Taschenrechner, aber in 8-Bit-Quantisierung (rund 13 GB) recht bequem auf einer RTX 3090 oder einem Apple Silicon mit 32 GB Unified Memory.

Spannend finde ich die Positionierung. JetBrains verkauft das Ding ausdrücklich nicht als Frontier-Konkurrenz, sondern als Komponenten-Modell für Routing, RAG-Pipelines und Sub-Agents – „the future belongs to coordinated systems, not single models“. Das deckt sich ziemlich genau mit dem, was ich in den Picks der 22. KW zur Zukunft spezialisierter kleiner Modelle geschrieben habe. Schön, wenn die Realität mitspielt.

Introducing Gemma 4 12B

Google hält dagegen: Lokal können sie nämlich auch. Gemma 4 12B ist ein multimodales Modell, das laut Google ab 16 GB RAM oder Unified Memory auf aktueller Laptop-Hardware läuft (klar, mehr ist immer besser). Das Ding positioniert sich ziemlich genau zwischen der kleinen E4B und der 26B-MoE-Variante.

Die eigentliche Neuheit steckt in der Architektur. Das Modell kommt ohne separate Encoder aus – Bild- und Audio-Input fließen direkt in den LLM-Backbone, was Latenz und Speicherbedarf drückt. Und es ist das erste mittelgroße Gemma mit nativem Audio-Input, inklusive Sprecher-Unterscheidung und Video-Analyse. Google behauptet Benchmark-Werte nahe am doppelt so großen 26B-Modell – herstellereigene Messung, unabhängige Zahlen stehen noch aus.

Holo3.1

Das könnte der heimliche Star der Show werden, denn das hatte irgendwie kaum jemand auf dem Radar: Holo3.1 vom Pariser Startup H Company.

Verfügbar von 0,8B bis 35B-A3B (auf Qwen3.5-Basis) und spezialisiert auf agentische Aufgaben auf lokalen Systemen – also GUI-Steuerung, Browser, Desktop und neuerdings auch Mobile. Genau der Kram, wo du ungern eine Cloud-Lösung ranlässt oder es aus diversen Gründen schlicht nicht darfst. Kontinuierliche Desktop-Screenshots durchs Internet schieben ist halt in vielen Umgebungen ein No-Go.

Neu in 3.1: erstmals quantisierte Checkpoints ab Werk (FP8, Q4 GGUF, NVFP4), und die FP8- und NVFP4-Varianten liegen bei OSWorld nur etwa zwei Punkte unter dem vollen BF16-Checkpoint. Lokale Computer-Use-Agents ohne Cloud werden damit ein Stück realistischer.

Qwen3.7-Plus

Keine zwei Tage vergehen ohne ein neues chinesisches Modell – oder eine Iteration, wie man es nimmt.

Hinten rausgefallen ist diesmal Qwen3.7-Plus (exakte Schreibweise), das multimodale Schwestermodell zum zwei Wochen alten Text-Flaggschiff Qwen3.7-Max. In einem ellenlangen Newsartikel klingt das eher nach lockerem Understatement, aber sie lassen auch die Benchmarks sprechen:

a multimodal agent model that unifies vision and language into a single, versatile agent foundation.

Praktisch heißt das: GUI- und CLI-Agent in einem Modell, Screenshot rein, Klick-Koordinaten raus. Wie groß das Ding in Milliarden Parametern ist? Nichts Genaues weiß man nicht. Ich finde nur das Kontextfenster: 1 Million Tokens. Und noch ein Detail, das man nicht überlesen sollte – Qwen3.7-Plus gibt es ausschließlich per API, ohne offene Gewichte. Für ein Haus, das seinen Ruf mit Open-Weights-Releases aufgebaut hat, ist das ein bemerkenswerter Kurswechsel.

Microsoft MAI

Sieben(!) eigenständig entwickelte Modelle fallen bei Microsoft hinten raus, vorgestellt auf der Build 2026. Nachdem man sich mit OpenAI nicht mehr so lieb hat, rollt man das Feld eben von hinten auf.

Und in Redmond spart man dabei nicht mit Superlativen:

Humanist Superintelligence
Responsible AI to empower humanity

Also, was können die Teile: MAI-Thinking-1, ein sparse MoE mit rund einer Billion Parametern total, davon 35 Milliarden aktiv. In Blindtests, sagen sie, wurde es von Testern gegenüber Sonnet 4.6 bevorzugt – immerhin nennen sie 1.276 Aufgaben und externe Rater, die Methodik dahinter bleibt trotzdem dünn. Und alle Zahlen stammen aus der eigenen Model Card. Der wahre Mittelfinger gegenüber OpenAI ist aber folgende Aussage in der Pressemitteilung:

We trained it from the ground up on clean data, without distillation from third-party models.

Was haben wir noch: MAI-Code-1-Flash mit 5 Milliarden aktiven Parametern, eine Image-Variante MAI-Image-2.5, bei der sie damit angeben, in LM Arena Nano Banana Pro geschlagen zu haben (dazu und zu LM Arena muss man nicht viel sagen). Außerdem MAI-Transcribe-1.5 und MAI-Voice-2 – Namen sind quasi selbsterklärend.

Ich habe schon lange nicht mehr so eine selbstverliebte Pressemitteilung gelesen, Respekt. Wenn ihr euch das selbst antun wollt, esst am besten nichts unmittelbar davor.

Versteckte Kosten bei neuen KI-Modellen aufgedeckt

all-ai.de hängt es für meinen Geschmack eine Nummer zu hoch auf, aber grundsätzlich hat Andreas Becker recht: intransparente Vorgänge bei API-Zugriffen, insbesondere beim Output – bedingt durch „erweitertes Denken“ und veränderte Tokenizer.

Die Primärquellen liefern die Zahlen, die mir im all-ai-Text fehlen. OpenRouter hat den Opus-4.7-Tokenizer vermessen: 32 bis 45 Prozent mehr native Tokens für denselben Text, real 12 bis 27 Prozent höhere Kosten, weil Prompt-Caching viel abfedert. Bei GPT-5.5 hat sich der Listenpreis glatt verdoppelt, effektiv kamen 49 bis 92 Prozent an – das Modell formuliert bei langen Prompts schlicht kürzer. Die Methodik ist übrigens sauber beschrieben, anders als der all-ai-Artikel suggeriert: OpenRouter vergleicht Kohorten von Nutzern, die nachweislich vom alten aufs neue Modell gewechselt sind. Und Simon Willison hat die Tokenizer-Inflation mit ~1,46× unabhängig nachgemessen.

Heißt für mich: Wer API-Kosten kalkuliert, sollte Preislisten als grobe Untergrenze lesen. Die Rechnung schreibt der Tokenizer.

Codex für jede Rolle, jedes Tool und jeden Workflow

Triggerwarnung – es könnte passieren, dass ich gleich wieder ein wenig rante. Und OpenAI ist nicht mal schuld daran.

OpenAI wirft ein Paket von Plugins für Codex ab – soweit, so gut. Rollen-Plugins für Equity Research, Banking, Sales und Design, dazu Annotations und eine Sites-Preview. Nach eigenen Angaben nutzen inzwischen 5 Millionen Menschen pro Woche Codex, ein Fünftel davon keine Entwickler – Hersteller-Zahlen, aber die Richtung dürfte stimmen. Das klingt alles wieder praktisch und hilfreich. Nur ist auch das wieder sehr auf den US-Markt zugeschnitten (Equity Research, Banking – die Zielgruppe wohnt erkennbar nicht in Bielefeld), und über DSGVO und Auditierbarkeit sprechen wir lieber erstmal nicht.

Aber ich sehe auch schon wieder BWL-Justus auf LinkedIn (seit Neustem übrigens auch KI-Transformationsberater), der Beiträge à la „Der deutsche Mittelstand muss nur noch zugreifen – da sind die Tools!“ in seine Timeline absondert.

Expanding Project Glasswing

Wie viel Hype willst du in eine Pressemeldung werfen? Anthropic so: Ja.

Der Schlüsselsatz steht gleich vorn:

Project Glasswing is our collaborative effort to secure the world's most important software.

Aha. Die Meldung könnte gefühlt übrigens genauso gut vom Verteidigungsministerium aus (hier x-beliebiges G20-Land einsetzen) stammen. Das Thema ist ja wichtig und richtig – die ersten rund 50 Partner haben mit Claude Mythos Preview nach Anthropic-Angaben über 10.000 Schwachstellen mit hohem oder kritischem Schweregrad gefunden, und jetzt kommen etwa 150 Organisationen aus mehr als 15 Ländern dazu, quer durch Energie, Wasser, Gesundheit und Kommunikation. Aber wie das gerade PR-technisch durchs Dorf getrieben wird, ist so ein klitzekleines bisschen übertrieben. Anthropic nimmt das natürlich gerne mit, wer will es ihnen verübeln.

Kleine Randnotiz: Die erste Kohorte wurde im April noch teilweise benannt – Microsoft, Apple, NVIDIA, CrowdStrike, und Mozilla hat öffentlich von über 270 gefixten Firefox-Schwachstellen berichtet. Bei den 150 Neuen schweigt man sich dagegen komplett aus. Bekannt ist immerhin, dass europäische Stellen anklopfen – die ENISA verhandelt Berichten zufolge über einen Zugang.

MIT researchers teach AI models to interpret charts

Aktuell noch Research, aber das wird absehbar interessant. Das MIT-Team um Aude Oliva hat mit ChartNet einen großen synthetischen Datensatz aus Chart-Bildern samt zugehöriger Daten gebaut und damit VLMs auf Datenextraktion und Chart-Rekonstruktion trainiert (Paper auf arXiv). Dafür gibt es jede Menge sinnvolle Einsatzzwecke – Datenanalyse aus statistischen Erhebungen ist noch der langweiligste darunter.

Best Open Source OCR for AI Agents 2026

Das ist mal Gold in Artikelform gegossen. Gute Übersicht bei Made By Agents und deutlich tiefergehender als das übliche „Tesseract vs. irgendwas anderes“: VLM-OCR gegen klassische Engines, dazu PaddleOCR, Docling, GLM-OCR und LangExtract bis hin zur kompletten Dokument-Pipeline. Passt thematisch direkt an Surya OCR 2 aus den Picks der letzten Woche – wer Dokumente in Agenten-Pipelines kippt, sollte beide Texte lesen.

Das war's für diese Woche. Falls nächste Woche wieder Modell-Woche ist, kürze ich gnadenloser. Versprochen ist das nicht.