AI Picks KW 24: Fable-Aus, GLM 5.2 und Coding-CLIs

Die Picks diese Woche mit etwas Verspätung, denn ich war eine Woche kreuzfahrttechnisch in Norwegen und Dänemark unterwegs. Die Abende habe ich auf dem Balkon verbracht, aufs Meer geschaut und meine RSS-Feeds und x.com auf dem iPad durchgescrollt. Und heilige Axt: war das wieder eine ergiebige Woche – eigentlich so gar nicht urlaubskompatibel. Im Detail ansehen oder testen konnte ich entsprechend nichts, da Urlaub. Das hier ist also eher eine Bookmark-Liste. Das teure On-Board-Satelliten-Internet über WiFi ist übrigens erstaunlich stabil und für FLAC-Streaming über Tidal ausreichend performant. Für 70 Euro die Woche will ich ihm das aber auch geraten haben.

Also, stürzen wir uns rein.

Das Fable-Drama

Anthropic hat Fable 5 öffentlich zugänglich gemacht. Kurz. Für etwa drei Tage.

An dem Tag durfte man seinen LinkedIn-Feed lieber nicht öffnen. Die üblichen ehemals Krypto-Guru-jetzt-KI-Transformationsexperten haben ihre Timeline mit „Game Changer“-Meldungen vollgespammt, nachdem sie ihre fünf Prompts und zwei Skills zum Testen in den Chat getippt und den Knopf für Fable gefunden hatten.

Dann kam die US-Regierung. Per Exportdirektive verlangte sie von Anthropic, Nicht-US-Bürgern den Zugang zu verwehren – inklusive der eigenen ausländischen Mitarbeiter. Anthropic daraufhin sinngemäß: Das lässt sich technisch nicht sauber trennen, also machen wir es erstmal für alle dicht. Anthropic widerspricht öffentlich, dass ein eng begrenzter Jailbreak den Rückruf eines Modells rechtfertigt, das an hunderte Millionen Nutzer ausgerollt war. Bemerkenswert: Es ist das erste Mal, dass ein führendes Labor ein öffentlich deploytes Modell auf staatliche Anweisung hin offline nimmt.

Und Heise kommt mit dem Hintergrund um die Ecke: Amazon hatte Fable von der eigenen Cybersecurity-Abteilung auditieren lassen, dabei kamen Jailbreak-Möglichkeiten ans Tageslicht, und Amazon-CEO Andrew Jassy hat das nach oben durchgereicht. Wer kennt sie nicht, die Security-Spezial-Experten von AWS. Fairerweise: Laut Axios war Amazon nicht allein, mindestens fünf weitere Firmen haben am selben Abend bei der Regierung angerufen. Und Amazon bestreitet, die Petze zu sein („nicht ungewöhnlich, dass Regierungen uns zu Sicherheitsrisiken konsultieren"). Aha.

Hotter Take: Das eigentlich Interessante ist nicht der Jailbreak, sondern der Präzedenzfall. Wenn ein einzelner gemeldeter Bypass reicht, um ein kommerzielles Frontier-Modell weltweit abzuschalten, lässt sich nach der Logik jedes Modell abschalten.

GLM 5.2

Eher Randnotiz, aber es gibt nicht wenige Leute, die auf die Modelle von Z.ai schwören. Bei der Menge an Alternativen habe ich mich mit denen noch gar nicht beschäftigt. Wird wohl langsam Zeit.

Auf dem Papier: 1M-Kontextfenster, 744B Mixture-of-Experts (40B aktiv, von GLM-5 geerbt), MIT-Lizenz. Klingt nach dem nächsten dicken Open-Weights-Drop. Ist aber, Stand jetzt, keiner. GLM 5.2 läuft bislang nur über den GLM Coding Plan. API, Chatbot und die MIT-Gewichte sind für „nächste Woche“ angekündigt – verfügbar sind sie nicht. Benchmarks zum Launch? Fehlanzeige. Bleiben die Marketing-Adjektive „powerful coding“ und „strong long-horizon“, die ich ohne Zahlen schlecht mit einem Hersteller-Sternchen versehen kann, weil es nicht mal eine Zahl zum Versternen gibt.

Kommt mir bekannt vor. Genau das Muster hatte ich beim MiMo-äh, MiniMax-M3-Beitrag schon: Open Weights als Schlagzeile, Weights aber nirgends. Open-Weight without Weights, die zweite.

Cohere North Mini Code

Jetzt wird's spannender: MoE mit 30 Milliarden Parametern, davon 3 Mrd. aktiv, Apache-2.0-Lizenz. Und es gibt eine 8-Bit-Quantisierung. Heißt: auf halbwegs potenter GPU mit genug VRAM – wir reden über Consumer-Hardware – kann man damit lokal arbeiten.

Das ist die Größenordnung, die mich an offenen Modellen interessiert. Nicht das 744B-Monster, das ohne Rechenzentrum nirgends läuft, sondern das Ding, das auf die bessere Büro-Kiste passt.

Apodex-1.0

Steht bei mir sehr weit oben auf der „Muss ich mir näher ansehen“-Liste. Apodex-1.0 ist ein Deep-Research-Agent mit Verification-first-Ansatz: Statt ein Modell die ganze kognitive Last tragen zu lassen, verteilt ein Orchestrator auf spezialisierte Sub-Agents, und ein Verifier prüft die zusammengetragene Evidenz, bevor überhaupt eine Antwort entsteht. Im Heavy-Mode koordiniert das bis zu 150 Sub-Agents über 15.000 Schritte in einer einzigen Aufgabe.

Die Open-Weight-Checkpoints liegen auf Qwen3.5-Basis von 0.8B bis 35B-A3B in der HuggingFace-Collection. Der Name kommt aus dem Griechischen, apodeixis, „Beweis“. Charmant. Bewertet wird's später.

Kimi Code

Da ist es, und ich hatte es in den Picks der 22. Kalenderwoche prophezeit: ein Coding-Modell plus CLI, weil CLIs gerade in Mode sind. Entgegen meiner Vorhersage ist es Kimi K2.7-Code geworden, nicht 2.65. Geschenkt. Den Kampfpreis haben Sie zu meiner Überraschung weggelassen.

Der Hebel:

Kimi Code is a code development benefit in the membership plan. Upgrade to a Kimi member to start using it.

Weißt du Bescheid. Die Gewichte selbst sind übrigens offen (Modified MIT auf HuggingFace) und das Modell gibt's auch über die API, nur die CLI hängt am Abo, ab 19 Dollar im Monat. Das ist exakt das Modell-plus-Plan-Spiel, das Anthropic mit Claude Code fährt.

Xiaomi MiMo-V2.5-Pro-UltraSpeed

Dafür wurde mir freundlicherweise ein Trial-Zugang bereitgestellt, ich bin nur noch nicht dazu gekommen, das auch mal auszuprobieren. Die Anmeldung ist offen, allerdings fenstergebunden: Bewerbung läuft bis 23. Juni (PDT), mit Tageslimits und Session-Caps. Zugriff API-only, Web-Chat zeitweise gratis.

Die Formel ist kurz:

3× the price, 10× the output experience

Technisch dahinter steht eine Co-Optimierung von Xiaomi und dem TileRT-Team: 1.000 Tokens pro Sekunde auf einem 1T-MoE, und zwar über einen einzelnen Standard-8-GPU-Knoten. Nicht Cerebras, nicht Groq, sondern General-Purpose-Hardware. Wenn die Zahl hält, ist das ein starkes Pro-Argument.

Google Colab CLI

Wer seine Stacks auf dem Google-Enterprise-Kram fährt – und es guten Gewissens darf –, für den ist das hier ganz schick. Aus dem Terminal heraus provisionierst du in Sekunden eine GPU oder TPU, vom T4 bis zur H100, schickst dein lokales Python-Skript per colab exec auf die entfernte Colab-Runtime und holst dir das Ergebnis zurück. Kein Browser, kein manuelles Cloud-Geklicke. Open Source unter Apache 2.0, Installation in einem Befehl, und Codex und Claude Code spielen mit, nicht nur Antigravity.

Der eigentliche Clou steckt nicht in der Bequemlichkeit für Menschen. Google liefert ein COLAB_SKILL.md mit, also eine fertige Anleitung, die einem Agenten beibringt, das Tool selbst zu bedienen. Das ist die Ansage: Ein Agent kann sich künftig eigenständig eine H100 schnappen, ein Fine-Tuning durchlaufen lassen und die Maschine danach wieder abschalten, ohne dass ein Mensch dazwischenfunkt. Weniger Feature, mehr Baustein für den „agentic fullstack“, in dem Agents sich ihre Rechenleistung selbst besorgen.

Kleiner Take: schick, solange der Agent das colab stop nicht vergisst. Und solange du im Kopf behältst, dass die „sofort verfügbare H100“ an deinem aktiven Colab-Plan und dessen Kontingent hängt, nicht an Zauberei.

Omnigent

Databricks open-sourct Omnigent unter Apache 2.0, eine sogenannte Meta-Harness. Die Idee: eine Schicht über den Harnesses, die du eh schon nutzt – Claude Code, Codex, Pi, custom – mit gemeinsamer Composition, Policy-Control (Cost-Budgets, Approval-Gates, Sandboxing) und Live-Sessions, die sich per URL teilen lassen. Das Argument von Matei Zaharia und Team: Harnesses haben Modelle austauschbar gemacht, die Meta-Harness ist die nächste Abstraktionsebene.

Steile These dagegen: Das ist Abstraktion über der Abstraktion. Databricks löst hier ein Problem von Shops mit 5.000 Engineers und einem Dutzend paralleler Agents. Ob eine Agentur oder ein Mittelständler mit seinen vier offenen CLIs wirklich noch eine Schicht obendrauf braucht, oder ob das nur eine weitere Sache ist, die man pflegen, verstehen und absichern muss, lasse ich mal offen. Pikanter Nebeneffekt: Databricks hatte gerade erst Fable 5 über die Unity AI Gateway eingebunden. Das hat sich dann ja erledigt.

Context Compression, 16x mit Sternchen

Ein Paper von NYU, Columbia, Princeton, Maryland, Harvard und Lawrence Livermore stellt „Latent Context Language Models“ vor, Encoder-Decoder-Modelle, die den Kontext komprimieren, bevor er den Decoder erreicht. Open-source auf HuggingFace. Die Schlagzeile verspricht 16-fache Kompression ohne Accuracy-Hit.

Hier lohnt der Blick in die Tabelle. Bei 4x-Kompression fällt die RULER-Accuracy von 94,41 auf 91,76 Prozent, das sind keine drei Punkte für ein Viertel der Tokens. Sauber. Bei 16x werden 93,75 Prozent der Tokens entsorgt, und die Accuracy sackt auf 75,06 Prozent. Das ist kein „ohne Accuracy-Hit“, das ist ein Einbruch um fast 20 Punkte. Der saubere Trade sitzt bei 4x. Die 16x stehen in der Headline, weil 16 größer klingt als 4. Für alle, die das Thema grundsätzlich umtreibt, ist das ein Baustein mehr im Context Engineering.

PP-OCRv6

Das Thema bleibt interessant, und ich bin offenbar nicht der Einzige, der das so sieht. PP-OCRv6 ist explizit für den Pipeline-Einsatz gebaut, unterstützt 48 Sprachen und bringt einige Module mit. Falls du OCR in einen Automatisierungs-Workflow einbetten willst, gehört das eigentlich mit auf das Radar.

DiffusionGemma

Das ist das Erste, was bei mir neu in LM Studio landet, wenn der Urlaub beendet ist: DiffusionGemma, Google DeepMinds Versuch, Textgenerierung über Diffusion statt autoregressiv zu machen. Klassische Modelle schreiben Token für Token von links nach rechts. DiffusionGemma füllt stattdessen einen ganzen 256-Token-Block aus Rauschen und entrauscht ihn parallel, bis lesbarer Text rauskommt. Das bringt über 1.000 Tokens pro Sekunde auf einer einzelnen H100.

Spannend für meine Zwecke ist die Größe. 26B Mixture-of-Experts mit nur 3,8B aktiv, und in NVIDIAs NVFP4-Quantisierung passt das Ding in 18 GB VRAM, läuft also lokal auf einer 4090 oder 5090. Open Weights, Apache 2.0, die Gewichte liegen auf HuggingFace, Day-One-Support in vLLM und Transformers.

Das Sternchen liefert Google gleich selbst mit: Die Qualität liegt unter dem normalen Gemma 4, auf MMLU und bei Coding-Tests. Offiziell „experimentell“, gedacht für Speed-kritische Sachen wie Code-Infilling oder schnelles Inline-Editing, nicht als Allzweck-Assistent. Ganz hotter Take: Genau deshalb interessant. Für viele Pipeline-Schritte ist ein schnelles, lokales Modell mehr wert als ein brillantes, das langsam in der Cloud hängt.

Open Knowledge Format

Google Cloud definiert es gleich im zweiten Absatz selbst:

… an open specification that formalizes the LLM-wiki pattern into a portable, interoperable format.

Heißt: das von Karpathy populär gemachte LLM-wiki-Muster in ein portables Format gegossen. Wenn sich das durchsetzt, könnte es für strukturiertes Wissensteilen zwischen Systemen relevant werden. Großes Wenn.

Angular 22

Jetzt wird's zugegebenermaßen etwas nerdiger, aber die News ist trotzdem relevant. Angular 22 baut den mit Angular 21 eingeführten MCP-Server weiter aus, jetzt agentic-optimiert, und legt einen Dependency-Injection-Graph drauf, den explizit AI-Agents abfragen sollen. Der Fokus liegt diesmal klar auf KI-Coding.

Ein Viertel des Budgets – verpufft

Das Ergebnis ist leider keine Überraschung: Laut einer Erhebung verlieren Unternehmen im Schnitt ein Viertel ihres KI-Budgets an Komplexitäts-Overhead. Die Hürden sind struktureller Natur:

Die größten Gründe dafür, dass Pilotprojekte nicht in den produktiven Einsatz übergehen, sind die Komplexität der Systemintegration (27 Prozent), der Mangel an qualifizierten Fachkräften (26 Prozent) sowie ein zu hoher Konfigurationsaufwand (26 Prozent).

Zwei Dinge zur Einordnung, die der deutsche Artikel verschluckt (und ja, ich habe den Freshworks-Report gelesen). Erstens: Die 25 Prozent sind der globale Mid-Market-Schnitt über sechs Länder, kein Deutschland-spezifischer Wert. „Deutsche Unternehmen verlieren ein Viertel“ ist die Lokalisierung der Redaktion, nicht die Studienaussage. Zweitens, das dickere Sternchen: Die Quelle ist ein Freshworks-Report, und Freshworks verkauft exakt die Konsolidierungsplattform, deren Fehlen die Studie als „Complexity Tax“ beklagt. Die Zahlen sind plausibel, das Narrativ ist die Verkaufsstory. Wer die Hürden kennt, nickt trotzdem.

The 2026 state of AI agent pricing

Orb hat 80 AI-Agent-Firmen auf ihre Preismodelle abgeklopft. Das große Bild: Hybrid ist mit 95 Prozent praktisch Standard, Usage-based liegt bei 91,3 Prozent und ist zur ökonomischen Basis geworden, Per-Seat bröckelt langsam (37,5 Prozent, von 39,4).

Die für mich interessanteste Zahl ist eine andere. Outcome-based Pricing, das Modell, das alle als heiligen Gral der Agenten-Ökonomie verkaufen, bei dem man also für Ergebnisse statt für Tokens zahlt, liegt bei 3,8 Prozent. Runter von 4,5. Der Traum vom „pay per result“ schrumpft, weil sich Outcomes sauber zu definieren, zu messen und zuzurechnen in der Praxis als ekelhaft schwer erweist. Die Theorie ist bestechend, die Adoption homöopathisch.

Und das Sternchen gehört hier an den Absender: Orb ist ein Billing-Infrastruktur-Anbieter, und der Report endet erwartbar mit der Erkenntnis, dass Usage-based die Zukunft ist und Orb dir das Billing dafür baut. Gute Daten, klarer Eigennutz.

Soviel zu einer Woche, in der ich eigentlich nur zwei Tätigkeiten nachgehen wollte: aufs Meer schauen und mir ein paar skandinavische Städte ansehen.