AI Picks der 25. KW: Codex OSS, eve & Claude Design

Woche eins nach dem Urlaub, und die News werden wieder vielfältiger. Die LLM-Release-Flut hat sich etwas beruhigt, dafür gibt es reichlich anderes.

Anekdote am Rand: Letzte Woche hatte ich angekündigt, DiffusionGemma in LM Studio testen zu wollen. Tja, wird nichts – jedenfalls nicht im Moment und nicht als MLX unter macOS, so weit ist LM Studio noch nicht. Bliebe der Weg über llama.cpp. Den gibt es aktuell aber nur als Selbstbau aus einem offenen Pull Request, samt eigenem llama-diffusion-cli. Darauf habe ich ehrlich gesagt keinen Bock und warte, bis LM Studio die MLX-Unterstützung nachzieht.

Das war diese Woche so los:

7 Best Small Language Models Under 10B Parameters in 2026

Eine schicke kleine Auflistung von Modellen, die bequem auf die bessere Bürokiste passen – und mit denen sich schon was reißen lässt. Je nach Hardware wirft man das Reasoning eventuell raus und schaltet auf Non-Thinking – soweit das Modell den Schalter überhaupt mitbringt.

Wo „Code Generation“ steht, würde ich bei der Modellgröße die Erwartungen niedrig hängen. Für JSON und ähnliches Geschäft reicht es aber dicke.

The Art of Loop Engineering

Dazu kommt zeitnah ein eigener Artikel, aber das nehme ich schon mal vorweg – als den neuen Hot Shit, der gerade durchs Dorf getrieben wird: Loop Engineering.

Kurz gefasst lässt man Agenten eigenständig planen, handeln, Responses einholen und nachjustieren, bis ein Task durch ist oder irgendwo hängen bleibt. Von Human-on-the-Loop zu Human-on-the-End. Ob das gut geht, entscheiden deine Guardrails.

Introducing eve

Vercel legt mal wieder was nach: eve, ein Framework zum Entwickeln und Betreiben von Agents – mit Sandboxing, Subagents, Evals und dem ganzen Rest, den man bei so einem Paket eigentlich haben will. Apache 2.0, aktuell noch Public Beta.

Am Rande: Viele Unternehmen, insbesondere zwischen Flensburg und Passau, könnten sich von Vercels Open-Source-Engagement eine große Scheibe abschneiden. Open Source nutzen die Big Player hierzulande gern und oft – selbst etwas beizutragen ist eher die Ausnahme als die Regel.

Mir ist absolut bewusst, dass Vercel das nicht aus reiner christlicher Nächstenliebe tut, sondern auch eigene Interessen verfolgt. Aber bei uns wird gern im stillen Kämmerlein geschraubt und dabei auch munter gegen Copyleft-Lizenzen wie GPL oder AGPL verstoßen. Bindet man eine fremde Bibliothek unter einer GPL ein, muss man den eigenen Quellcode ebenfalls offenlegen. In Deutschland dann aber so: „Des hemmer 'baut, des isch unser!"

Codex can run against a local „open source“ provider

Auch OpenAI öffnet die Tore. Thibault Sottiaux auf X dazu:

„Reminder that you can use the Codex App, CLI and SDK with any open source model, not just with OpenAI models.“

Also lassen sich z.B. Kimi K2.7 Code oder GLM 5.2 jetzt auch in Codex schieben, wenn man auf deren eigene Tools oder OpenCode keinen Bock hat.

Übrigens: Per GUI in den Settings der Codex App umstellen ist nicht. Ein wenig Frickelei bleibt also.

Run N concurrent Gemma 4 instances on a local llama-server

Dieses „hier habt ihr Gemma 4, nun viel Spaß damit“ von Google finde ich offen gesagt ziemlich nice – und DeepMind lassen sie anscheinend reichlich Freiraum zum Schrauben.

Anders ließe sich dieses Repo kaum erklären.

Vom Chat zum Agenten: Copilot Cowork für Microsoft 365 ist da

Ich musste in der Vergangenheit immer ein wenig schmunzeln, wenn in Gesprächen fiel: „Wir rollen bei uns auch gerade KI aus – Copilot.“

Egal. Microsoft zeigt Ambitionen und denkt sogar an Security. Das ist mehr, als ich ehrlich gesagt erwartet hatte. Dass Cowork unter der Haube auf Anthropics Technik läuft, macht die Sache nicht weniger amüsant.

Anthropic ships major Claude Design overhaul with design system imports, code round-trips, and a fix for its token-burning problem

Das sind eigentlich drei Meldungen in einer – und für die meisten von uns dürfte der letzte Halbsatz die eigentliche News sein.

Anthropic hat Claude Design überarbeitet: Design-System-Imports, Code-Round-Trips und ein Fix für den Token-Hunger. Letzterer ist der Punkt. Der April-Release fraß in rund 25 Minuten 80 Prozent des wöchentlichen Pro-Kontingents – jetzt teilt sich Claude Design die Limits mit Chat, Cowork und Code, und ein Turn kostet laut Anthropic weniger Tokens.

EU Icons for labelling AI-generated content

Wo sonst gern auf der EU herumgehackt wird, muss ich an dieser Stelle mal loben. Die KI-Kennzeichnungspflicht ist aus mehreren Gründen sinnvoll, und die Pflicht aus Artikel 50 greift ab dem 2. August 2026.

Sie denken auch praktisch mit und liefern die passenden Icons gleich mit – free to use. Bei der Lizenz waren sie etwas kreativ, aber was soll's:

These icons are made publicly available for everyone to use freely, without the need for attribution to the Commission or the AI Office. However, signatories of the code of practice should use the icon in accordance with its placement specifications. Usage of these icons by non-signatories of the code should not be construed as signaling of their adherence to the code.

Auch hier eine Anekdote am Rand: Der deutsche Presserat lehnt eine Kennzeichnungspflicht für KI-Texte ab. Bei Bildern und Videos soll sie dann aber doch gelten. Warum überrascht mich das kein bisschen?

Markdown Comes to LiteParse

Das Thema lässt mich nicht los, weil ich dann doch häufiger damit zu tun habe. Dokument X in die Pipeline kippen, die relevanten Daten rausziehen, erst mal als JSON wegschreiben. Klingt harmlos, der erste Part mit den Dokumenten kann aber unschön werden, je nach Art des Dokuments.

Dafür gibt es LiteParse, kürzlich in v2.1 erschienen. Dort wurde jetzt Markdown als Outputformat nachgerüstet. Das eröffnet Zwischenschritte. Bevor ich den Output weiterreiche, prüfe ich gern, ob er überhaupt sauber verarbeitbar ist – und diesen Check fahre ich jetzt gegen ein schlankes Markdown statt gegen ein potenziell aufgeblähtes PDF.

MCP gets its missing enterprise authorization layer

Kein lästiges OAuth mehr für jeden Client einzeln – jedenfalls nicht mehr direkt –, dafür eine unternehmensweite Autorisierung: ID-JAG (Identity Assertion JWT Authorization Grant), aktuell noch im Draft-Status.

Der Draft kommt aus der IETF, wird von Okta vorangetrieben und soll in die MCP-Spec wandern. Für Enterprise-Setups ist das der fehlende Baustein. Ein zentraler Identity Provider regelt, welcher Client an welche Ressource darf, statt dass jede App ihren eigenen OAuth-Tanz aufführt.

Exclusive: OpenAI Losses Increased Nearly 8X in 2025, With Spending Hitting $34 Billion

Man könnte jetzt darauf herumhacken, aber das wäre dann nur sinnloses Daraufherumhacken. Ed Zitron hat die testierten Zahlen gesehen, von der Financial Times gegengeprüft: 13 Milliarden Umsatz, 34 Milliarden Kosten, unterm Strich ein Verlust von rund 38 Milliarden. Grob das Achtfache von 2024.

Es gab in der Vergangenheit schlimmere Fälle von Geldverbrennung. Enron zum Beispiel, das hatte dann allerdings andere Konsequenzen. Oder, jünger: WeWork – wo Geld zum Fenster rauswerfen zum guten Ton gehörte. Gründer Neumann musste schon nach dem geplatzten IPO 2019 als CEO gehen, der Laden selbst rettete sich später über eine Insolvenz und radikales Verschlanken, aus der er Mitte 2024 als abgespeckte Privatfirma wieder rauskam.

Altman wollte man ja auch mal loswerden, aber die Belegschaft wollte ihn zurück. Was beim gleichzeitigen Vorwurf, er begünstige eine toxische Arbeitsatmosphäre, schon erstaunlich ist. Das stärkt die Glaubwürdigkeit jener, die den Vorwurf in den Raum gestellt haben, nicht gerade. Ich lasse das weitgehend unkommentiert und unterlasse Spekulationen.

Building an LLM safe design system

Kurz gefasst, warum Polar Tailwind einschränkt, sobald ein LLM den Code tippt. Das klingt schlüssig.

Der Punkt ist nicht, dass Tailwind schlecht wäre – Polar nennt es selbst „outstanding“. Das Problem ist die Offenheit. Für einen Menschen am Keyboard ist sie ein Feature, für ein tippendes Modell wird sie zum Risiko. Bitte ein LLM um eine Card, und es greift zu p-4, rounded-lg, bg-gray-100 – jeder Wert für sich plausibel, keiner zwingend deiner. Über hunderte Komponenten driftet das Interface in tausend leicht verschiedene Grautöne. Polars Antwort heißt Orbit, ein getyptes System, in dem sich eine Off-Brand-Entscheidung gar nicht erst ausdrücken lässt. Was nicht als Design-Decision hinterlegt ist, kommt nicht durch die CI.

Nur am Rande: Das hier genutzte Blog-Theme wurde von Claude Code gebaut, also auch von einem LLM – und trotzdem kam etwas Schlankes, Bloat-armes mit Tailwind heraus. Fairerweise ist ein kleines Ghost-Theme aber nicht im Ansatz mit Polars Maßstab vergleichbar. Was bei einer Handvoll Templates sauber bleibt, driftet im Team-Betrieb über tausende Generationen trotzdem weg.

Soviel zu dieser Woche. Vielleicht werden nächste Woche wieder LLM-Wochen eingeläutet – schauen wir mal.