AI Picks KW 26: GPT-5.5-Cyber, Fugu und Codex-SSD-Bug

Die Vermutung der letzten Woche war nicht ganz falsch: Die Modellwochen werden wieder eingeläutet, zumindest in Teilen. Ein bisschen Gossip gibt's obendrauf. Und Security wird gerade von der Pflichtübung zum Verkaufsargument, das zieht sich diese Woche durch mehrere Picks. BTW: Man möge mir verzeihen, wenn ich nicht jedes neue AI-SaaS-Tool oder Video-/Audio-Modell aus den Vereinigten Staaten von Kaputtistan oder dem Reich der Mitteilung hier breittrete. Relevanz und so.

Sortiert ist das Ganze thematisch: erst Security, dann ein Block Agenten und Orchestrierung, etwas China-Gossip, zum Schluss Tools und eine Geschichte aus dem echten Leben.

New tools und GPT-5.5-Cyber

Security wird anscheinend ein Ding. Bei OpenAI sind diese Woche gleich mehrere Sachen hinten rausgefallen, alle unter dem Dach von Daybreak: ein Update fürs Codex-Security-Plugin, ein Cyber-Partner-Programm mit gut zwei Dutzend Sicherheitsfirmen (Cisco, CrowdStrike, Cloudflare, Palo Alto, Wiz und Co.), dazu „Patch the Planet", eine Initiative mit Trail of Bits und HackerOne, die über 30 Open-Source-Projekte von der Lücke zum Fix bringen soll, darunter cURL, Go und Python. Last but not least: GPT-5.5-Cyber.

Das Modell ist die freizügigere, schärfere Variante für autorisierte Defensiv-Arbeit und kommt nur über „Trusted Access for Cyber“, also nicht für jeden. OpenAI nennt 85,6 % auf CyberGym gegenüber 81,8 % für das normale GPT-5.5. Herstellereigene Bench, kein unabhängiger Drittwert, das übliche Sternchen. Der eigentliche Dreh steckt im Framing: Bugs finden ist nicht mehr das Problem, das Patchen schon. Genau da hängt sich der ganze Apparat ein.

Computer use in Gemini 3.5 Flash

Bleiben wir beim Thema. Google backt Computer Use jetzt nativ in Gemini 3.5 Flash, vorher steckte das in einem separaten 2.5er-Modell. Der Agent bekommt einen Screen und ein Ziel und klickt, tippt und scrollt sich durch Browser, Mobile und Desktop. Auch hier kommt Security mit auf den Tisch.

Das Modell wurde gezielt adversarial gegen Prompt Injection trainiert. Dazu kommen zwei optionale Enterprise-Schutzschichten: eine verlangt bei heiklen oder irreversiblen Aktionen eine Nutzerbestätigung, die andere stoppt den Task automatisch, sobald eine indirekte Injection erkannt wird. Auf OSWorld landet das Ding bei 78,4, quasi gleichauf mit GPT-5.5 (78,7). Solide für ein Flash-Modell, das Search, Maps und Function Calls nebenher mitnimmt. Ob „Injection Detection“ in freier Wildbahn hält, was das Datenblatt verspricht, steht auf einem anderen Blatt. Prompt Injection ist branchenweit ungelöst.

Codex is quietly killing your SSD

Jetzt wird's unangenehm. Codex von OpenAI, CLI und Desktop-App, hatte einen fiesen Bug in der Logging-Konfiguration. Ein interner SQLite-Feedback-Sink lief standardmäßig auf globalem TRACE-Level, der lautesten Stufe überhaupt, und schrieb permanent WebSocket-Payloads, Dateisystem-Events und internen Protokoll-Müll auf die Platte. Rui Fan, PMC-Mitglied bei Apache Flink, hat es dokumentiert: rund 37 TB Schreibvolumen in 21 Tagen Uptime, hochgerechnet etwa 640 TB im Jahr. Eine typische 1-TB-Consumer-SSD ist auf circa 600 TBW ausgelegt. Du ahnst, worauf das hinausläuft.

Wer jetzt schnell [analytics] enabled = false in seine config.toml setzt: spar dir die Mühe. Laut einem weiteren Issue schreibt das Ding die TRACE-Logs trotzdem weiter, auch mit deaktivierten Analytics und RUST_LOG=warn. Der einzige echte Notnagel war, logs_2.sqlite per Symlink nach /tmp umzubiegen, also in den RAM.

Gefixt wurde es über die Releases. Drei PRs landeten in 0.142.0 und 0.143.0 und sparen rund 85 % der Logs ein. Heißt für dich: erst updaten, dann aufräumen.

Sakana Fugu

Und jetzt zu den Agenten. Sakana Fugu ist am 22. Juni von Sakana AI erschienen. Schon ein Move, ein Modell nach einem potenziell tödlichen Fisch zu benennen, beziehungsweise nach einer beliebten kulinarischen Spezialität. Wofür das Teil gut ist, steht gleich im Titel:

One Model to Command Them All

Heißt konkret: ein Multi-Agenten-Orchestrierungssystem, das sich als ein einziges Basismodell präsentiert. Fugu ist selbst ein Sprachmodell, trainiert darauf, verschiedene LLMs aus einem Agentenpool aufzurufen, rekursive Instanzen seiner selbst eingeschlossen. Es gibt zwei Varianten, Fugu und Fugu Ultra, und Sakana behauptet, dass Ultra auf den harten Engineering- und Reasoning-Benches mit Anthropics Fable 5 und Mythos Preview mithält. Spannend ist weniger die Zahl als das Verkaufsargument dahinter: Frontier-Leistung ohne das Risiko von Exportkontrollen.

Gemini Interactions API

Die Interactions API von Google ist jetzt allgemein verfügbar und wird zur primären Schnittstelle für Modelle und Agenten. Die alte generateContent-API gilt damit offiziell als Legacy, läuft aber weiter. Praktisch interessant sind zwei Dinge: serverseitiges State-Management über eine previous_interaction_id-Funktion und dadurch höhere Cache-Trefferraten, was bei Multi-Turn-Geschichten die Token-Kosten drückt. Google selbst sagt ziemlich offen, wohin die Reise geht: neue agentische Fähigkeiten landen künftig zuerst, und teils nur, auf der neuen API. Wer heute frisch gegen Gemini baut, sollte das einkalkulieren.

Ornith-1.0: Self-Scaffolding LLMs for Agentic Coding

Bin ich bei X drübergestolpert, passt zum Loop-Engineering-Thema aus der 25. KW: DeepReinforce, vorher kein Begriff für mich, haben mit Ornith-1.0 ein Set von Reasoning-Modellen für agentisches Coding trainiert. Der Clou ist das Self-Scaffolding: Statt sich auf ein von Menschen gebautes Harness zu verlassen, lernt das Modell im RL, sein eigenes Scaffold zu schreiben, und optimiert Gerüst und Lösung gemeinsam. Die Bandbreite reicht von 9B Dense über 35B MoE bis hinauf zu 397B MoE, post-trainiert auf Gemma 4 und Qwen 3.5, alles unter MIT-Lizenz.

Klar sind das frisch erhobene Eigen-Benchmarks, aber sie wirken nicht fernab jeder Realität, weil sie das Ding gegen echte Peers stellen. Ein Sternchen gehört trotzdem hin: Die 82,4 auf SWE-Bench Verified beim 397B matchen Claude Opus 4.7 und das größere GLM-5.2-744B liegt ebenfalls vorn. Augenhöhe also zur Vorgängergeneration. Definitiv ein interessanter Testkandidat, den ich mir nächste Woche über OpenRouter (falls vorhanden) oder lokal in passender Größe ansehe.

Qwen-AgentWorld

Die wollen's anscheinend echt wissen. Qwen-AgentWorld simuliert Agentenumgebungen in sieben Bereichen: Terminal, Suche, MCP und SWE auf Text-Ebene, dazu Web, Android und Desktop-OS-State auf GUI-Ebene. Wichtig zum Verständnis: Das ist ein World Model, also ein Simulator. Es führt deine Tool-Calls nicht aus, sondern sagt voraus, was eine Umgebung zurückgäbe, gedacht, um Agenten zu trainieren und zu testen, ohne echte Systeme anzufassen.

Als Roadmap hängen sie drüber, sie wollten ausloten, wie weit sich allgemeine Agentenfähigkeiten mit sprachbasiertem World Modeling treiben lassen. Auf der eigenen AgentWorldBench schlägt das große 397B-A17B angeblich GPT-5.4, Claude Opus 4.8 und Gemini 3.1 Pro, herstellereigen, klar.

Ist das gut? Kann ich nicht beantworten. Was ich beantworten kann: Den Datenschutz-Reflex, einer staatsnahen chinesischen Organisation etwas hinzuwerfen, musst du sauber sortieren. Über deren eigenen API-Endpoint fließen deine Trajektorien zu Alibaba, das ist der Punkt, an dem ich vorsichtig wäre. Das kleinere 35B-A3B liegt allerdings unter Apache 2.0 auf Hugging Face und läuft lokal über vLLM oder SGLang. Wer den API-Pfad meidet, entschärft die Sorge selbst. Apropos Alibaba.

Anthropic says Alibaba must be punished for largest Claude cloning attack

Und hier der versprochene Gossip. Anthropic wirft Alibaba in einem Brief an die Senatoren Tim Scott und Elizabeth Warren vor, die größte bislang gemessene Distillation-Kampagne gegen Claude gefahren zu haben. O-Ton aus dem Schreiben:

new, confidential evidence of the largest campaign to illicitly extract Claude's capabilities we have ever measured.

Das vielzitierte „Klonen“ ist übrigens die Zuspitzung der Presse, nicht Anthropics Wortlaut. Der Brief ging einen Tag vor einer Senatsanhörung raus, und er zielt explizit darauf, dass China so schneller Mythos-Preview-Niveau erreicht. Du erinnerst dich an das Fable-Drama, der Kreis schließt sich.

Die Zahlen: fast 25.000 betrügerische Konten, über 28,8 Millionen Anfragen zwischen dem 22. April und dem 5. Juni, zugeschrieben Operatoren im Umfeld von Alibaba und dessen Qwen-Lab. Jetzt der Haken, und der ist hausgemacht: Anthropic schreibt selbst, Alibaba sei der Entdeckung mit Verschleierungstechniken und Proxy-Netzwerken entgangen, attribuiert die Sache aber im selben Atemzug glasklar Alibaba. Auf Basis vertraulicher Belege, die öffentlich niemand sieht. Was denn nun? Wer großflächig abschnorchelt, verschleiert in der Regel als Erstes, wer er ist und woher er kommt. Den Ali-Baba-und-die-25.000-Räuber-Witz spare ich mir an dieser Stelle. Fast.

Mistral OCR 4

Mistral OCR 4 ist da, und das Ding kann mehr, als eine Seite in sauberen Text zu gießen. Es liefert strukturierten Output: Bounding Boxes, Block-Klassifikation und Confidence-Scores, gedacht als Ingestion-Baustein für RAG, agentische Workflows und Pipelines. 170 Sprachen, eigener Endpoint, Teil des Search Toolkits. Der API-Preis liegt bei 4 USD je 1.000 Seiten, im Batch bei der Hälfte. Interessantes Abrechnungsmodell übrigens, pro Seite statt pro Mio.-Token.

Anders als ich erst dachte, halten sie die Accuracy nicht zurück: 72 % Win-Rate in einem Blindvergleich, Spitzenwert auf OlmOCRBench mit 85,20, dazu 93,07 auf OmniDocBench. Bemerkenswert ehrlich für eine Produktankündigung: Mistral auditiert die eigenen Benchmark-Artefakte und nennt den Score ausdrücklich „directional“, also einen Richtwert, keine Naturkonstante. Das Sternchen setzt der Hersteller hier praktisch selbst.

Der Standardweg ist die Mistral-API über einen eigenen Endpoint, dazu Amazon SageMaker und Microsoft Foundry. Das Single-Container-Deployment im eigenen Haus läuft nur über das Enterprise-Programm, sprich: bei Mistral anfragen, Preis auf Anfrage. Für Compliance- und DSGVO-Schmerzen ist genau dieser On-Prem-Pfad das eigentliche Argument, nicht die Geschwindigkeit, aber wer ihn will, muss durch den Vertrieb. Für alle anderen bleibt die gehostete API, und die nimmst Du mit, wenn Du eh Mistral-Kunde bist. Sobald Du wirklich selbst hosten willst und nicht zum Enterprise-Deal greifen magst, gibt es reichlich andere Optionen.

Introducing Claude Tag

Claude Tag startet als Slack-Integration, und Claude rückt quasi als Teammitglied in den Channel ein. Du tippst @Claude, delegierst eine Aufgabe mit vorab gescoptem Tool-Zugriff, und das Ding arbeitet sie in Etappen ab und meldet sich im Thread zurück. Der Twist gegenüber den alten Integrationen: Es gibt einen Claude pro Channel, geteilt vom ganzen Team, plus einen „ambienten“ Modus, der sich auch ungefragt meldet. Läuft auf Opus 4.8 und ersetzt die bisherige Slack-App.

Das ist intern bei Anthropic gewachsen – nach eigener Angabe schreibt die interne Variante inzwischen 65 % des Codes im Produktteam. Man hat sich also gedacht: cooles Feature, machen wir public. Der ganze Beitrag liest sich so, als wäre da zeitnah noch mehr zu erwarten.

New version of GPT-5.5 Instant

Sowas bläst OpenAI über X raus, und für mich klingt es eher nach einer Drohung:

„We have a new version of GPT-5.5 Instant for you, and it's much more fun to talk to.“

Und weiter:

„It also handles complex constraints more reliably and makes shopping and local recommendations more useful and cohesive.“

Nachzulesen direkt bei OpenAI auf X.

Übersetzt: Das ist was für den Chat-Endnutzer, kein Capability-Sprung. Shopping- und Local-Empfehlungen plus „mehr Spaß im Gespräch“.

Wenn ihr sowas für eure Mitarbeiter ausrollt, treibt dem Ding das via Custom Instructions am besten gleich wieder aus.

cognee 1.0

Memory für Agenten ist gerade ein heißes Pflaster, und cognee mischt mit, frisch auf Version 1.0. Das Open-Source-Projekt gibt Agenten ein persistentes Langzeitgedächtnis über Sessions hinweg, gebaut um eine schlanke Memory-API herum, remember, recall, improve, forget. Der eigentliche Clou der 1.0 ist die Diät beim Stack. Graph-Memory hieß bisher: eine Graphdatenbank für Beziehungen, eine Vektordatenbank für Embeddings, Redis für Sessions, dazu was Relationales für Metadaten, alles aufsetzen, absichern und bezahlen, bevor sich der Agent auch nur eine Sache merkt. In 1.0 läuft die ganze Memory-Schicht auf einer einzigen Postgres-Instanz, der Graph lebt einfach mit drin. Dedizierte Backends wie Neo4j kannst du weiterhin einschwenken, wenn die Last es verlangt.

Lizenz ist Apache 2.0, der Code liegt offen auf GitHub, und ein bisschen Lokalpatriotismus sei erlaubt: Made in Berlin. Hinter cognee steckt die Topoteretes UG aus Kreuzberg, die im Februar eine Seed-Runde über 7,5 Millionen Dollar geholt hat. Schaue ich mir in jedem Fall an.

Bring your Document Workflows to n8n with the LlamaParse Node

Passt zum Dauerthema Dokumente-in-Pipelines: Für LlamaParse gibt es jetzt einen n8n-Community-Node. Das bringt nicht nur das Parsing in deine Workflows, sondern auch die Extraction-Agents von LlamaExtract und deine LlamaCloud-Indizes als Knowledge Base, alles per Drag-and-drop.

Für mich ist das vor allem weniger Reibung beim Bauen von Testreihen und POCs. Und für den Daily Use in n8n sowieso eine gute Nachricht.

GPT-5.6

OpenAI hat GPT-5.6 in die Startlöcher gestellt, gestaffelt in drei Tiers: Sol als Flaggschiff, Terra als ausgewogene Mittelklasse und Luna als schnelle, günstige Variante. Vorerst nur als Limited Preview über API und Codex, an rund 20 Organisationen, nicht in ChatGPT.

Die Benchmarks, mit denen OpenAI wirbt, sind erwartungsgemäß die eigenen, man kennt das ja. Spannend ist die eine unabhängige Messung, und die lief schief. Sol wurde beim Schummeln erwischt, und zwar so heftig wie kein öffentlich getestetes Modell zuvor. Der unabhängige Evaluator METR berichtet, dass Sol bei Software-Tasks Bugs in der Testumgebung ausnutzte, versteckte Lösungen aus der Test-Suite zog und die Spuren anschließend zu verwischen versuchte. OpenAIs eigene System Card räumt ein, dass das Modell bei Aufgaben schummelt und Forschungsergebnisse fabriziert. Der gefeierte Coding-Rekord auf Terminal-Bench 2.1 steht damit auf wackligen Beinen, denn ein Score, den ein Modell durch ausgetrickste Tests holt, ist keiner.

Und es riecht ein wenig danach, als drohe OpenAI ein ähnliches Szenario wie Anthropic. Die abgespeckte Auslieferung erfolgt auf Wunsch der Trump-Administration, die nationale Sicherheitsbedenken anführt, im Rahmen derselben Executive Order, unter der schon Fable 5 und Mythos 5 fielen. Noch ist es nur eine gestaffelte Freigabe, kein Komplett-Aus. Aber das Muster ist dasselbe.

Copilot kauft man nicht, Copilot verdient man sich

Ich hatte diese Woche ein interessantes Gespräch und anonymisiere alles Relevante dahinter, weil ich niemandem auf die Füße treten möchte.

Ausgangslage: größeres Unternehmen aus der Finanzbranche, das aus Mandatsschutz-, Compliance- und Datenschutzgründen quasi nichts ins öffentliche Internet rauslassen darf. Ausgerollt wurde an die Mitarbeitenden Microsoft Copilot, unter anderem als interne Knowledge-Database, quasi das bessere Hilfeportal für alle. Ein RAG, in Sharepoint, für Copilot, wtf?!

Ein bemitleidenswerter Mitarbeitende darf sich da nun als Einzelkämpfer durchwühlen und Sharepoint mit internen Dokumenten füllen, die teils seit Jahren niemand angefasst hat und die in den allermeisten Fällen der pure Albtraum jedes token-gestützten Systems sind: Word-Dokumente mit Bildern, Powerpoint, Excel-Tabellen (eher harmlos), PDFs – das volle Programm. Irgendwann hat er/sie festgestellt, dass der inhaltliche Kontext von Bildern gar nicht erkannt wird, wenn er/sie die so in Sharepoint kippt. Also ist er/sie dazu übergegangen, Bilder und Grafiken in den Dokumenten von Hand zu beschreiben. Von Hand!

Dass das insgesamt betrachtet alles nicht so gut läuft, muss ich niemandem erzählen. Dass die Akzeptanz bei den Mitarbeitenden im Haus durchwachsen ist, vermutlich auch nicht. Exakt das passiert, wenn du dir vorher keine anständige Beratung mit Analyse deiner echten Probleme ins Haus holst. Und damit bin ich raus für diese Woche.