AI Picks der 19. KW

Ich sollte mir angewöhnen, die Picks nicht schon am Donnerstag zu veröffentlichen, denn heilige Axt – ist das ergiebig diese Woche. Vieles habe ich aber auch gepflegt ignoriert, auch wenn es teilweise schwerfällt. So ein bisschen, wie bei einem Verkehrsunfall: Man möchte wegschauen, kann aber nicht.

Ab nächster Woche kommen die Picks erst am Sonntag – das werden laaaaange Artikel, wenn das so weitergeht jede Woche. Am besten, ihr nehmt euch zukünftig bis einschließlich Dienstags schon mal nichts vor.

Hier nun Teil 2 für diese Woche:

OpenAI bringt drei neue Realtime-Voice-Modelle in die API

Das hätte fast eine eigene Meldung verdient gehabt, aber nun kommt es hier. OpenAI hat am 7. Mai drei neue Audio-Modelle in der Realtime-API veröffentlicht: GPT‑Realtime‑2 mit GPT-5-Class-Reasoning für komplexere Anfragen, GPT‑Realtime‑Translate für Live-Übersetzung aus 70+ Eingabesprachen in 13 Ausgabesprachen, und GPT‑Realtime‑Whisper als Streaming-Speech-to-Text.

Der eigentliche Sprung steckt in Realtime 2: Das Modell kann mitten im Gespräch Reasoning betreiben, Tools aufrufen und Fehler korrigieren, ohne dass die Konversation abreißt. OpenAI nennt selbst die Eval-Zahlen: 15,2 Prozent Vorsprung auf Big Bench Audio gegenüber Realtime-1.5, 13,8 Prozent auf Audio MultiChallenge. Standard-Disclaimer: herstellereigene Werte, eigene Bench, eigene Auswertung. Aber der Schritt von „Befehl rein, Antwort raus“ zu „Konversation, in der das Modell während des Sprechens denkt“ ist real.

Preislich liegen die Modelle laut TechCrunch und 9to5Mac bei 32 Dollar pro Million Audio-Input-Token (0,40 Dollar Cached) und 64 Dollar pro Million Audio-Output-Token für Realtime-2; Translate und Whisper werden nach Minute abgerechnet (3,4 ct/min bzw. 1,7 ct/min).

Wer GPT-5.5 Instant als neuen Default in ChatGPT mitverfolgt hat, sieht hier dasselbe Muster: OpenAI baut die Reasoning-Klasse konsequent in alle Modalitäten ein. Voice ist mit Realtime-2 dort angekommen, wo Text mit GPT-5 schon eine Weile steht.

Hotter Take: Wer bisher Voice-Agenten gebaut hat und an der Stelle „Modell muss verstehen, was der User eigentlich will, bevor es antwortet“ gescheitert ist, sollte sich Realtime-2 ernsthaft ansehen. Der Markt für Telefon-Bots wird sich in den nächsten Monaten merklich bewegen.

Claude Managed Agents: Dreaming, Outcomes, Multiagent

Anthropic hat parallel zur Microsoft-365-Story (gleich mehr) auf der hauseigenen Code-with-Claude-Konferenz drei Updates für Claude Managed Agents rausgeschoben. Managed Agents ist seit April der Harness, mit dem man Claude als autonomen Agent in Anthropics Infrastruktur laufen lässt – Memory, Tool-Integration, Action-Handling sind vorgebaut, statt dass man sich seinen eigenen Agent-Loop bastelt.

Die drei Neuerungen:

Dreaming (Research Preview): Ein asynchroner Job, der vergangene Sessions des Agents durchgeht, Muster extrahiert und Memory-Stores bereinigt. Anthropic verkauft das mit der Analogie zum menschlichen Schlaf – nachts werden Erfahrungen sortiert. VentureBeat zitiert Alex Albert von Anthropic, der das eher mit „Skills, die Mitarbeiter nach abgeschlossenen Aufgaben dokumentieren" vergleicht. Beides ist Marketing-Geschmacksache; technisch heißt es: Memory wird kuratiert, statt unkontrolliert zu wachsen, und Fehler aus alten Sessions sollen nicht wieder gemacht werden.

Outcomes (Public Beta): Für Tasks mit klar definiertem Erfolgskriterium. Statt nur Schritte auszuführen, prüft der Agent gegen ein Outcome-Objekt, ob das Ziel erreicht ist.

Multi-Agent Orchestration (Public Beta): Ein Lead-Agent verteilt Teilaufgaben an spezialisierte Sub-Agents, die parallel auf einem geteilten Filesystem arbeiten. Laut The Decoder sind bis zu 20 Agents und 25 parallele Threads möglich. Netflix nutzt das laut Anthropic bereits im internen Platform-Team.

Was im Originaltext nicht hervorgehoben wird: Das Self-Improving-Narrativ ist hübsch, aber praktisch ist Dreaming zuallererst eine Memory-Cleanup-Routine mit Pattern-Extraction. Ob daraus tatsächlich „Agents, die aus ihren Fehlern lernen“ werden oder ob sich Halluzinationen über Sessions hinweg verfestigen, wird man in echten Deployments sehen. Self-Improving-Systeme klingen immer gut, bis ein Agent über Wochen die falsche Lektion lernt und sie dann in jeder neuen Session anwendet.
Die steile These: Multi-Agent-Orchestration ist die ehrlichste der drei Neuerungen – das ist solides Engineering-Plumbing, das man als Builder gebrauchen kann. Dreaming ist spannend, aber eine Wette.

Claude for Microsoft 365: Add-ins für Excel, Word, PowerPoint – und nein, das ist nicht „Claude in Copilot“

Direkt im Anschluss zur Verwirrungsvermeidung, denn die Geschichte ist in den letzten Wochen zweimal über die Ticker gegangen, und es sind zwei verschiedene Dinge.

Sache eins (älter, schon Ende 2025): Microsoft selbst hat Claude in 365 Copilot integriert, sodass Copilot-User zwischen OpenAI- und Anthropic-Modellen umschalten können. Das ist die Microsoft-Geschichte – Copilot bleibt Copilot, kann jetzt aber Claude-Modelle aufrufen.

Sache zwei (diese Woche): Anthropic hat eigene Claude-for-Microsoft-365-Add-ins für Excel, Word und PowerPoint „generally available“ gepusht – Outlook ist in Public Beta. Das ist kein Claude-in-Copilot, sondern Claude neben Copilot. Das Add-in läuft eigenständig in Excel, Word, PowerPoint – mit Claude im Sidecar, ohne den Umweg über Copilot.

Der Hebel und Unterschied zu Copilot: Copilot ist Microsofts horizontale Plattform, mit Microsofts UX, Microsofts Routing-Logik und Microsofts Ökosystem-Integration (Teams, Graph, SharePoint). Das Anthropic-Add-in ist purer Claude im Office-Fenster – inklusive Anthropics Skills, Connectors und mittlerweile auch Managed Agents. Laut Anthropic passt sich Claude an Heading-Styles, Slide-Master und Formel-Konventionen aus dem Dokument an, statt eine generische Outline drüberzulegen.

Die Stoßrichtung des Launches ist klar erkennbar an dem, was Anthropic zeitgleich angekündigt hat: zehn fertige Agent-Templates für Financial Services, Connectoren zu Dun & Bradstreet, IBISWorld, Verisk, Moody's und Co. Der Use-Case, den Anthropic da malt, ist Wallstreet: Pitchbooks bauen, Credit-Memos schreiben, Modelle in Excel auditieren. Anthropic verweist dafür auf den Vals AI Finance Agent Benchmark, in dem Claude Opus 4.7 mit 64,37 Prozent vor GPT-5.5 (59,96 Prozent) und Gemini 3.1 Pro (59,72 Prozent) liegt – immerhin ein Drittanbieter-Benchmark, also nichts selbst zusammengezimmertes, auch wenn Vals AI sich auf Finanzaufgaben spezialisiert und der Benchmark-Verlauf entsprechend zu lesen ist.

Nächste steile These: Wenn man heute Excel und PowerPoint hauptsächlich für Standard-Office-Kram nutzt und schon einen Microsoft-365-Stack hat, ist Copilot mit optionalem Claude-Backend näher am gewohnten Workflow. Wenn man Claude ohnehin schon im Abo hat (Pro, Max, Team, Enterprise), Skills oder Connectors nutzt und die Office-Welt eher als Ausgabe-Frontend für Claude-Workflows sieht, dann sind die Anthropic-Add-ins der direktere Weg.

In welcher Kombination sich das in der Praxis zwischen Anthropic und Microsoft kannibalisiert oder ergänzt – wir werden sehen. Die spannende Frage ist, ob Anthropic mit den Finance-Templates tatsächlich an Microsoft Copilot vorbeizieht, wo die Daten ohnehin schon liegen. Bei Investment-Banken sitzt der Analyst meist näher am Excel-Modell als am Copilot-Toggle, und genau da setzt Claude for Excel an.

Souveräne KI aus Deutschland – STACKIT plus neuland.ai

Heise meldet, dass STACKIT, der Cloud-Anbieter der Schwarz Gruppe, gemeinsam mit der Kölner neuland.ai eine durchgängig in Deutschland betriebene KI-Architektur etablieren will. Der neuland.ai HUB ist die Orchestrierungs-Schicht, STACKIT liefert die Infrastruktur in deutschen Rechenzentren. Modelle wahlweise on-prem auf Kunden-Hardware, in der STACKIT-Cloud oder, wenn man unbedingt will, bei US-Hyperscalern. Verfügbar sind unter anderem Llama, Mistral und Qwen, bis zu 120 Milliarden Parameter.

Der Verkaufstrick: Daten Ende-zu-Ende-verschlüsselt, neuland.ai verspricht null Zugriff aufs Klartext-Material, Nutzung für Modelltraining ausgeschlossen. Zielgruppe sind Unternehmen, die ihre Daten aus DSGVO- oder Compliance-Gründen nicht an OpenAI oder Anthropic schicken können oder dürfen – Stichwort US Cloud Act, der US-Behörden auch dann Zugriff erlaubt, wenn Daten formal in europäischen Rechenzentren liegen, aber bei US-Unternehmen.

Inhaltlich: gut, wenn man's denn ernst nimmt. Der Cloud-Act-Punkt ist real, das Bedürfnis vieler Unternehmen ist real, und die Schwarz Gruppe hat mit STACKIT die Infrastruktur. neuland.ai liefert den HUB. Auf dem Papier passt das.

Womit wir nahtlos beim Skepsis-Block wären: „Souveräne KI aus Deutschland“ ist genau jenes Etikett, das in den letzten zwei Jahren häufiger geklebt als geliefert wurde. Soofi, IPAI, die Sovereign Technology Alliance mit Kanada – man kennt die Pressemitteilungs-Choreografie. Da die damit gerne Geld verdienen möchten und keine Ausschreibung einer Bundesbehörde oder eines Ministeriums dahintersteckt, rechne ich mit einem Rollout noch vor 2032. Bei STACKIT plus neuland.ai gibt es immerhin den Vorteil, dass STACKIT operativ schon läuft und Schwarz/Lidl als Ankerkunden bedient. Das ist mehr Substanz als bei vielen Soufflés der letzten Jahre. Ob daraus eine ernsthafte Alternative für den Mittelstand wird oder nur ein Compliance-Feigenblatt für die wenigen, die es wirklich brauchen – warten wir ab.

Skymizer HTX301 – 700B auf einer einzigen PCIe-Karte, bei 240 Watt

Die Pressemitteilung kommt aus Hsinchu, das ist Taiwan. Und die Skymizer HTX301 – 700B wird vermutlich schneller ausverkauft sein, als du den Namen einmal komplett aussprechen kannst.

Skymizer hat die HTX301 vorgestellt, eine PCIe-Karte mit sechs HTX301-Chips, 384 GB Speicher und einer angegebenen Leistungsaufnahme von rund 240 Watt. Auf der Karte sollen 700-Milliarden-Parameter-Modelle lokal laufen – ohne GPU-Cluster, ohne NVLink, ohne aufwendige Kühlung. WCCFTech ordnet das in die Größenordnung „weniger als die Hälfte des Stromverbrauchs einer NVIDIA RTX PRO 6000 Blackwell oder einer AMD Instinct MI350P“ ein.

Die Architektur heißt HyperThought und basiert auf einer Idee, die unter dem Akronym „Prefill/Decode-Disaggregation“ läuft: Inferenz hat zwei Phasen – Prefill (Prompt verarbeiten, compute-bound) und Decode (Tokens generieren, memory-bandwidth-bound). GPUs müssen beides auf derselben Hardware berechnen und stranden je nach Workload entweder bei Compute oder Bandbreite. Skymizer baut spezialisiertes Decode-Silicon und orchestriert die Phasen über einen Software-Stack mit KV-Cache-Manager und Phase-aware Scheduler. Der Speicher ist übrigens kein HBM und kein GDDR, sondern stinknormales LPDDR4/LPDDR5 – das hilft beim Preis und beim Verbrauch.

Hersteller-Sternchen, und davon reichlich: Die Zahlen stammen von Skymizer, unabhängige Drittmessungen gibt es noch keine. „Bis zu 1200 Tokens/Sekunde bei Llama2 7B“ liest sich beeindruckend, aber es fehlen Angaben zu Quantisierung, Context-Länge, Tokens/Sekunde bei tatsächlich 700B-Modellen, Concurrent Users und Output-Qualität. Cloudnews hat die offenen Fragen sauber aufgelistet, Startup Fortune merkt zusätzlich an, dass Skymizer selbst die Karte als GPU-Ergänzung positioniert, nicht als reinen Ersatz – Prefill kann man weiterhin den GPUs überlassen.

Vorgestellt wird der Chip auf der COMPUTEX 2026 Ende Mai. Bis dahin: nüchtern bleiben. Die Idee ist plausibel und die Lücke im Markt ist real – on-prem LLM-Inferenz ohne 4er-GPU-Box ist seit Monaten ein Thema. Aber „läuft wie geschmiert“ ist eine Behauptung, kein unabhängiger Benchmark.

tinyfish.ai – Enterprise Web Agents, aber wo läuft das eigentlich?

tinyfish.ai verkauft sich als „Enterprise Infrastructure for AI Web Agents“. Konkret: eine serverlose Plattform, auf der Agents bis zu 1000 Web-Operationen parallel ausführen, an Logins, Formularen und Paywalls vorbei, mit strukturierten Ergebnissen via API. Crunchbase und Tracxn listen Sitz Palo Alto, eine Series A über 47 Millionen Dollar von ICONIQ Capital, gegründet 2024. Genannte Kunden: Google (für japanisches Hotel-Inventar in Google Travel), DoorDash, Amazon. Das ist nicht nichts.

Use Cases: Preis-Monitoring über tausende E-Commerce-Sites, Real-Time-Verfügbarkeit über 32.000+ Studio-Buchungssysteme, Datenextraktion aus Carrier-Portalen für Versicherungen. Das alles auf der Argumentationsbasis: „Agents tun das, wofür ihr sonst Heerscharen manueller Operationsmitarbeiter braucht.“

Klingt spannend. Frage ist nur: Wo wird der Kram verarbeitet? Auf der Website findet man unter „Enterprise“ einen Punkt „Run in your VPC – Your infrastructure, your rules, our agents“, was suggeriert, dass die Agent-Workloads in der eigenen Umgebung laufen können. Das ist gut.

In den Standard-SaaS-Plänen ab 15 Dollar pro Monat (laut diesem Review) läuft alles auf TinyFish-Infrastruktur in den USA. Eine explizite DSGVO-Aussage, ein DPA, ein Hinweis auf Standardvertragsklauseln oder ein dokumentierter EU-Datenstandort? Auf der öffentlichen Site nicht zu finden.

Heißt für mich: Für unkritische Use-Cases – öffentlich zugängliche Daten extrahieren, Wettbewerber-Preise sammeln, irgendein Verfügbarkeits-Monitoring – kann man das ausprobieren. Sobald Login-Daten, personenbezogene Daten, Kunden-IDs oder regulierte Branchen ins Spiel kommen, ist die VPC-Option Pflicht und ein gründlicher Blick auf den DPA bzw. die Verarbeitungsstandorte ebenso. Bis dahin: vorsichtig. Ein Pick für mich? Vielleicht. Ein Pick für sensible Workflows ohne weitere Klärung? Nein.

ByteDance UI-TARS / Agent TARS

Ich wollte mir agent-tars.com ansehen, und mein Browser hat mir freundlich mitgeteilt, dass er dem dort hinterlegten SSL-Zertifikat nicht traut – das Zertifikat passt nicht zur Domain (Hostname mismatch, Stand 08. Mai 2026). Das ist – nun ja – kein gutes erstes Bild für ein Projekt, das vorhat, mein gesamtes Betriebssystem zu steuern.

Sobald man das ignoriert: UI-TARS ist ByteDances Open-Source-Multimodal-Agent-Stack. Das eigentliche Projekt besteht aus zwei Teilen: UI-TARS Desktop ist eine GUI-Agent-Anwendung, die ein Vision-Language-Modell nutzt, um den Computer per natürlicher Sprache zu steuern. Agent TARS ist die abstraktere Schicht – ein CLI plus Web-UI, die Browser-Automatisierung, Code-Execution, MCP-Integration und Filesystem-Zugriff kombiniert. Apache-2.0-Lizenz, 27.000+ Sterne auf Github, aktive Releases.

Als Modellprovider lassen sich OpenAI, Anthropic, Volcengine oder lokale Modelle via Ollama einbinden. Man muss den Agent auf Mac mit Accessibility- und Screen-Recording-Permissions ausstatten, und damit hat er dann effektiv Zugriff auf alles, was auf dem Bildschirm ist. Passwords, Mails, vertrauliche Dokumente.

ByteDance ist ByteDance. Open Source mildert einiges – der Code ist auditierbar, man kann lokal laufen lassen, theoretisch ohne externe Calls. Aber eine GUI-Agent-Software aus diesem Umfeld auf einem Geschäftsrechner zu installieren, ohne den Code wenigstens stichprobenartig durchzusehen, wäre fahrlässig. Und ja, die Issue-Liste ist lang, viele Tickets bleiben offen.

Mein Take: technisch eines der spannenderen Open-Source-Projekte im GUI-Agent-Bereich, gerade weil es die ganze Multimodal-Kette mit eigenem VLM kombiniert. Aber: abwarten, was dabei herumkommt, und vor allem nicht im Daily-Driver-Setup laufen lassen. Dafür gibt es Sandboxes und VMs.

Addy Osmani: agent-skills

Addy Osmani – langjährige Größe im Frontend-Universum (Lighthouse, Core Web Vitals, Chrome Developer Experience), inzwischen Director bei Google Cloud AI mit Fokus auf Gemini, Vertex AI und das Agent Development Kit – hat ein Repo namens agent-skills veröffentlicht. Stand jetzt: 33.000+ Sterne, MIT-Lizenz.

Was ist das eigentlich? Eine Sammlung von 20 strukturierten Workflows für AI-Coding-Agents – Claude Code, Cursor, Copilot, Gemini CLI, Windsurf, OpenCode und so weiter. Jeder Skill ist eine Markdown-Datei mit klar definiertem Aufbau: When to use, Process, Common Rationalizations, Red Flags, Verification. Die Themen reichen von spec-driven-development über test-driven-development und code-review-and-quality bis zu debugging-and-error-recovery und incremental-implementation.

Der konzeptionelle Kern, den Osmani in seinem Blogpost dazu sauber herausarbeitet: AI-Coding-Agents nehmen by default den kürzesten Weg zum „Done“. Specs schreiben, Tests vorher anlegen, Security-Boundaries beachten, reviewfähige PRs produzieren – das sind genau die Senior-Engineering-Praktiken, die Agents übergehen. Die Skills sind kein Referenzmaterial, sondern Workflows mit Exit-Kriterien. Inklusive einer Spalte „Common Rationalizations“ – also: typische Ausreden, mit denen ein Agent den Schritt überspringen würde, plus Gegenargumente, mit denen das Repo die Ausrede entkräftet. „Ich füge die Tests später hinzu“ wird im Skill mit einer Zeile gekontert, die der Agent schwerer ignorieren kann als generischen Best-Practice-Sprech.

Die meisten Tools – Claude Code, Cursor, Copilot, Gemini CLI – haben unterschiedliche Mechaniken, um solche Skills einzubinden: native Skill-Discovery, Rules-Files, AGENTS.md, /plugin-Marketplace. Das Repo liefert für jeden gängigen Agenten eine eigene Setup-Anleitung.

Mein Take: Das Spannende ist nicht, dass irgendjemand AGENTS.md-artige Sammlungen baut – die gibt es zu Dutzenden. Das Spannende ist die Disziplin der Anti-Rationalization-Tabellen. Genau dort, wo generische „AI Rules“-Repos zu hübschen Markdown-Essays verkommen, die der Agent liest und ignoriert, zwingt Osmani das Format auf konkrete Schritte mit Verifikationskriterien. Wenn man Coding-Agents in Produktion einsetzt – nicht nur zum Spaß auf Hobby-Projekten – lohnt sich ein Blick. Selbst wenn man nicht das Repo direkt installiert, ist die Skill-Anatomie ein Template, an dem man eigene Workflows aufhängen kann.

Bonus: Spektrum erklärt, warum große Sprachmodelle nicht overfitten

Ein theoretisches Stück, das näheren Blicks würdig ist, Spektrum.de hat es schön zusammengefasst. Kurzfassung: Eigentlich müssten Sprachmodelle mit wachsender Größe schlechter werden, weil sie ab einer bestimmten Parameteranzahl die Trainingsdaten auswendig lernen sollten – Overfitting. Tun sie aber nicht. Warum nicht, ist seit Jahren ein Rätsel der Fachwelt.

Drei Physiker rund um Alexander Atanasov in Harvard haben jetzt eine Erklärung im Journal of Statistical Mechanics: Theory and Experiment veröffentlicht. Ihre These, vereinfacht: Die Fluktuationen in den Trainingsdaten – also das natürliche statistische Rauschen – stabilisieren das Lernen, statt es zu stören. In einem stark vereinfachten neuronalen Netz konnten sie das nachvollziehbar zeigen.

Atanasovs Bild: Deep-Learning-Modelle seien keine Algorithmen, die als Regelwerk entwickelt werden. Sie ähnelten eher einem Organismus, der im Labor wächst.

Wer sich für die Frage interessiert, warum Skalierung in der Praxis funktioniert, obwohl die klassische Lerntheorie dagegen spricht, sollte den Spektrum-Artikel lesen.

So, jetzt haben wir die 19. Kalenderwoche aber wirklich thematisch abgefrühstückt.