DSGVO-konforme KI im Mittelstand: 40 Prozent lokal automatisierbar

Wo sonst als unter der Dusche, ist mir vor meinem inneren Auge eine Zahl erschienen: 40 Prozent. Das, dachte ich, sei der Anteil der Geschäftsprozesse in einem typischen kleinen oder mittleren Unternehmen, der sich mit gezielten Workflows und KI-Automatisierungen sinnvoll bearbeiten lässt – komplett lokal, ohne dass auch nur ein Byte personenbezogene Daten einen US-Hyperscaler streift. Die DSGVO-Mauer, an der viele KMU-Projekte heute zerschellen, wäre damit elegant umgangen. Schöne Vorstellung.

TL;DR

Meine Dusch-These – 40 Prozent der KMU-Geschäftsprozesse lokal und DSGVO-konform automatisierbar – hat die Recherche nicht bestätigt, sondern als ziemliche Schnapsidee entlarvt. Nicht, weil die Technik fehlt. Die ist 2026 da.

Modelle: Der Sweet Spot für lokale KMU-Inferenz liegt bei 20 bis 32 Milliarden Parametern – Qwen3.5-27B, Gemma 4 26B A4B, Mistral Small 3.2, allesamt Apache 2.0. Llama 4 scheidet für EU-Entitäten lizenzrechtlich aus.
Hardware: Bis zur 32-B-Klasse reicht eine RTX 5090 oder ein gemieteter Hetzner-Server in Falkenstein. Ab 70 B wird die Frage strategisch.
DSGVO: Die Datenschutzkonferenz erkennt lokale RAG-Setups als risikomindernd an. „Europäischer Anbieter“ allein reicht aber nicht – ein Blick in die Subprozessor-Liste lohnt sich.

Der Engpass sitzt woanders. Nicht beim Modell, sondern bei Datenqualität, Prozess-Standardisierung und dem „der Steffen macht das so“. Laut Bitkom nutzen 41 Prozent der Unternehmen KI, aber nur 21 Prozent haben dafür eine dokumentierte Strategie. Ehrlicher als 40 Prozent sind darum 5 bis 15 Prozent Produktivitätssteigerung in klar abgegrenzten Workflows – nüchtern, aber real.

Was wir bei uns laufen haben

Auf unserem kleinen hauseigenen Dev- und Experimentalserver werkeln derzeit ein paar kleinere Modelle: SauerkrautLM-Nemo-12B als deutschsprachiger Allrounder und Qwen3.5-9B als multimodale Variante für Dokumenten-Aufgaben. Beide laufen in der Klasse, in der man ohne Hardware-Akrobatik vorankommt – keine A100, kein DGX-Cluster, nur saubere Konsumenten-/Prosumer-Hardware mit ausreichend VRAM.

Ein Beispiel für ein konkretes Einsatzgebiet bei uns: lokale, KI-gestützte Auswertung von Dokumenten, Zusammenführung von Daten aus heterogenen Quellen in eine einheitliche Basis, am Ende das automatische Befüllen von Folgedokumenten. Klingt unspektakulär. Ist aber genau die Sorte Routine, die in einem typischen KMU täglich Stunden frisst – und gleichzeitig die Sorte, bei der jeder Cloud-Aufruf an OpenAI oder Anthropic eine Datenschutzfreigabe nach sich zieht, die niemand schreiben will.

Die wichtigste Erkenntnis aus diesen Versuchen: Die Modelle sind reif genug. Das war 2024 noch nicht so. Heute ist die Frage nicht mehr „taugt das was?“, sondern „taugt es für genau diesen Use Case in diesem Prozess mit diesen Daten?“. Und das ist eine fundamental andere Frage.

Was die Bitkom-Zahlen sagen

Bevor man jetzt aber als KMU-Lenker entspannt zurücklehnt und 40 Prozent Effizienzgewinn einplant: ein paar Einordnungs-Dämpfer:

Die Bitkom KI-Studie 2026, vorgestellt am 11. März 2026, basiert auf telefonischen Befragungen von 604 Unternehmen ab 20 Beschäftigten zwischen KW 2 und KW 6 2026. 41 Prozent dieser Unternehmen nutzen KI aktiv – eine Verdopplung gegenüber dem Vorjahr (17 Prozent). Klingt nach Boom. Schaut man genauer hin: 33 Prozent berichten, dass KI „zu deutlich höheren Kosten geführt hat, als zuvor erwartet wurde“, 19 Prozent haben bereits wegen KI Stellen abgebaut. Und 62 Prozent der Unternehmen mit KI-Einsatz ordnen sich selbst – eigene Selbsteinschätzung – „eher als Nachzügler“ ein.

Im echten Mittelstand sieht es noch dünner aus. Eine Auswertung der Bitkom-Studie bringt es auf den Punkt: 41 Prozent nutzen KI, aber nur 21 Prozent haben dafür eine formal dokumentierte KI-Strategie. Heißt: Vier von fünf der heute aktiv KI-nutzenden Unternehmen tun das ohne strategischen Rahmen.

Das ist die Wirklichkeit, in der meine 40-Prozent-These platzt. Wer noch Papierrechnungen archiviert, kann nicht 40 Prozent der Buchhaltung automatisieren. Wer Prozesse hat, die nur funktionieren, weil „der Steffen das so macht“, kann nicht automatisieren, was nie dokumentiert wurde. Die Engpässe liegen 2026 nicht bei den Modellen. Sie liegen bei Datenqualität, Prozess-Standardisierung und Change Management – also bei den unsexy Themen, die Beratungsfirmen ungern verkaufen.

Realistisch lässt sich, je nach Branche und Reifegrad, eine Produktivitätssteigerung von 5 bis 15 Prozent in klar abgegrenzten Workflows erreichen. E-Mail-Triage, Dokumentenerschließung, Erstentwürfe, RAG-gestützte interne Suche, Vorerfassung strukturierter Belege. Das ist immer noch erheblich. Aber es ist keine Generalrevision des Geschäftsmodells.

Warum überhaupt lokal? DSGVO und der Schrems-Schatten

Cloud-basierte KI in Europa hat ein robustes Compliance-Problem. Sobald personenbezogene Daten ins Spiel kommen – und das tun sie in fast jedem KMU-Workflow – wird die Rechtslage zäh. Das EU-US Data Privacy Framework von 2023 ist Stand Mai 2026 zwar weiterhin in Kraft, hat aber im September 2025 in der Latombe-Klage vor dem EU-Gericht erstmals juristisch standgehalten. Max Schrems hat nach der Niederlage angekündigt, eine breiter angelegte Schrems-III-Klage zu prüfen. Wer 2026 strategisch plant, sollte nicht darauf wetten, dass der DPF weitere fünf Jahre hält.

Die Datenschutzkonferenz hat im Oktober 2025 eine eigene RAG-Orientierungshilfe veröffentlicht – die dritte DSK-Publikation zu KI seit 2024 – und Retrieval-Augmented-Generation-Setups mit lokalen Modellen und eigener Vektor-Datenbank explizit als risikomindernde Maßnahme anerkannt. Im Originalton der DSK-Pressemitteilung vom 17. Oktober 2025:

RAG-Systeme „beseitigen beispielsweise nicht die datenschutzrechtlichen Probleme eines rechtswidrig trainierten Large Language Modells“, können aber „Teil einer Antwort auf solche unrechtmäßig trainierten Systeme sein“.

Heißt im Klartext: Die Lizenz und Provenienz des Basismodells zählt weiter. Aber für KMU, die ihre Daten nicht in eine fremde Cloud schieben wollen, ist die regulatorische Richtung damit klar.

Und Überraschung: „europäischer Anbieter“ allein reicht nicht. Mistral La Plateforme – an sich Pariser Vorzeige-KI – hat unter anderem Microsoft Azure, Google Cloud Platform und CoreWeave als Subprozessoren, inklusive Verarbeitung in den USA. Wer Sovereignty ernst nimmt, muss bei der Subprozessor-Liste hinschauen, nicht bei der Pressemitteilung.

Welche Modelle taugen 2026 lokal?

Die gute Nachricht – die ich mir nach den Bitkom-Zahlen erlauben darf – ist die Modelllandschaft. Die hat sich in den letzten zwölf Monaten konsolidiert, und der Sweet Spot für lokale KMU-Inferenz liegt heute bei 20 bis 32 Milliarden Parametern (oder MoE mit etwa 3 bis 4 Milliarden aktiven Parametern, was die VRAM-Last nochmal entspannt).

Die Arbeitstiere:

Qwen3.5-27B (Apache 2.0, Alibaba, Februar 2026): 27 Milliarden Parameter, multimodal mit Vision-Encoder, 262K Kontext nativ und per YaRN auf rund eine Million Token erweiterbar, Thinking-Mode by default. Stark in OCR und Dokumenten-Verständnis – OmniDocBench 1.5 bei 88,9, OCRBench bei 89,4. 201 Sprachen, Deutsch belastbar.
Gemma 4 26B A4B (Apache 2.0, Google DeepMind): MoE mit 25,2 Milliarden Gesamt- und 3,8 Milliarden aktiven Parametern, multimodal, 256K Kontext, 140+ Sprachen. Läuft so schnell wie ein 4B-Modell und liefert Performance nahe am 31B-Dense-Geschwister. Der Sprung auf die Apache-2.0-Lizenz ist für KMU in der EU die eigentliche Innovation der Gemma-4-Familie.
Mistral Small 3.2 (Apache 2.0, Mistral AI): 24 Milliarden Parameter, passt quantisiert in eine RTX 4090 oder einen 32-GB-MacBook. Stark in europäischen Sprachen, faktisch die Default-Wahl für deutschsprachige KMU-Workflows ohne Multimodalität.

Was man als KMU in der EU nicht ohne Weiteres nehmen sollte: Llama 4. Metas Community-Lizenz schließt EU-domizilierte Entitäten in mehreren Klauseln aus. Mit den Apache-2.0-Releases von Qwen und Gemma 4 ist Llama für die EU sowieso nicht mehr die naheliegende Wahl.

Bei der Dokumentenverarbeitung – dem für KMU lukrativsten Bereich – gilt: Out-of-the-Box-Lösungen für deutsche Rechnungen und Verträge gibt es nicht. Der robuste Weg ist eine Pipeline: Docling (IBM Research, MIT-Lizenz) für Layout-Erkennung, DeepSeek-OCR (3B-Modell, MIT-Lizenz, spezialisiert auf Dokumentenkonversion via Optical Compression) für die eigentliche Text- und Feldextraktion, ein generalistisches Sprachmodell wie Mistral Small oder Qwen3.5-27B für Validierung gegen Stammdaten. Das ist machbar – aber nicht „Plug & Play“. Genau hier scheitern viele Projekte: nicht am Modell, sondern an der Pipeline-Disziplin.

Hardware – ab wann wird’s eng

Solange man im 20-bis-32-B-Bereich bleibt, ist die Hardware-Frage entspannt. Eine RTX 5090 (32 GB GDDR7) reicht für die meisten Anwendungsfälle. Wer Multi-User-Betrieb plant, mietet bei Hetzner einen GEX130 mit RTX 6000 Ada (48 GB GDDR6) für 838 Euro pro Monat in Falkenstein oder Nürnberg – DSGVO-konform, ohne US-Hyperscaler im Backend. Oder eine Strix-Halo-Box (Framework Desktop, GMKtec EVO-X2, Beelink GTR9 Pro) mit 128 GB unified memory für etwa 2.500 bis 4.500 Euro.

Ab der 70-B-Klasse wird’s interessant. Hier reicht keine 5090 mehr, hier braucht es entweder eine NVIDIA RTX PRO 6000 Blackwell mit 96 GB GDDR7 ECC (MSRP rund 8.500 Dollar) oder einen Multi-GPU-Build aus drei gebrauchten RTX 3090. Hetzner bietet seit Dezember 2025 den GEX131 mit genau dieser Karte ab 1.057 Euro pro Monat als Dedicated Server an. Auf der RTX PRO 6000 passt ein 70-B-Modell in FP8 bequem mit etwa 26 GB Headroom für KV-Cache. Auch das ist für ein KMU noch darstellbar – aber wir reden hier von einer Größenordnung, ab der die Hardware-Frage strategisch wird.

Jenseits der 100-Milliarden-Parameter-Schwelle wird es für KMU unwirtschaftlich. Ein Mac Studio M3 Ultra mit 512 GB unified memory schafft DeepSeek-R1 671B bei nutzbaren 17 bis 18 Tokens pro Sekunde – kostet aber voll konfiguriert rund 14.000 Dollar. Und der häufig empfohlene NVIDIA DGX Spark? Mit 273 GB/s Memory Bandwidth – „indeed its Achilles heel“, wie Tom’s Hardware trocken vermerkt – ist er ein Lern- und Entwicklungsgerät, kein Produktivserver. Auf GPT-OSS 120B liefert ein Cluster aus drei gebrauchten RTX 3090 die rund dreifache Token-Generation eines DGX Spark, bei einem Bruchteil des Preises.

So grob, als Orientierung:

Bis 14 B: Consumer-GPU oder Strix Halo, KMU-tauglich, fast plug-and-play.
20 bis 32 B: Sweet Spot 2026, ein Server reicht (für realen KMU-Betrieb).
70 B: RTX PRO 6000 oder gemieteter GEX131-Server. Geht, kostet.
120 B+: Mac Studio mit Riesen-RAM oder Multi-GPU – für die meisten KMU jenseits der Wirtschaftlichkeit.
Cluster aus DGX Sparks: marketingseitig charmant, in der Praxis aber Entwicklungsgerät, kein Produktivsetup.

Wo es wirklich klemmt

Damit zurück zur 40-Prozent-These. Die Wahrheit ist: Selbst eine vermeintlich stupide Routineaufgabe wie Rechnungsfreigabe enthält Plausibilitätsprüfungen (passt Lieferant zur Kostenstelle?), Mehrwertsteuer-Sonderfälle (Reverse Charge, innergemeinschaftliche Lieferung), Ausnahmen vom Vier-Augen-Prinzip und Eskalations-Pfade. Kleine Modelle unter 14 Milliarden Parametern ohne Reasoning scheitern hier reproduzierbar. Sie kommen auf 90 bis 95 Prozent Accuracy – und auf den letzten 5 bis 10 Prozent verbringt man die meiste Projektzeit.

Was hilft: Kaskaden-Architektur. Ein kleines, schnelles Modell klassifiziert. Bei niedriger Konfidenz oder Sonderfällen übernimmt ein größeres Reasoning-Modell (Qwen3-30B-A3B-Thinking, Magistral Small 1.2, DeepSeek-R1-Distill-Qwen-14B). Das ist der pragmatischste Ansatz für KMU – und einer, der mit den Modellen, die heute lokal laufen, technisch tatsächlich umsetzbar ist.

Was nicht hilft: das Modell prügeln. Wenn ein Use Case in der Validierung über 15 Prozent Halluzinationsrate produziert, ist das kein Prompt-Engineering-Problem mehr. Dann braucht es ein anderes Modell, einen anderen Architektur-Ansatz oder die ehrliche Erkenntnis, dass dieser Prozess nicht automatisierbar ist.

Fazit zur Ausgangsthese

Bleibt also festzuhalten: Meine 40 Prozent sind eine ziemliche Schnapsidee. Eine, die ich stehenlasse, weil sie die richtigen Fragen aufwirft – aber als Zielwert taugt sie nicht. Die Modelle sind 2026 da. Die Hardware ist darstellbar, jedenfalls bis zur 32-B-Klasse. Die DSGVO-konforme Inferenz ist mit OVHcloud, IONOS, StackIT oder Hetzner-Bare-Metal machbar. Das ist die gute Nachricht.

Die schlechte: Die Engpässe sitzen woanders. In der Datenqualität, in der Prozess-Disziplin, in der Frage, ob ein KMU bereit ist, „der Steffen macht das so“ durch dokumentierte, wiederholbare Workflows zu ersetzen. Wer das nicht angeht, automatisiert nichts – auch nicht mit dem fettesten lokalen Modell.

Ehrlicher als 40 Prozent ist also: In klar abgegrenzten Workflows lassen sich heute mit lokalen Modellen 5 bis 15 Prozent Produktivitätssteigerung erreichen. Das ist viel, wenn man es ernst nimmt. Es ist wenig, wenn man die Berater-Folie auf der nächsten Vorstandssitzung im Kopf hat.

Mein Take: Wer 2026 ernsthaft lokal automatisieren will, fängt nicht mit dem Modell an, sondern mit einer Prozess-Inventur. Dann ein Pilotprojekt mit einem klar abgegrenzten Use Case – Posteingang-Klassifikation, ZUGFeRD-Vorerfassung, interne Wissens-Suche. Hardware-Entscheidung erst nach sechs Monaten Cloud- oder Mietserver-Erfahrung, um das echte Lastprofil zu kennen. Wer das durchzieht, kommt nicht auf 40 Prozent. Aber er kommt weiter als die 79 Prozent der KMU, die laut Bitkom KI ohne Strategie einsetzen.

Und das ist, gemessen am realen Spielfeld, schon ziemlich viel.