Firmeneigener KI-Assistent: RAG, DSGVO und On-Premise-Optionen für KMU im Jahr 2026

Das Kernproblem, das ein firmeneigener KI-Assistent löst

In fast jedem KMU existieren zwei Arten von Wissen. Das offizielle, das in Handbüchern und Intranet dokumentiert ist. Und das informelle, das in den Köpfen einzelner Mitarbeiter steckt. Wenn die erfahrene Kollegin in Pension geht oder kündigt, wandert ein großer Teil des Betriebswissens mit.

Das Ausmaß ist gut dokumentiert. Eine McKinsey-Studie stellte fest, dass Wissensarbeiter im Schnitt 1,8 Stunden pro Tag mit dem Suchen und Zusammenstellen von Informationen verbringen, rund 19 % der Arbeitswoche. Das IDC Information Worker Survey beziffert allein die Dokumentensuche auf rund 5 Stunden pro Woche. Für ein Büro mit 50 Mitarbeitern und einer mittleren Vollkostenquote von 40 €/h ergibt sich eine rechnerische Zeitvergeudung im sechsstelligen Bereich pro Jahr.

Ein firmeneigener KI-Assistent, oft unter dem Namen CompanyGPT zusammengefasst, setzt genau hier an: Mitarbeiter stellen Fragen in natürlicher Sprache, und das System antwortet aus der kuratierten Wissensbasis des Unternehmens. Mit Quellenangabe. In Sekunden.

Die Architektur: Warum RAG der Standard ist

Ein KI-Assistent, der ausschließlich das weiß, was in seinen Trainingsdaten war, hilft bei internen Firmenfragen nicht. ChatGPT kennt die Reklamationsfrist des Projekts Müller nicht. Deshalb hat sich Retrieval-Augmented Generation (RAG) als Architekturmuster durchgesetzt.

Wie RAG funktioniert, vereinfacht

Die Dokumente des Unternehmens (Handbücher, Verträge, SOPs, FAQs, Richtlinien) werden in kleinere Textabschnitte zerlegt und in einer Vektordatenbank gespeichert. Jeder Abschnitt bekommt eine semantische Signatur, so kann das System später ähnliche Inhalte finden, auch wenn die Wortwahl abweicht.
Wenn ein Mitarbeiter fragt: „Wie lange ist die Reklamationsfrist bei Projekt Müller?", wandelt das System die Frage in dieselbe Signatur um und findet die relevanten Abschnitte aus dem Vertrag.
Diese Abschnitte werden zusammen mit der Originalfrage an das Sprachmodell übergeben. Das Modell formuliert die Antwort, aber nur auf Basis der mitgelieferten Quellen.

Das Ergebnis: eine Antwort mit Quellenangabe, die nachvollziehbar ist und, bei sauberer Umsetzung, nicht halluziniert.

Der 2026-Standard-Stack

Hybrid Retrieval (Vektor-Suche kombiniert mit klassischer Keyword-Suche) hat sich als Default durchgesetzt. Reine Vektor-Suche schwächelt bei Fachbegriffen, Produktcodes und Regulatorik-Texten. Hier schlägt die Keyword-Komponente oft besser an.

Für die Vektordatenbank stehen mehrere Optionen zur Verfügung: Pinecone als managed Service, Weaviate, Milvus und Qdrant als Open-Source-Alternativen (Qdrant mit EU-Hosting), pgvector/PostgreSQL für schlanke Deployments. Für das Embedding-Modell ist text-embedding-3-large von OpenAI der pragmatische Einstieg. BGE-M3 oder ähnliche Open-Source-Modelle sind die Wahl, wenn Datensouveränität Priorität hat.

Warum 72 % der RAG-Implementierungen scheitern

Eine Analyse von RagAboutIt aus 2025 zeigt: 72 % der Enterprise-RAG-Implementierungen scheitern oder bleiben deutlich unter den Erwartungen im ersten Jahr. Nur 30 % erreichen Produktion, davon 10 bis 20 % messbaren ROI. Laut S&P Global haben 42 % der Unternehmen 2025 die meisten ihrer KI-Initiativen abgebrochen (2024 waren es noch 17 %).

Die Gründe sind gut dokumentiert:

Daten-Qualität (43 % der Nennungen): Ungepflegte PDFs, veraltete Richtlinien, widersprüchliche Quellen, doppelte Dokumente
Fehlende technische Reife (43 %): Kein Hybrid Retrieval, schlechte Chunk-Strategie, unpassendes Embedding-Modell
Skill-Mangel im Unternehmen (35 %): Niemand weiß, wie das System gepflegt wird, wenn der externe Dienstleister weg ist

Der entscheidende Befund: Gewinner-Projekte investieren 50 bis 70 % ihres Budgets in Daten-Readiness, kaum etwas davon ins Modell-Tuning. Die Modelle sind 2026 gut genug. Die Daten nicht.

Halluzinationsquoten illustrieren das deutlich: Bei ungepflegten Wissensbasen fabrizieren RAG-Systeme 52 % der Antworten. Bei kuratierter Wissensbasis nähern sie sich null. Die Architektur allein löst das nicht. Die Daten-Arbeit davor schon.

DSGVO und EU AI Act: Was 2026 gilt

Ab dem 2. August 2026 greifen die Pflichtteile der EU-KI-Verordnung (AI Act). Schon seit dem 2. Februar 2025 ist Artikel 4 (KI-Kompetenz) verbindlich: Jedes Unternehmen, das KI einsetzt, muss nachweisen können, dass seine Mitarbeitenden zum Umgang mit dem System befähigt sind. Das umfasst Technik-Grundlagen, Regulatorik-Wissen und sichere Nutzung.

Zusätzlich greift die DSGVO weiter: Wenn im RAG-System personenbezogene Daten verarbeitet werden (Mitarbeiter-Stammdaten, Kunden-Korrespondenz, HR-Unterlagen), ist eine Datenschutz-Folgenabschätzung (DPIA, Art. 35 DSGVO) Pflicht. Bei Anwendungsfällen, die vom AI Act als Hochrisiko klassifiziert werden, kommt eine Grundrechte-Folgenabschätzung (FRIA, AI Act Art. 27) dazu.

Eine 2025 veröffentlichte Leitlinie der deutschen Datenschutzbehörden stellt klar: Bei der Integration neuer Datenquellen in ein RAG-System müssen Zugriffskontrollen neu bewertet werden. Wer im Quellsystem keinen Zugriff auf bestimmte Unterlagen hat, darf diese auch über den RAG-Retrieval nicht „durch die Hintertür" sehen. Berechtigungsvererbung ist Pflicht, nicht Kür.

Der Bußgeldrahmen: bis zu 35 Mio. € oder 7 % Jahresumsatz nach AI Act, in Kombination mit DSGVO-Verstößen theoretisch bis 55 Mio. €.

Cloud-EU versus On-Premise: Die ehrliche Einordnung

Für die Frage, wo das System betrieben wird, gibt es drei Optionen:

Option 1: EU-Cloud (Azure OpenAI, OpenAI EU Residency)

Die Daten bleiben in EU-Rechenzentren, die Vertragspartner sind aber Microsoft oder OpenAI, US-Unternehmen, die dem CLOUD Act unterliegen. Für viele KMU reicht das. Für Branchen mit besonders sensiblen Daten (Anwälte, Ärzte, Banken, Rüstung, Verteidigung) ist das CLOUD-Act-Restrisiko nicht tragbar. Der EuG hat am 3. September 2025 das EU-US Data Privacy Framework bestätigt, aber der EuGH-Review ist angekündigt. „Schrems III" gilt als realistisches Szenario.

Option 2: Self-Hosted mit Open-Source-Modellen

Modelle wie Llama 4, Mistral, Qwen 3 erreichen auf Enterprise-Tasks 2026 eine Performance nahe an den proprietären Modellen. Die Daten verlassen die eigene Infrastruktur nie. Für kleinere Nutzerkreise reicht oft ein Entwicklungs-Setup mit Ollama (ein Binary, einfach zu starten). Für produktive Mehrbenutzer-Systeme nutzt man vLLM, das laut Red-Hat-Benchmarks bis zu 10-fach höheren Durchsatz bei gleicher Hardware liefert.

Option 3: On-Premise auf eigener Hardware

Für 50 Nutzer reicht typischerweise eine Konfiguration mit 1 bis 2 NVIDIA L40S oder RTX 6000 Ada (je 48 GB VRAM) für ein Modell in der 13B, 32B-Klasse. Investment: 15.000 bis 35.000 € einmalig plus Strom und Wartung. Für größere Modelle (70B) braucht es 2 × H100 oder 4 × L40S, Investment 60.000 bis 120.000 €.

Wann lohnt On-Premise rechnerisch?

Die nüchterne Rechnung: LLM-API-Preise sind seit Anfang 2025 um rund 80 % gefallen. Für 50 Nutzer mit je 20 Queries pro Tag à 20.000 Tokens ergeben sich rund 500 bis 1.500 € pro Monat API-Kosten. Der Break-Even gegenüber On-Premise liegt laut mehreren TCO-Analysen bei etwa 2 Millionen Tokens pro Tag, das entspricht Skalen ab ca. 200+ intensiven Nutzern oder bei strikten Compliance-Anforderungen.

Kurz gefasst: Für KMU mit 50 bis 100 Nutzern sind die API-Kosten 2026 kein zwingender Grund mehr für On-Premise. Was bleibt, ist Datensouveränität. Die Kosten sind es nicht.

Typische Fehlannahmen, die KMU Geld kosten

„Wir kaufen uns eine fertige Plattform, dann geht das schnell."

Die meisten proprietären CompanyGPT-Plattformen sind Black Boxes. Sie funktionieren, aber Sie verstehen nicht, wie. Ihre Daten liegen beim Anbieter. Bei Kündigung verlieren Sie die kuratierte Wissensbasis, die Sie monatelang aufgebaut haben. Die Einstiegsgeschwindigkeit ist oft ein schlechter Tausch gegen die langfristige Abhängigkeit.

„Ein Abo für 890 €/Monat deckt alles ab."

Ein Abo mit dieser Preisgestaltung beinhaltet in der Regel nicht die laufenden LLM-Kosten. Diese werden meist transparent durchgereicht (gut) oder intransparent aufgeschlagen (schlecht). Die Frage „Was kostet das System, wenn die Nutzung sich verdoppelt?" sollte vor Vertragsabschluss klar beantwortet sein.

„Wir lassen die KI einfach alle unsere Dokumente lesen."

Ohne Daten-Readiness (Normalisierung, Dublettenbereinigung, Governance-Metadaten, Berechtigungsvererbung) halluziniert das System, in bis zu 52 % der Antworten. Das Vertrauen ins System ist dann schneller weg, als es aufgebaut wurde. Die Daten-Vorarbeit ist nicht optional. Sie ist der eigentliche Projektinhalt.

„Nach der Einführung macht das System sich selbst."

Ein RAG-System ist nicht fertig, wenn es live geht. Neue Dokumente müssen indiziert werden, veraltete entfernt, Prompts an geänderte Anforderungen angepasst. Die Frage ist, wer es macht. Dass es passiert, steht fest. Wer das intern abdecken kann, braucht keine externe Wartung. Wer es bewusst auslagern will, kann eine optionale Wartungspauschale buchen. Das ist aus Sicherheitsgründen empfohlen, weil Modelle, Abhängigkeiten und Betriebssysteme regelmäßige Updates brauchen, damit das System stabil weiterläuft.

Was ein belastbares Setup konkret liefert

Ein sauberes CompanyGPT-Setup umfasst:

Daten-Analyse und -Kuration der vorhandenen Wissensquellen (Handbücher, SharePoint, Confluence, E-Mail-Archive)
Aufbau der Vektordatenbank mit geeignetem Chunking und Hybrid Retrieval
Konfiguration des LLM-Zugriffs, EU-Cloud oder On-Premise, je nach Compliance-Anforderung
Rollen- und Berechtigungsmodell, das aus den Quellsystemen vererbt wird
Prompt-Engineering für die Standardabfragen des Unternehmens
Team-Onboarding mit Bezug zu Artikel 4 AI Act (Pflicht-Schulung)
Dokumentation und Übergabe, Wissensbasis, Konfiguration, Prompts bleiben beim Kunden

Danach läuft das System. Wissensbasis, Konfiguration und Prompts sind exportierbar. Bei Beendigung der Zusammenarbeit kann der Kunde intern weiter betreiben oder zu einem anderen Dienstleister wechseln, ohne Wissensverlust.

Was bleibt

Ein firmeneigener KI-Assistent ist 2026 für viele KMU realistisch machbar, technisch, rechtlich und wirtschaftlich. Die Erfolgsfaktoren sind aber andere, als die Marketing-Stimme der Branche suggeriert:

Erfolgsfaktor 1: Daten-Vorarbeit vor Modell-Wahl. 50 bis 70 % des Projektaufwands. Erfolgsfaktor 2: RAG-Architektur mit sauberem Hybrid Retrieval und Quellenangabe. Erfolgsfaktor 3: Datensouveränität. Die Wissensbasis muss exportierbar sein, das System muss auch ohne den implementierenden Dienstleister weiterlaufen. Erfolgsfaktor 4: DSGVO- und AI-Act-Compliance ab Tag eins mitgeplant, später nachgelagert kostet es mehr.

Wer das Thema konkret angehen will, findet einen Einstiegspunkt über die Landingpage zu CompanyGPT. Eine vertiefende Einordnung zur On-Premise-Frage steht unter On-Premise-KI im Mittelstand. Eine Übersicht über alle Productized Services gibt es unter /loesungen. Wer sich mit den rechtlichen Rahmenbedingungen auseinandersetzt, findet unter Der EU AI Act und Artikel 4 eine praxisnahe Einordnung.