
Die Folie, die niemand füllt
Auf den meisten KI-Projekt-Folien, die mir Geschäftsführer zeigen, gibt es eine Stelle, an der es still wird. Es ist die Stelle mit der Überschrift „Return on Investment". Darunter steht dann oft ein Satz wie „Wir erwarten signifikante Effizienzgewinne" oder „Die Lösung spart rund 15 Stunden pro Woche". Manchmal steht da auch gar nichts. Die Folie existiert, aber das Feld ist leer.
Diese leere Stelle ist kein Schönheitsfehler. Sie ist die Diagnose. Wenn vor dem Projekt niemand sauber aufschreiben kann, worauf sich der Return bezieht, dann wird man ihn auch nach dem Projekt nicht finden. Er wäre durchaus da. Aber ihn hat niemand definiert.
Eine viel zitierte MIT-Auswertung aus dem vergangenen Jahr brachte das Thema in jede zweite Vorstandsrunde: rund 95 % der untersuchten KI-Pilotprojekte lieferten keinen messbaren Return. Diese Zahl wird gerne so gelesen, als hätte KI versagt. Ich lese sie anders. Sie sagt etwas über die Art aus, wie wir KI-Projekte aufsetzen. Und über eine Rechnung, die in den meisten Fällen gar nicht erst gemacht wird.
Eingesparte Stunden sind kein Return
Beginnen wir mit dem Satz, der in fast jeder KI-Erfolgsmeldung steht: „Wir sparen X Stunden pro Woche." Er klingt überzeugend. Er ist auch fast immer wahr. Und er ist trotzdem kein Return.
Eine eingesparte Stunde ist erst dann Geld wert, wenn drei Dinge passieren. Erstens muss die Stunde tatsächlich frei werden. Im Kalender und im Aufgabenstapel, nicht bloß im Gefühl. Zweitens muss diese frei gewordene Zeit in etwas fließen, das messbar Wert schafft: mehr Angebote, schnellere Durchlaufzeiten, einen Kunden mehr, einen Fehler weniger. Drittens muss diese Umwandlung auch wirklich stattfinden. Sie darf nicht in zusätzlicher Wartezeit, längeren Kaffeepausen oder einer Aufgabe versickern, die ohnehin niemand gebraucht hat.
In der Praxis bricht die Kette meistens beim zweiten oder dritten Schritt. Der Sachbearbeiter, der dank KI 30 Minuten am Tag spart, füllt sie mit dem, was sowieso liegen geblieben ist. Das ist menschlich. Aber es bedeutet: Es ist kein einziger Euro entstanden. Es wurde lediglich eine Belastung verschoben.
Eingesparte Zeit ist ein Rohstoff, kein Ertrag. Erst die Verarbeitung macht daraus Wert.
Wer KI-ROI ernst nimmt, hört deshalb auf, in eingesparten Stunden zu rechnen, und fängt an, in umgewandeltem Wert zu rechnen. Die ehrliche Frage lautet „Was machen wir mit der gesparten Zeit, und wie sehen wir das in einer Zahl, die das Unternehmen ohnehin schon misst?". Die Frage „Wie viel Zeit sparen wir?" führt in die Irre. Wenn auf die richtige Frage niemand antwortet, ist der Business Case eine Hoffnung, keine Rechnung.
Bruttoersparnis gegen Vollkosten
Der zweite Grund, warum so viele KI-Projekte keinen Return zeigen, liegt in einer Rechnung, die nur eine Seite kennt. Gerechnet wird die Bruttoersparnis: hier die Stunden, dort der Stundensatz, fertig ist die Einsparung. Was fehlt, ist die andere Seite. Die Vollkosten dessen, was diese Einsparung erst möglich macht und dauerhaft am Leben hält.
Ein KI-Use-Case kostet nicht nur die Lizenz oder die Token. Er kostet über seinen Lebenszyklus eine ganze Reihe von Posten, die in der Anfangseuphorie selten auftauchen:
- Modell- und Betriebskosten, die mit der Nutzung steigen. Was im Pilot mit zehn Anfragen am Tag fast nichts kostet, sieht bei tausend Anfragen am Tag anders aus.
- Datenarbeit, das Aufräumen, Strukturieren und Aktuellhalten der Datenbasis. Ohne sie wird jede KI-Lösung mit der Zeit schlechter.
- Pflege und Wartung. Modelle ändern sich, Schnittstellen brechen, Prompts müssen nachgeschärft werden. Eine KI-Lösung ist kein Möbelstück, das man einmal hinstellt.
- Change und Einarbeitung. Die Stunden, in denen das Team lernt, der Lösung zu vertrauen, sie richtig zu bedienen und ihre Ergebnisse zu prüfen. Und die Stunden, in denen sie es zunächst nicht tut.
- Kontrolle und Korrektur. Jede KI-Ausgabe, die ins Geschäft geht, braucht eine Form von Prüfung. Diese Prüfzeit ist real und gehört in die Rechnung.
Wenn man diese Posten gegen die Bruttoersparnis stellt, passiert oft etwas Unbequemes: Aus einem scheinbar klaren Gewinn wird eine knappe Rechnung, manchmal sogar ein Minus. Das ist die einzige Nachricht, mit der man arbeiten kann. Ein Projekt, dessen Vollkosten man kennt, kann man steuern. Ein Projekt, das nur seine Bruttoersparnis kennt, fliegt blind. Und es landet mit hoher Wahrscheinlichkeit in den 95 %.
Ein Vollkostenansatz heißt dabei nicht, jeden Use-Case totzurechnen. Er heißt, beide Seiten der Rechnung gleich ernst zu nehmen und ein Projekt erst dann „erfolgreich" zu nennen, wenn der umgewandelte Wert die Vollkosten über einen realistischen Zeitraum übersteigt.
Ohne Baseline kein Beweis
Selbst wenn der Business Case sauber gerechnet ist, scheitert die Messung oft an einer banalen Lücke: Es gibt keinen Vergleichswert. Niemand hat vor dem Projekt festgehalten, wie lange der Prozess gedauert hat, wie viele Fehler entstanden sind, wie hoch die Durchlaufzeit war. Und ohne diesen Ausgangswert lässt sich hinterher nichts beweisen.
Eine Baseline ist die unspektakulärste und gleichzeitig wertvollste Vorarbeit eines KI-Projekts. Sie besteht aus zwei, drei Kennzahlen, die das Unternehmen idealerweise sowieso schon erhebt: Bearbeitungszeit pro Vorgang, Anzahl der Vorgänge, Fehler- oder Reklamationsquote, Durchlaufzeit von Anfrage bis Abschluss. Diese Werte misst man vor dem KI-Einsatz, über einen Zeitraum, der lang genug ist, um nicht von einem guten oder schlechten Monat in die Irre geführt zu werden.
Fehlt diese Baseline, passiert nach dem Go-live regelmäßig dasselbe: Alle haben das Gefühl, dass es besser läuft, aber niemand kann es belegen. Und ein Gefühl überlebt die erste kritische Budgetrunde nicht. Genau hier kippen viele Projekte vom Status „funktioniert" in den Status „können wir nicht rechtfertigen". Einen Return haben sie durchaus gebracht. Er bleibt nur ohne Ausgangswert unsichtbar.
Eine Baseline kostet fast nichts außer Disziplin. Aber wenn man sie vergessen hat, kann man sie nicht nachträglich erfinden. Deshalb gehört sie an den Anfang jedes Projekts, vor das erste Tool, vor den ersten Prompt.
Der Pilot ohne Produktionsplan
Das Wort „Pilot" ist im KI-Kontext doppeldeutig. Gemeint ist eigentlich: ein kleiner, kontrollierter erster Schritt, aus dem ein Produktivbetrieb wächst. Gelebt wird oft etwas anderes: ein abgeschlossenes Experiment, das gut aussieht, gelobt wird und dann auf der Stelle stehen bleibt.
Ein Pilot, der nie für Produktion gedacht war, kann per Definition keinen Return liefern. Er erzeugt eine Demo, ein Aha-Erlebnis im Führungskreis. Das hat Wert als Lernschritt. Aber Wert im Sinne von ROI entsteht erst, wenn die Lösung im täglichen Geschäft läuft, von vielen genutzt wird und über Monate trägt. Genau dieser Sprung vom Pilot in den Betrieb ist die Stelle, an der die meisten KI-Initiativen verenden. Die Technik ist selten der Grund. Es fehlt ein Plan für das, was nach dem Pilot kommt.
Ein Pilot mit Produktionsplan fragt schon vor dem ersten Test: Wer betreibt das später? Wer pflegt es? Wie kommt es in die bestehenden Abläufe? Was passiert bei zehnfacher Last? Diese Fragen verzögern den schnellen Erfolg, aber sie sind der Unterschied zwischen einem Projekt, das in einer Schublade endet, und einem, das Wert produziert. Wer tiefer verstehen will, woran KI-Projekte zwischen Pilot und Betrieb scheitern, findet die Muster in Warum KI-Projekte scheitern, und wie man sie rettet.
Die richtige Reihenfolge: Wirkung, dann Use-Case, dann Tool
Hinter all diesen Einzelproblemen steht ein gemeinsamer Fehler, eine vertauschte Reihenfolge. Die meisten KI-Projekte beginnen mit dem Tool: Jemand hat eine beeindruckende Demo gesehen, ein Wettbewerber hat etwas angekündigt. Also wird das Tool eingeführt, und erst danach sucht man die Aufgabe, die es lösen soll. Diese Reihenfolge produziert verlässlich Lösungen auf der Suche nach einem Problem. Und Lösungen ohne Problem haben keinen Return.
Die Reihenfolge, die funktioniert, ist genau umgekehrt:
- Wirkung zuerst. Welche Geschäftskennzahl wollen wir bewegen? Mehr Umsatz, kürzere Durchlaufzeit, weniger Fehler, geringere Kosten an einer konkreten Stelle. Wenn am Anfang keine Kennzahl steht, fehlt das Ziel, an dem der Return später gemessen wird.
- Use-Case daraus ableiten. Welcher konkrete Prozess, welche Tätigkeit, welcher Engpass steht zwischen uns und dieser Kennzahl? Hier entscheidet sich auch, ob das überhaupt ein KI-Fall ist. Ein großer Teil der vermeintlichen KI-Aufgaben ist in Wahrheit klassische Automatisierung, die schneller, billiger und stabiler zum Ziel führt. Wo diese Grenze verläuft, ist Thema von 80 % Ihrer KI-Projekte sind klassische Automatisierung.
- Tool zuletzt. Erst wenn Wirkung und Use-Case stehen, wird das Werkzeug ausgewählt. Und zwar als austauschbarer Baustein, der keine strategische Festlegung darstellt. Das Tool ist die kleinste und am leichtesten zu korrigierende Entscheidung in dieser Kette. Es sollte deshalb auch die letzte sein.
Diese Reihenfolge ist nicht originell, aber sie ist die wirksamste Versicherung gegen die 95-Prozent-Falle. Wer mit der Wirkung beginnt, hat automatisch eine Kennzahl und einen Maßstab für den Return, bevor das erste Tool im Spiel ist.
Eine kleine Rechnung, die alles ändert
Machen wir es konkret. Ein KI-Assistent soll die Angebotserstellung beschleunigen. Die typische Rechnung lautet: „Spart zwei Stunden pro Angebot, bei 200 Angeboten im Jahr sind das 400 Stunden, ein klarer Gewinn." Klingt gut. Ist aber die halbe Wahrheit.
Die vollständige Rechnung stellt die beiden Blickwinkel nebeneinander:
| Frage | Bruttoblick | Vollkostenblick |
|---|---|---|
| Was wird gespart? | 400 Stunden | 400 Stunden, falls sie wirklich frei werden |
| Was kostet der Betrieb? | nichts genannt | Modellkosten, Pflege, Prüfzeit pro Angebot |
| Wird die Zeit umgewandelt? | unterstellt | nur, wenn mehr Angebote tatsächlich entstehen |
| Womit vergleichen wir? | Bauchgefühl | Baseline: Angebote und Abschlussquote vorher |
| Was ist die Wirkung? | „Effizienz" | z. B. mehr Abschlüsse oder kürzere Reaktionszeit |
Erst die rechte Spalte ergibt einen Business Case. Vielleicht zeigt sie, dass der Use-Case stark ist, weil schnellere Angebote messbar zu mehr Abschlüssen führen. Vielleicht zeigt sie aber auch, dass die gesparte Zeit gar nicht knapp war und der eigentliche Engpass woanders liegt. Beide Ergebnisse sind wertvoll, und beide entstehen nur, wenn man die Rechnung vor dem Projekt vollständig macht. Sie taugt nicht als Rechtfertigung danach.
Warum das keine Absage an KI ist
Es wäre ein Missverständnis, aus all dem zu schließen, KI lohne sich nicht. Das Gegenteil stimmt. Die 95 %, die keinen messbaren Return zeigen, sind ein Beweis gegen eine bestimmte Art, mit der Technik umzugehen. Gegen die Technik selbst beweisen sie nichts. Die kleinere Gruppe von Projekten zeigt sehr wohl Return, oft einen erheblichen. Der Unterschied liegt fast nie im Modell und fast immer in der Vorarbeit.
Die Studienlage legt dabei ein Muster nahe: Die Nutzung von KI-Werkzeugen ist in vielen Unternehmen längst hoch, Mitarbeiter greifen täglich darauf zu. Gleichzeitig ist die Zufriedenheit auf Führungsebene oft niedrig, weil sich der breite Einsatz nicht in den Zahlen niederschlägt. Diese Lücke zwischen reger Nutzung und ausbleibendem Return schließt sich nicht durch ein besseres Tool. Sie schließt sich durch eine bessere Frage am Anfang. Die richtige Frage lautet dann „Welche Wirkung wollen wir erzielen, was kostet uns das vollständig, und woran messen wir, ob es funktioniert hat?". Die Frage „Welche KI sollen wir einsetzen?" führt in die Irre. Wer diese drei Teilfragen beantworten kann, bevor er ein Tool auswählt, gehört mit hoher Wahrscheinlichkeit nicht zu den 95 %.
Was vor dem nächsten KI-Projekt zu klären ist
Wenn auf Ihrem Tisch gerade ein KI-Vorhaben liegt, ein Pilot, ein Angebot, ein interner Vorschlag, dann lohnt es sich, vor der Freigabe drei Dinge schriftlich zu fixieren. Bürokratie hilft hier wenig. Diese drei Punkte entscheiden aber über den Return:
- Die Wirkungskennzahl. Welche eine Zahl soll sich durch dieses Projekt verändern, und in welche Richtung?
- Die Vollkostenrechnung. Was kostet das Vorhaben über zwölf Monate inklusive Pflege, Daten, Change und Kontrolle? Nicht nur die Lizenz.
- Die Baseline. Welchen Ausgangswert messen wir jetzt, damit wir später überhaupt einen Vergleich haben?
Wenn alle drei Punkte beantwortet sind, ist die Wahrscheinlichkeit hoch, dass am Ende ein Return steht, den man auch belegen kann. Wenn auch nur einer fehlt, ist das Projekt nicht reif für die Freigabe, egal wie überzeugend die Demo war.
Wenn Sie unsicher sind, ob ein geplantes KI-Vorhaben einen echten Business Case hat oder nur eine gute Geschichte erzählt, ist ein nüchterner Digital-Realitäts-Check der schnellste Weg zu einer ehrlichen Einschätzung, mit Blick auf Wirkung, Vollkosten und Baseline, bevor das erste Budget fließt. Und wenn die Richtung klar ist, zeigt der KI-Sprint, wie aus einem priorisierten Use-Case in vier Wochen ein erstes belastbares Ergebnis entsteht, das von Anfang an auf Messbarkeit ausgelegt ist und nicht in den 95 % verschwindet.
