Daniel Schlager, KI-Berater für KMU in Salzburg & Österreich

Die Zahl, auf die alle starren

Vor einigen Wochen saß ich mit dem Geschäftsführer eines Maschinenbauers zusammen. Er hatte eine Tabelle vorbereitet, drei Spalten breit, säuberlich sortiert: Modell A, Modell B, Modell C, jeweils der Preis pro eine Million Tokens. „Das hier ist viermal günstiger", sagte er und tippte auf die unterste Zeile. „Da nehmen wir das."

Ich habe ihn gebeten, die Tabelle einen Moment liegen zu lassen, und stattdessen eine andere Frage gestellt: Was kostet es Sie, wenn eines Ihrer Angebote durch dieses Modell falsch kalkuliert in den Versand geht? Es wurde still. Diese Zahl stand in keiner Spalte.

Der Token-Preis ist die sichtbarste Kennzahl, die ein KI-Modell hat. Er steht auf jeder Anbieterseite, lässt sich in Sekunden vergleichen und fühlt sich an wie ein Preisschild im Supermarkt. Genau deshalb ist er so verführerisch. Und genau deshalb führt er so oft in die Irre. Er ist die kleinste Kostengröße im Betrieb eines KI-Modells, und er entscheidet selten darüber, ob ein KI-Vorhaben günstig oder teuer wird.

Warum der Token-Preis trügt

Ein Token ist ein Wortbestandteil, grob ein paar Zeichen Text. Der Preis pro Token sagt also, was es kostet, dem Modell etwas vorzulegen und eine Antwort zu bekommen. Was er nicht sagt: wie viele Tokens eine reale Aufgabe verbraucht, wie oft die Aufgabe wiederholt werden muss, und was alles um das Modell herum passieren muss, damit aus einer Modellantwort ein verwertbares Ergebnis wird.

Drei Effekte machen den Token-Preis zur falschen Vergleichsgröße:

Kontext multipliziert. Ein Modell ist nur so gut wie die Information, die Sie ihm mitgeben. In der Praxis heißt das: lange System-Prompts, mitgelieferte Dokumente, frühere Gesprächsverläufe, Beispiele. Eine einzige Aufgabe trägt oft das Zehn- bis Hundertfache an Eingabe-Tokens mit sich, das der nackte Token-Preis nahelegt. Ein günstiges Modell, das mehr Kontext braucht, um dasselbe Ergebnis zu liefern, kann teurer sein als ein teures, das mit weniger auskommt.
Qualität bestimmt die Wiederholungsrate. Ein Modell, das in 70 % der Fälle eine brauchbare Antwort gibt, verbraucht für die restlichen 30 % zusätzliche Durchläufe, manuelle Korrektur, einen zweiten Versuch, einen Eskalations-Prompt an ein stärkeres Modell. Diese Wiederholungen tauchen im Token-Preis nicht auf, summieren sich aber.
Das Modell ist der kleinere Teil des Systems. Um eine Modellantwort herum stehen Datenaufbereitung, Speicherung, Schnittstellen, Prüfschritte und Menschen. Diese Schichten kosten, und sie kosten weitgehend unabhängig davon, welches Modell darunter läuft.

Wer nur den Token-Preis vergleicht, optimiert die falsche Zahl. Es ist, als würde man ein Auto allein nach dem Spritpreis an der nächsten Tankstelle aussuchen, und Verbrauch, Versicherung, Wartung und Wertverlust ignorieren.

Die echten Kostenposten

Wenn man die wahren Kosten eines KI-Modells im Betrieb ernst nimmt, entsteht eine Liste, die mit dem Token-Preis nur in einer einzigen Zeile zu tun hat. Die folgende Übersicht zeigt die typischen Posten und wo der Hebel jeweils liegt.

Kostenposten	Was dahintersteckt	Größenordnung im Betrieb
Token-Preis (Inferenz)	Ein- und Ausgabe pro Anfrage	meist der kleinste laufende Posten
Kontext & Prompt-Größe	mitgelieferte Dokumente, Historie, Beispiele	oft der größte Treiber der Token-Rechnung
Wiederholungen & Retries	zweite Versuche, Korrekturen, Eskalation an stärkeres Modell	wächst mit sinkender Antwortqualität
Embeddings & Vektorspeicher	Wissensbasis vektorisieren, speichern, aktuell halten	laufend, unabhängig von der Nutzung
Integration & Wartung	Anbindung an Bestandssysteme, Pflege bei Änderungen	einmalig hoch, dann dauerhaft
Monitoring & Qualitätssicherung	Logging, Auswertung, Prüfschritte, Freigaben	dauerhaft, oft unterschätzt
Fehlkosten	Schaden durch falsche Antworten, die ungeprüft durchgehen	selten, aber potenziell der teuerste Posten
Modellwechsel	Anpassung, erneutes Testen bei Anbieter- oder Preisänderung	abhängig von der Architektur, siehe unten
Datenschutz & Hosting	EU-Hosting, On-Premise, Auftragsverarbeitung, Compliance	strukturell, je nach Datenklasse

Auffällig ist die Verteilung. Der Posten, auf den in den Vergleichstabellen alle starren, steht ganz oben und ist im laufenden Betrieb meist der kleinste. Die Posten, die wirklich über die Wirtschaftlichkeit entscheiden, stehen weiter unten und tauchen in keiner Anbieter-Preisliste auf.

Rechnen Sie pro erledigter Aufgabe, nicht pro Token

Die entscheidende Verschiebung ist eine andere Bezugsgröße. Die Frage lautet nicht „Was kostet uns ein Token?". Sie lautet „Was kostet uns eine erledigte Aufgabe, Ende zu Ende, inklusive Fehler und Nacharbeit?"

Nehmen wir ein konkretes Beispiel: die automatische Beantwortung von Standard-Kundenanfragen. Die Kosten pro erledigter Anfrage setzen sich zusammen aus den Tokens für die Anfrage selbst, dem mitgelieferten Kontext aus der Wissensbasis, den Fällen, in denen das Modell danebenliegt und ein Mensch nacharbeiten muss, und dem Anteil an Monitoring und Pflege, der auf diese Anfrage entfällt.

Erst auf dieser Ebene werden die Modelle vergleichbar. Ein teureres Modell mit höherer Trefferquote braucht weniger menschliche Nacharbeit, und kann pro erledigter Anfrage günstiger sein als ein billiges Modell, das öfter danebenliegt. Umgekehrt ist für eine einfache, gut eingegrenzte Aufgabe das große Premium-Modell oft schlicht überdimensioniert: Es kostet pro Token mehr und liefert keinen Mehrwert, den die Aufgabe nutzen könnte.

Die richtige Frage ist nie „Welches Modell ist am günstigsten?". Sie ist „Welches Modell ist für diese Aufgabe am günstigsten?"

Damit fällt auch die Idee, ein einziges Modell für alles zu wählen. Ein Unternehmen, das KI ernsthaft betreibt, hat selten ein Modell. Es hat eine Zuordnung: das schlanke, günstige Modell für Massenaufgaben mit klarer Struktur, das starke Modell für die wenigen Fälle, in denen Qualität direkt Geld bedeutet. Genau hier zeigt sich übrigens, warum ein günstiges Modell die ganze Branche aufmischen kann. Es ersetzt nicht alles. Es verschiebt die Kostenstruktur für einen großen Teil der Aufgaben (das hat sich zuletzt eindrucksvoll gezeigt, wie das kostengünstige Modell DeepSeek R1 illustriert).

Die Kosten, die niemand auf die Rechnung schreibt

Die gefährlichsten Kostenposten sind die, die nicht als Rechnung im Postfach landen. Sie entstehen leise und tauchen erst in der Jahresbilanz auf, als Personalzeit, als verlorener Kunde, als Projekt, das nie fertig wurde.

Wiederholungen und stille Nacharbeit

Jede Antwort, die nicht stimmt, kostet zweimal: einmal die verbrauchten Tokens und einmal die Zeit eines Mitarbeiters, der den Fehler bemerkt und korrigiert. Bei niedriger Trefferquote frisst diese Nacharbeit den gesamten Vorteil eines billigen Modells auf, meist unbemerkt, weil die Kosten im Personalbudget verschwinden und nicht in der KI-Rechnung.

Fehlentscheidungen, die durchrutschen

Der teuerste Fall ist die falsche Antwort, die niemand bemerkt. Ein falsch kalkuliertes Angebot, eine fehlerhafte Vertragsauskunft, eine erfundene technische Angabe, die in eine Kundenkommunikation wandert. Solche Fehlkosten sind selten, aber ein einziger Fall kann die Token-Ersparnis eines ganzen Jahres übersteigen. Wer hier am Modell spart und am Prüfschritt, spart an der falschen Stelle.

Datenhaltung und Wissensbasis

Sobald ein Modell auf eigenem Firmenwissen antworten soll, kommt eine ganze Schicht hinzu: Dokumente vektorisieren, in einem Vektorspeicher ablegen, aktuell halten, bei jeder Änderung neu aufbereiten. Diese Kosten laufen unabhängig davon, wie oft das Modell genutzt wird, und unabhängig davon, welches Modell darunter arbeitet. Sie gehören zur KI-Lösung und nicht zum Modell, und werden beim Modellvergleich regelmäßig vergessen.

Integration, Monitoring und Wartung

Ein KI-Modell, das in der Spielwiese eines Anbieters läuft, kostet fast nichts. Ein KI-Modell, das in Ihre Bestandssysteme eingebunden ist, sauberes Logging hat, geprüfte Freigaben durchläuft und bei jeder Änderung der Umgebung nachgezogen wird, kostet dauerhaft Pflege. Dieser Teil ist der eigentliche Betrieb, und er ist weitgehend modellunabhängig.

Wie die Architektur die TCO senkt

Die gute Nachricht: Die meisten dieser Kosten senken Sie nicht über ein billigeres Modell. Sie senken sie über eine bessere Architektur. Drei Hebel sind besonders wirksam.

Das richtige Modell je Aufgabe. Kein Modell für alles, dafür eine bewusste Zuordnung. Das kleine, schnelle Modell übernimmt die Masse der gut strukturierten Routine. Das starke Modell wird gezielt dort eingesetzt, wo Qualität direkt Geld bedeutet. Diese Trennung senkt die Token-Kosten erheblich, ohne die Ergebnisqualität dort zu opfern, wo sie zählt.

Caching und Wiederverwendung. Vieles, was an ein Modell geht, wiederholt sich: derselbe System-Prompt, dieselben Stammdaten, dieselben häufigen Fragen. Wer wiederkehrende Eingaben zwischenspeichert und identische Anfragen nicht zweimal stellt, senkt den größten Token-Treiber spürbar, den Kontext. Das ist eine reine Architekturentscheidung und verlangt keinen Modellwechsel.

Kleinere Modelle, wo sie reichen. Die Versuchung, immer das stärkste verfügbare Modell zu nehmen, ist groß und meistens teuer. Für viele Aufgaben, Kategorisieren, Zusammenfassen, Extrahieren, Formatieren, reicht ein deutlich kleineres Modell vollständig aus. Die Kunst liegt nicht darin, das beste Modell zu finden. Sie liegt darin, das kleinste zu finden, das die Aufgabe noch sicher erfüllt.

Diese Hebel haben eines gemeinsam: Sie senken die TCO unabhängig davon, welcher Anbieter gerade welchen Token-Preis aufruft. Sie wirken über jeden Preiswechsel hinweg.

Wechselfähigkeit ist ein Kostenhebel

Der unsichtbarste, aber strategisch wichtigste Posten in der TCO-Tabelle ist der Modellwechsel. Und seine Höhe hängt fast vollständig von einer einzigen Entscheidung ab, die Sie ganz am Anfang treffen: Behandeln Sie das Modell als austauschbare Konfiguration, oder verflechten Sie es fest mit Ihrer Anwendung?

KI-Modelle bewegen sich schneller als jede andere Technologie der letzten zwanzig Jahre. Preise fallen, neue Modelle erscheinen, alte werden eingestellt, Anbieter ändern ihre Konditionen. In diesem Umfeld ist die Fähigkeit, das Modell in Stunden statt in Monaten zu wechseln, bares Geld. Wenn ein Anbieter morgen die Preise verdoppelt oder ein neues Modell die Kostenstruktur halbiert, zählt nicht, welches Modell Sie heute nutzen. Es zählt, wie teuer es ist, das Modell zu wechseln.

Diese Wechselfähigkeit entsteht nicht von selbst. Sie ist eine Architekturentscheidung: das Modell als Konfiguration hinter einer klaren Schnittstelle, fest verdrahtet gehört es dort nicht hin. Dieselbe Logik, die ich auch bei der Frage nach der nächsten KI-Plattform beschrieben habe: Wer die Architekturhoheit abgibt, gibt auch den wichtigsten Kostenhebel ab. Methode bleibt, Modelle wechseln. Wer das ernst nimmt, baut seine KI-Lösung so, dass jeder zukünftige Preissturz ein Geschenk ist und keine Migration.

Die Quintessenz

Der Token-Preis ist real, aber er ist die Spitze des Eisbergs. Unter der Wasseroberfläche liegen Kontext, Wiederholungen, Datenhaltung, Integration, Monitoring und, am gefährlichsten, die Fehlkosten falscher Antworten. Ein KI-Modell, das pro Token günstig ist, kann im Betrieb das teuerste sein. Und ein teures Modell kann pro erledigter Aufgabe das wirtschaftlichste sein.

Wer KI im Unternehmen ernsthaft betreibt, hört auf, Token-Preise zu vergleichen, und fängt an, drei Fragen zu stellen: Was kostet uns eine Aufgabe Ende zu Ende? Welches Modell ist für diese eine Aufgabe das richtige? Und wie teuer wäre es, das Modell zu wechseln, wenn sich der Markt morgen dreht?

Wenn Sie wissen wollen, wo in Ihren geplanten oder laufenden KI-Vorhaben die wahren Kosten liegen, und nicht die, die in der Anbieter-Tabelle stehen, ist ein nüchterner Digital-Realitäts-Check der schnellste Weg zu einer ehrlichen TCO-Einschätzung. Und wenn die Richtung klar ist, zeigt der KI-Sprint, wie ein erstes Vorhaben so gebaut wird, dass das Modell eine austauschbare Konfiguration bleibt, und die Kostenstruktur unter Ihrer Kontrolle.

Die wahren Kosten von KI-Modellen: ein TCO-Blick jenseits des Token-Preises