KI-ROI ehrlich messen — 5 Kennzahlen, die zählen, und 3, die täuschen

Eine Geschäftsführerin zeigt uns voller Stolz das Reporting ihrer ersten KI-Implementierung: „Unser Chatbot hat dieses Jahr 14.000 Anfragen bearbeitet." Wir fragen nach: Wie viele dieser Anfragen wären sonst beim Menschen gelandet? Wie viele wurden zur Zufriedenheit gelöst? Wie viele führten zu Folge-Tickets? Antwort: „Das messen wir nicht so genau."

Genau hier verbrennen 2026 die meisten KI-Budgets — nicht in der Technik, sondern in der Erfolgsmessung. Studien sagen 171 % ROI im Schnitt. In der Praxis sehen wir Spreizungen zwischen massiv positiv und tief negativ — und die Trennlinie verläuft fast immer entlang der Frage: Wer hat vor Projektstart definiert, was Erfolg messbar bedeutet?

Warum klassisches Controlling bei KI-Projekten scheitert

KI-Investitionen verhalten sich anders als klassische IT-Projekte. Drei Eigenschaften verzerren die normale ROI-Rechnung.

Variable Outputqualität. Eine SAP-Implementierung liefert deterministisch das, was gebaut wurde. Ein KI-Agent liefert in 78 % der Fälle perfekt, in 18 % brauchbar mit Korrektur, in 4 % falsch. Das durchschnittliche „funktioniert" verschleiert, dass die echten Kosten in den 22 % Nachbearbeitung sitzen.

Compound-Effekte. KI-Wirkung baut sich auf. Im ersten Monat sieht es nach wenig aus, weil das Team die neuen Workflows noch nicht eingespielt hat. Im sechsten Monat sehen Sie die wahre Wirkung. Wer nach drei Monaten misst und das Projekt für „enttäuschend" erklärt, killt die Investition vor der Reifung.

Verborgene Kosten und versteckte Erträge. Eine schlechte KI-Antwort verursacht Folge-Aufwand (Kundenbeschwerde, Korrektur, Vertrauensschaden), der nicht im Projekt-Budget steht. Eine gute KI-Antwort generiert manchmal Kundenbindung, die im Vertrieb-KPI auftaucht — drei Quartale später. Beide Effekte werden in Standard-Controlling nicht zugeordnet.

Die fünf Kennzahlen, die wirklich etwas aussagen

Kennzahl 1: Bearbeitungszeit pro Fall, vorher/nachher mit gleicher Stichprobengröße. Nicht „die KI bearbeitet 1.000 Fälle". Sondern: „Vorher brauchten wir 22 Minuten pro Angebot, jetzt 4 Minuten, gemessen über 100 identische Fälle". Das ist eine Zahl, die Bestand hat. Sie zeigt echte Effizienz und ist gegenüber Volumen-Schwankungen unempfindlich.

Kennzahl 2: Erstkorrektheit (First-Pass-Right) der KI-Antworten. Wie oft ist die Antwort beim ersten Versuch verwendbar — ohne menschliche Korrektur, ohne Rückfrage? Diese Zahl muss in einer Stichprobe regelmäßig erhoben werden (nicht Selbsteinschätzung). Sie ist die direkte Qualitätskennzahl. Liegt sie über 85 %, ist das System produktionsreif. Unter 70 % machen Sie Verlust durch Nachbearbeitung.

Kennzahl 3: Eskalationsquote. Welcher Anteil der Fälle wird vom Agent an einen Menschen übergeben? Diese Quote sollte stabil sein und transparent. Steigt sie, ist das ein Drift-Indikator. Sinkt sie unter 5 %, ist das verdächtig — niemand ist immer richtig.

Kennzahl 4: Time-to-First-Response (Reaktionszeit zum Kunden). Wie lange braucht es, bis ein Kunde nach einer Anfrage eine inhaltliche Antwort hat? Diese Zahl beeinflusst Conversion-Rate, Kundenzufriedenheit und Net Promoter Score direkter als fast jede andere Operative-Kennzahl. KI-Projekte, die diese Zahl von Stunden auf Minuten drücken, generieren Ertrag, der weit über die direkten Zeitersparnisse hinausgeht.

Kennzahl 5: Tatsächliche Konversion oder Outcome-Rate. Das ist die schwerste, aber wichtigste Zahl. Werden mit KI mehr Angebote zu Aufträgen? Werden mehr Anrufe zu Terminen? Werden mehr Tickets zur Zufriedenheit gelöst? Wenn KI die Reaktionszeit verkürzt, aber die Konversion gleich bleibt, fehlt entweder Datenqualität oder das KI-Output ist subtil schlechter. Diese Kennzahl deckt das auf, wo andere es nicht zeigen.

Drei Kennzahlen, die täuschen

Genauso wichtig: Welche Zahlen helfen nicht — oder schlimmer, leiten in die Irre?

„Anzahl von der KI bearbeiteter Fälle". Klingt eindrucksvoll, sagt nichts. 14.000 KI-Antworten können großartig sein oder Müll. Ohne Qualitätszahl im Hintergrund ist die Volumen-Statistik PR-Material, kein Controlling.

„Geschätzte Zeitersparnis". Wenn die Bearbeitungszeit nicht direkt gemessen, sondern „geschätzt" wird (typisch: „die Mitarbeiter sagen, sie sparen 30 % Zeit"), ist die Zahl unbrauchbar. Schätzungen sind systematisch positiv verzerrt — die Mitarbeiter wollen den eigenen Tool-Einsatz rechtfertigen.

„Kosten-Reduktion durch Personalabbau". Branchenstudien zeigen: 80 % der Unternehmen, die KI-bedingt Personal abbauen, sehen keinen ROI. Der Personalabbau realisiert die Kosten, aber die Restmannschaft schafft die Volumina nicht mehr — oder die Qualität bricht ein. Sauberer Personal-Aufbau-Stopp und Umsetzen auf hochwertigere Aufgaben funktioniert. Personalabbau-Sparen täuscht.

Was Sie in der Praxis konkret aufsetzen

Vier Maßnahmen, in Reihenfolge.

Erfolgsmaße vor Projektstart schriftlich festschreiben. Nicht zwei, nicht zehn, sondern genau drei. „Bearbeitungszeit pro Angebot soll von 22 auf unter 5 Minuten sinken. Erstkorrektheit der KI-Angebote soll über 90 % liegen. Reaktionszeit zum Kunden soll von 8 Stunden auf unter 30 Minuten fallen." Wenn Sie das nicht aufschreiben können, bevor das Projekt startet, fangen Sie nicht an.

Baseline messen, dokumentieren. Mindestens vier Wochen Vorlauf, in dem die aktuellen Zahlen unter denselben Bedingungen erhoben werden. Ohne Baseline ist jede Verbesserung Behauptung.

Monatliches Review-Cockpit aufsetzen. Ein Dashboard mit den 3–5 Kernkennzahlen. Es wird jeden ersten Werktag des Monats besprochen — Geschäftsführung plus Fachbereichsleiter. Nicht „wenn was schief läuft" — das ist zu spät. Sondern fest im Kalender.

Nach 90 Tagen Go/No-Go-Entscheidung treffen. Wenn nach drei Monaten Produktivbetrieb die definierten Erfolgsmaße erreicht sind, skaliert das Projekt. Wenn nicht, wird es entweder modifiziert oder beerdigt. Das Schlimmste ist die mittlere Variante: „läuft halt nicht so wie gedacht, machen wir trotzdem weiter".

Wie ROI bei einem typischen Mittelstandsprojekt aussieht

Für Greifbarkeit ein realistisches Beispiel: B2B-Großhandel, 18 Vertriebsmitarbeiter, KI-Workflow für Angebotsgenerierung.

Setup: 18.000 EUR Festpreis, 4 Wochen.

Erstkorrektheit nach 8 Wochen Produktion: 91 %.

Bearbeitungszeit pro Angebot: von 28 auf 4 Minuten gefallen, gemessen über 200 Stichprobenfälle.

Reaktionszeit zum Kunden: von 12 Stunden auf 18 Minuten gefallen.

Konversion Angebot → Auftrag: von 18 % auf 24 % gestiegen (gemessen über 6 Monate).

Direkte Zeitersparnis: ca. 480 Personenstunden pro Monat (24 min × 100 Angebote/Tag × 20 Arbeitstage). Wenn Vertriebsstunde mit 65 EUR intern gerechnet wird: 31.200 EUR/Monat Wert.

Zusätzlicher Umsatz aus +6 Konversionspunkten: schwerer exakt zu beziffern, aber konservativ 4–6 zusätzliche Aufträge pro Monat × Durchschnittsmargen → fünfstellig monatlich.

ROI nach 12 Monaten: Konservativ 18× das eingesetzte Setup-Budget. Plus die nicht direkt quantifizierten Effekte (weniger Frustration im Team, höhere Datenqualität im CRM, schnellere Sales-Cycles).

Diese Zahlen sind nicht Best Case. Sie sind ein normaler Outcome eines sauber definierten und sauber gemessenen Projekts. Genau das ist die Lücke zur Branchen-Statistik: 30 % der Projekte erreichen solche Zahlen — und werden ehrlich gemessen. Die anderen 70 % machen vielleicht ähnliche Zahlen, messen sie aber nicht, oder umgekehrt messen sie zu früh, zu eng, oder gar nicht.

Was den Unterschied zwischen Pilot-Erfolg und Bilanz-Erfolg ausmacht

KI-Projekte unterscheiden sich nicht durch die Technik in „erfolgreich" und „erfolglos". Sie unterscheiden sich durch die Disziplin, die nach dem Go-Live einsetzt — und durch die Bereitschaft, Erfolg in Zahlen zu fassen, nicht in Stimmungsbildern.

Die Geschäftsführer, die in 18 Monaten zurückblicken und sagen: „Diese eine Entscheidung hat unser Unternehmen verändert", werden nicht die sein, die das modernste Modell gekauft haben. Es werden die sein, die vor Projektstart drei Zahlen aufgeschrieben und nach 90 Tagen abgeglichen haben. Diese Disziplin kostet keinen Cent und entscheidet alles.