Agentic AI im Mittelstand — 171 % ROI laut Studie, aber nur 11 % schaffen es in Produktion. Woran das wirklich liegt.

171 % ROI in 18 Monaten. 5- bis 10-fache Rückflüsse pro investiertem Euro. So lesen sich die aktuellen Studien zu Agentic AI im Unternehmen, veröffentlicht im Frühjahr 2026. Dieselben Studien — wenn man bis Seite 3 liest — zeigen aber etwas Zweites: 79 % der Unternehmen experimentieren, 11 % betreiben in Produktion, 2 % sind im Vollbetrieb.

Wer rechnet, sieht den Widerspruch sofort: Wenn der ROI wirklich so hoch ist, warum bleibt der Großteil im Sandkasten stecken? Die Antwort, die wir in Beratungsgesprächen mit deutschen Mittelständlern immer wieder finden, ist unbequemer als die Pressemitteilungen großer Beratungen es zugeben: Die meisten Pilotprojekte sind so konstruiert, dass sie strukturell nicht produktionsreif werden können.

Was Agentic AI von klassischer Automatisierung unterscheidet

Bevor wir über ROI reden, muss klar sein, wovon wir sprechen. Agentic AI ist nicht „eine schlauere Automatisierung" und auch nicht „RPA mit Sprachmodell". Es ist ein architektonischer Bruch.

RPA wiederholt fixe Abläufe. Sie definieren, was passieren soll: Datei öffnen, Feld lesen, Wert übertragen, Datei schließen. RPA ist ein deterministisches Skript mit visueller Oberfläche. Wenn der Button woanders ist, bricht es ab.

Klassische Workflow-Automation orchestriert Systeme. Make.com, n8n, Zapier — Sie verkettungen Trigger und Aktionen über Schnittstellen. Mehr Toleranz als RPA, aber jeder Pfad muss vorher definiert sein.

Agentic AI plant und entscheidet. Sie geben einem Agenten ein Ziel — „qualifiziere diesen Lead und buche, falls passend, ein Erstgespräch" — und das System wählt selbst, welche Tools es nutzt, welche Daten es zieht, wann es eskaliert. Es ist nicht-deterministisch. Genau das ist der Hebel und genau das ist das Risiko.

Warum die 89 % nie in Produktion kommen

Die Studien sind ehrlich genug, die Ausfallgründe zu nennen — Sie müssen nur die Sprache übersetzen.

„Mangelnde Governance" heißt: niemand weiß, was der Agent tut. Wenn Sie nicht jeden Schritt protokollieren — was wurde aufgerufen, mit welchen Eingaben, mit welcher Begründung — kann der Agent perfekt funktionieren und Sie haben trotzdem ein Compliance-, ein Audit- und ein DSGVO-Problem.

„Datenintegrationsprobleme" heißt: das ERP spricht nicht mit der KI. Agenten brauchen Live-Zugriff auf Stammdaten, Auftragsdaten, Bestände. Wenn Ihr Warenwirtschaftssystem nur einen nächtlichen CSV-Export erlaubt, ist Ihr Agent zwölf Stunden hinter der Realität — und wird schlechtere Entscheidungen treffen als Ihre Sachbearbeiterin.

„Adoption-Probleme" heißt: das Team wurde übergangen. Wenn die KI Aufgaben übernimmt, die jemand bisher gemacht hat, ist das emotional aufgeladen — selbst wenn der Mitarbeiter dadurch entlastet wird. Pilotprojekte, die ohne die betroffenen Menschen aufgesetzt werden, sterben in der Adoption-Phase, egal wie gut die Technik ist.

„Hallucination Risk" heißt: niemand hat die Fehlergrenzen definiert. Ein Agent, der bei einer Anfrage zu 92 % richtig liegt, wirkt im Demo brillant. Im Produktivbetrieb mit 1.000 Anfragen pro Woche sind das 80 falsche Antworten — und ohne klares Fallback-Regelwerk landen die als Kundenbeschwerde im Postfach.

Wo Agentic AI im deutschen Mittelstand bereits funktioniert

Wir reden bewusst nicht über Hyperscaler-Cases mit eigenem KI-Team. Hier sind drei Felder, in denen wir Pilotprojekte in produktive Systeme überführt haben.

Vertriebsqualifizierung. Ein 20-Mitarbeiter-Großhändler hatte 60 % unqualifizierte Anfragen über sein Web-Formular. Ein Agent prüft jetzt anhand öffentlicher Daten (Branche, Größe, Standort) plus drei Rückfragen automatisch, ob das Lead passt. Was passt, geht direkt in den Kalender des Geschäftsführers. Was nicht passt, bekommt eine höfliche Absage mit Empfehlung. Conversion-Rate hochwertiger Anfragen: +34 %. Time-to-first-meeting: −4 Tage.

Angebotsgenerierung im Handwerk. Ein Gerüstbauunternehmen verbringt früher 30 Minuten pro Angebot mit Excel und Outlook. Ein Agent zieht aus 5 Wizard-Antworten Material- und Aufbaupreise, generiert ein PDF, sendet es raus und legt einen Folgetermin an. Manuelle Arbeit pro Angebot: −90 %. Reaktionszeit: von 6 Stunden auf 4 Minuten.

Service-Triage. Eine B2B-SaaS mit 800 Kunden hatte überlastetes Support-Team. Ein Agent klassifiziert eingehende Tickets, beantwortet die Standardfragen direkt, eskaliert komplexe Fälle mit vorbereiteter Zusammenfassung an den Spezialisten. First-response-time: −62 %. Mitarbeiterzufriedenheit gestiegen, weil weniger „immer dasselbe erklären".

Was Sie konkret tun, damit Ihr Projekt zu den 11 % gehört

Vier Designentscheidungen am Projektstart entscheiden, ob Sie in Produktion kommen oder im PoC-Friedhof landen.

Ein klar abgegrenzter Anwendungsfall, nicht „KI für alles". Wählen Sie einen Prozess mit hohem Volumen, hoher Wiederholungsrate und klar messbarem Outcome. Lead-Qualifizierung statt „Sales-Agent". Angebotsgenerierung statt „Vertriebs-KI". Erst skalieren, wenn Modul eins läuft.

Erfolg vor Projektstart numerisch festschreiben. „Wir wollen Zeit sparen" ist kein Ziel. „Wir wollen die Bearbeitungszeit pro Angebot von 30 auf unter 5 Minuten senken bei gleichbleibender Konversion" ist eines. Ohne diese Zahl gibt es kein Erfolg-versus-Misserfolg, sondern nur Meinungen.

Logging und menschliche Übersicht von Tag eins. Bauen Sie das Dashboard, das jede Agenten-Entscheidung sichtbar macht, parallel zum Agenten — nicht hinterher. Wenn nach drei Wochen Produktion keiner mehr reinschaut, ist das in Ordnung. Wenn niemand reinschauen kann, ist es ein Compliance-Risiko.

Fallback-Regel: was passiert, wenn der Agent unsicher ist? Jeder Agent braucht eine Schwelle, ab der er an einen Menschen übergibt. Diese Schwelle gehört in den Vertrag, nicht in den Code-Kommentar. Damit verschwinden 80 % der „Hallucination"-Risiken sofort.

Was den ROI-Unterschied zwischen Unternehmen ausmacht

Studien sagen 171 % ROI. Wir sehen in der Praxis Spreizungen von −40 % bis +320 %. Der Unterschied ist nicht „bessere Technologie", sondern systematische Disziplin in drei Punkten: harter Use-Case-Scope, kompromisslose Messung und der Mut, ein Projekt nach acht Wochen zu beerdigen, wenn die Zahlen nicht stimmen — anstatt weitere sechs Monate „nachzujustieren".

Das Frustrierende an Branchenstudien ist, dass sie diesen Teil systematisch glätten. Sie messen Erfolge bei den Unternehmen, die es geschafft haben — und ignorieren die Methodik, mit der sie es geschafft haben. ROI ist kein Eigenschaft der Technologie. ROI ist eine Eigenschaft der Projektführung.

Wenn Sie heute ein Agentic-AI-Projekt starten, ist die wichtigste Frage nicht, welches Modell Sie wählen. Es ist die Frage, welchen einen Prozess Sie wählen, an dem Sie in den nächsten 60 Tagen einen messbaren Beweis erbringen können. Wer das hat, kommt in die 11 %. Wer das nicht hat, bleibt bei den 89 %.