Das KI-Ergebnis sieht gut aus. Aber wer nimmt es ab?

Es gibt einen Moment in BI-Projekten, den alle kennen. Der Bericht ist fertig. Das Dashboard sieht ordentlich aus. Die erste Abnahmerunde beginnt. Und dann sagt jemand aus dem Fachbereich: „Diese Zahl stimmt nicht.“ Dieser Moment ist unangenehm, aber er gibt dem Projekt zumindest etwas Konkretes.

Thomas Howert

Co-Founder & Senior Advisor für BI-, Datenprojekte und Technologieentscheidungen

Dashboard auf Tablet und Text: „Diese Zahl stimmt nicht.“

Das CRM weist 1.240 aktive Kunden aus. Das Dashboard zeigt 1.217. Jetzt hat die Arbeit eine Richtung. Vielleicht ist der Filter falsch. Vielleicht wurde „aktiver Kunde“ nie sauber definiert. Vielleicht ist der nächtliche Ladelauf fehlgeschlagen. Vielleicht stimmt das Dashboard, und das Quellsystem ist unordentlicher als gedacht.

Was auch immer der Grund ist: Die Diskussion hat einen Gegenstand.

‍

Es gibt eine Zahl, eine Quelle und eine Abweichung

Die Abnahme kann trotzdem Wochen dauern. Es wird über Definitionen, Zuständigkeiten und Ausnahmen debattiert. Aber die Grundlogik ist klar: Das Analyseergebnis muss mit dem übereinstimmen, was die Organisation als führende Quelle behandelt.

Der Bericht sagt X. Die Quelle sagt Y. Jetzt muss geklärt werden, warum.

Bei KI fängt die Überprüfung oft anders an. Das Ergebnis sieht gut aus. Die Formulierung ist sauber. Die Erklärung klingt plausibel genug, dass zunächst niemand widerspricht.

Dann, meist beim dritten oder vierten echten Beispiel, sagt jemand:

„Ja, aber das würden wir in diesem Fall nicht so machen.“

Bei BI beginnt die Abnahme oft, wenn die Zahlen nicht aufgehen. Bei KI beginnt sie oft, wenn das Ergebnis richtig aussieht, der Fachbereich aber nicht danach handeln würde.

Denn jetzt geht es nicht mehr darum, ob ein Wert mit einem Feld im Quellsystem übereinstimmt. Das System hat etwas interpretiert: eine Kundensituation, einen Supportfall, ein Risikoindiz, eine Vertragsklausel, einen Prozessstatus.

Und eine Interpretation abzunehmen ist deutlich schwieriger als eine Zahl.

‍

Ein einfaches Vertriebsbeispiel

Ein Dashboard zeigt offene Pipeline, letzte Aktivität, erwarteten Umsatz, Produktnutzung und Account-Status. Diese Werte lassen sich gegen das CRM prüfen. Die Daten mögen unordentlich sein, aber die Richtung der Prüfung ist klar.

Ein KI-Assistent schaut auf dasselbe Konto und kommt zu folgendem Schluss: Diesen Kunden sollten wir diese Woche kontaktieren — wegen Ausbaupotenzial, aktueller Interaktionen und eines möglichen Abwanderungssignals.

Das kann nützlich sein. Es kann genau das sein, was man sich von KI erhofft. Aber wie nimmt man das ab?

Es gibt kein CRM-Feld namens „korrekte nächste Maßnahme“.

Die letzte Aktivität wurde vielleicht berücksichtigt, aber falsch eingeordnet. Drei geöffnete E-Mails können nach Engagement aussehen, ohne echte Kaufabsicht zu signalisieren. Das Abwanderungssignal basiert möglicherweise auf Nutzungsdaten, die längst veraltet sind. Vielleicht gibt es eine offene Eskalation, die nie sauber im System erfasst wurde, aber die Empfehlung komplett verändert. Oder die Empfehlung passt in ein generisches Vertriebskonzept, ist aber für dieses konkrete Konto falsch.

Das Gefährliche daran: Das Ergebnis kann trotzdem überzeugend wirken.

Wenn KI auf offensichtliche Weise versagt, fällt es sofort auf. Sie erfindet einen Kunden, verwendet das falsche Datum, verwechselt zwei Konten oder produziert etwas offensichtlich Absurdes. Ärgerlich, aber nicht das, worüber ich mir die meisten Gedanken machen würde.

‍

Die gefährlicheren Fehler fallen oft nicht sofort auf

Eine Kundenzusammenfassung liest sich gut, übersieht aber die neueste Eskalation. Eine Priorisierung wirkt strukturiert, basiert aber auf veralteten Informationen. Eine Empfehlung klingt logisch, passt aber nicht zum tatsächlichen Prozess. Eine Klassifizierung ist plausibel, würde den Fall aber an das falsche Team weiterleiten.

Nichts bricht zusammen. Der Prozess bewegt sich nur leicht in die falsche Richtung.

Das ist schwerer zu erkennen als eine falsche Zahl im Dashboard. Eine falsche Zahl erzeugt sofortigen Widerstand. Jemand sieht sie und sagt: „Das kann nicht stimmen.“

Bei KI kann das Ergebnis den ersten Eindruck überstehen, weil es vernünftig klingt.

Genau deshalb ist „sieht gut aus“ kein tragfähiges Abnahmekriterium.

Kritisch wird es, sobald das KI-Ergebnis das Chat-Fenster verlässt.

Eine grobe Zusammenfassung in einer Seitenleiste lässt sich noch prüfen, ignorieren oder hinterfragen. Ein Prioritätsflag im CRM ist schon näher am operativen Prozess. Eine vorgeschlagene nächste Maßnahme in einem Vertriebsworkflow noch näher. Und sobald das System anfängt, in Tools zurückzuschreiben, Tickets zu öffnen oder Status zu ändern, ist die Frage nicht mehr, ob das Ergebnis in der Demo nützlich klang.

‍

Die Frage ist, wohin das Ergebnis darf

Kann es ohne Freigabe weiterlaufen? Wo würde ein Fehler sichtbar werden? Wer trägt die Verantwortung, wenn die Empfehlung plausibel war, aber falsch?

Die meisten Demos beantworten das nicht. Sie zeigen, dass KI etwas Nützliches erzeugen kann. Sie zeigen nicht klar genug, was nach dem nützlich wirkenden Ergebnis passiert. Manche Prüfungen sollten langweilig sein. Falscher Kunde, falscher Zeitraum, falsche Quelle, fehlendes Pflichtfeld, unbelegte Aussage. Wenn das passiert, geht das Ergebnis nicht weiter. Kein philosophischer Diskurs nötig.

Aber diese Prüfungen fangen nur die offensichtlichen Probleme ab.

Ein Ergebnis kann die freigegebene Quelle verwenden und sie trotzdem falsch interpretieren. Es kann das richtige Dokument referenzieren und trotzdem die entscheidende Ausnahme übersehen. Es kann die Fakten korrekt zusammenfassen und trotzdem eine nächste Maßnahme vorschlagen, die niemand mit Prozesskenntnis so umsetzen würde.

Hier wird Fachkompetenz unverzichtbar.

Jemand, der den Prozess kennt, muss prüfen, ob das Ergebnis in der Praxis trägt. Würden wir diesen Kunden jetzt wirklich anrufen? Würden wir diesen Fall wirklich eskalieren? Würden wir das System wirklich dieses Feld aktualisieren lassen?

Das sind keine Benchmark-Fragen. Das sind Abnahmefragen. Und sie sind spezifisch für ein Unternehmen, einen Prozess und eine Konsequenz. Die Nicht-Determinismus-Frage macht das noch schwieriger.

Niemand erwartet, dass KI jedes Mal denselben Satz produziert. Aber die Entscheidung hinter der Formulierung muss stabil genug sein. Wenn derselbe Kunde in einem Lauf als „hohe Priorität“ eingestuft wird, im nächsten als „abwarten“ und im dritten als „mögliche Abwanderung“, ist das kein Stilproblem. Das ist ein operatives Zuverlässigkeitsproblem.

Ein zweites Modell kann helfen. Es kann das Ergebnis hinterfragen, Aussagen gegen die Quelle prüfen und fehlende Belege markieren. Das kann sinnvoll sein. Aber es sollte ein Herausforderer sein, keine finale Instanz. Sonst prüft ein unkontrolliertes KI-Ergebnis ein anderes unkontrolliertes KI-Ergebnis, und die Evaluierungsschicht wirkt nur professioneller, als sie ist.

In der Praxis geht es weniger darum, ein elegantes Evaluierungsframework zu bauen, als darum, klar zu entscheiden, was weiterlaufen darf. Welche Quellen zählen. Wo das System stoppt. Wo ein Mensch hinschauen muss. Und wie sich später nachvollziehen lässt, warum ein Ergebnis freigegeben wurde.

Die schwierige Frage ist nicht, ob KI eine plausible Antwort erzeugen kann. Das kann sie. Die schwierige Frage ist, ob diese Antwort vom Unternehmen abgenommen und sicher in den nächsten Prozessschritt übergeben werden kann. In der Analytik haben wir gelernt zu fragen, ob die Zahl mit der führenden Quelle übereinstimmt.

Bei KI müssen wir lernen, eine Interpretation abzunehmen. Denn das Ergebnis kann gut aussehen, lange bevor es sicher verwendbar ist.

‍