Ontario-Audit zu KI-Diktiersoftware: Was KMU daraus lernen sollten

Was passiert ist

Diese Woche hat ein Audit aus Ontario, Kanada, für Aufsehen gesorgt: Prüfer haben sich KI-gestützte Diktier- und Notizsysteme angesehen, die Ärztinnen und Ärzte während Patientengesprächen einsetzen. Das Ergebnis ist unangenehm. Die Systeme — sogenannte „ambient scribes”, die das Gespräch mithören und daraus eine strukturierte Notiz erzeugen — liegen regelmäßig bei Basisfakten daneben.

Konkret beanstandet wurden laut Bericht unter anderem:

Erfundene oder vertauschte Medikamentennamen und Dosierungen.
Falsch zugeordnete Symptome (Beschwerden, die der Patient gar nicht genannt hat).
Verwechselte Werte bei Vitalparametern und Laborergebnissen.
Notizen, die plausibel klingen, aber mit dem tatsächlichen Gespräch nicht übereinstimmen.

Das ist kein Randproblem. Es ist genau das, was die Forschung seit Jahren als „Halluzination” beschreibt: Das Modell produziert flüssigen, fachlich klingenden Text — auch dort, wo es keine belastbare Grundlage hat. In einem Verkaufstool ist das ärgerlich. In einer Patientenakte ist es gefährlich.

Der Punkt, der mich an dem Audit aufhorchen lässt, ist nicht die Fehlerquote an sich. Das war zu erwarten. Es ist der Befund, dass die Fehler oft nicht auffallen — weder dem Arzt beim schnellen Gegenlesen noch der nachgelagerten Abrechnung oder dem Pflegepersonal, das die Notiz später nutzt.

Warum das jetzt für KMU zählt

Sie betreiben keine Arztpraxis. Trotzdem ist dieser Fall das vielleicht klarste Lehrstück des Jahres für jedes Unternehmen, das gerade KI-Tools einführt — und das sind aktuell sehr viele.

Das Muster aus Ontario taucht in unterschiedlichster Verkleidung in KMU auf:

Meeting-Zusammenfassungen aus Teams, Zoom oder Google Meet, die Beschlüsse zusammenfassen, die so nie gefasst wurden.
CRM-Automatisierung, die aus einem Kundengespräch Aufgaben und Zusagen extrahiert — manche davon erfunden.
Angebots- und Vertragsentwürfe, in die ein LLM Preise, Lieferzeiten oder Klauseln einfügt, die so nicht abgestimmt waren.
Übersetzungen und Protokolle für Behördenkommunikation, bei denen Beträge, Fristen oder Aktenzahlen vertauscht werden.

Der gemeinsame Nenner: Ein KI-System produziert einen Text, der für sich genommen plausibel wirkt, aber in der Sache abweicht. Und niemand prüft systematisch dagegen. Häufiges Muster in meinen Beratungsgesprächen: Der Geschäftsführer sagt „Wir lassen das ja von einer Person gegenlesen”. Bei genauerem Nachfragen heißt das: Jemand überfliegt das Dokument auf Tippfehler — nicht auf inhaltliche Korrektheit gegen die Originalquelle.

Aus meiner Sicht ist das der entscheidende Punkt: Das Problem ist nicht die KI. Das Problem ist der Prozess drumherum. Die Ärzte in Ontario haben dieselbe Schwäche, die ein 12-Personen-Steuerbüro in Linz oder ein Maschinenbauer im Mostviertel hat — sie vertrauen einem flüssigen Output mehr, als er verdient hat.

Dazu kommt ein zweiter Effekt, den ich „Verantwortungsverdünnung” nenne. Wenn der Arzt die Notiz selbst diktiert hat, ist klar: Er steht dafür gerade. Wenn die KI vorschlägt und er „nur” freigibt, fühlt sich die Verantwortung diffuser an — obwohl sie rechtlich identisch ist. Genau dieses Gefühl führt dazu, dass die Prüfung schlampiger wird. In Ontario hat man das jetzt in Zahlen gegossen. In österreichischen KMU passiert es täglich, nur ohne Audit.

Was Sie konkret tun sollten

Kein Grund, KI-Werkzeuge wieder abzuschalten. Aber drei Dinge sollten Sie diese Woche angehen, bevor sich der Einsatz weiter verbreitet:

1. Listen Sie auf, wo KI heute Texte für Sie erzeugt, die jemand anders glauben muss.

Nicht jeder KI-Output ist gleich riskant. Ein Brainstorming-Entwurf für ein internes Memo ist unkritisch. Eine Zusammenfassung eines Kundentermins, aus der dann ein Angebot wird, ist hochkritisch. Machen Sie eine simple Tabelle: Tool, Anwendungsfall, wer liest das Ergebnis, was passiert, wenn ein Detail falsch ist. Alles, wo die letzte Spalte „Geldverlust”, „Vertragsbruch” oder „Behördenproblem” sagt, gehört in Kategorie A.

2. Definieren Sie für Kategorie A eine Pflicht-Gegenprobe gegen die Quelle.

Das ist der Kern. Eine KI-Zusammenfassung ist nur so gut wie der Abgleich mit dem Original. Das heißt konkret: Wer eine KI-Meetingnotiz freigibt, muss Zugriff auf die Aufzeichnung oder das Transkript haben — und mindestens die Punkte „Zahlen, Zusagen, Fristen” stichprobenartig prüfen. Bei Vertragsentwürfen heißt es: Preise und Klauseln werden gegen die schriftlich vereinbarte Basis abgeglichen, nicht gegen das Bauchgefühl. Schreiben Sie das als kurzen Prozess auf, eine halbe A4-Seite reicht. Wichtig: Diese Prüfpflicht muss bei einer Person liegen, die die Originalquelle kennt — nicht bei einer Assistenz, die nur den KI-Text sieht.

3. Führen Sie ein kleines, ehrliches Fehlerprotokoll.

Der interessanteste Teil des Ontario-Audits ist, dass es überhaupt eines gab. Die meisten KMU haben keine Ahnung, wie oft ihre KI-Tools danebenliegen — weil niemand mitschreibt. Bitten Sie Ihr Team, vier Wochen lang jeden bemerkten KI-Fehler kurz zu notieren: Tool, Art des Fehlers, wäre er aufgefallen ohne Prüfung. Nach vier Wochen werten Sie das aus. Wenn dort drei oder mehr Fälle stehen, bei denen ein Fehler ohne die Prüfung durchgerutscht wäre, wissen Sie zwei Dinge: Erstens, die Prüfung lohnt sich. Zweitens, Sie haben jetzt eine belastbare Grundlage, mit dem Anbieter zu reden — oder das Tool zu wechseln.

Mein Rat zum Schluss: Behandeln Sie KI-Tools wie einen neuen, talentierten, aber unerfahrenen Mitarbeiter. Den lassen Sie in den ersten Monaten auch nicht ungeprüft auf Kundenkommunikation oder Vertragsentwürfe los. Beim Menschen ist uns das selbstverständlich. Bei der Software vergessen wir es, weil sie so souverän klingt. Genau diese Souveränität ist in Ontario gerade zum Problem geworden — und sie ist es in jedem KMU, das ähnliche Werkzeuge ohne Prüfprozess einsetzt.

Wenn KI-Diktiersoftware Fakten erfindet: Lehren aus dem Ontario-Audit

Was passiert ist

Warum das jetzt für KMU zählt

Was Sie konkret tun sollten

Ein Newsletter, unbegrenztes Wissen.