Copilot halluziniert bei Finanzdaten: Was Risk- und Compliance-Teams jetzt tun müssen

Was diese Woche passiert ist

Adam Kucharski, Mathematiker an der London School of Hygiene and Tropical Medicine, hat einen einfachen Test gemacht. Er gab Microsoft Copilot zwei identische Datensätze. Nur die Länder-Labels waren unterschiedlich. Das Ergebnis: Copilot lieferte detaillierte Erklärungen für angebliche Länderunterschiede. Es gab keine. Die Zahlen waren ja identisch.

The Decoder hat den Fall diese Woche aufgegriffen. Die Pointe: Sogenannte Thinking-Modelle (also GPT-5-Reasoning, Claude mit Extended Thinking, Gemini 2.5 Pro im Deep-Think-Modus) erkennen den Trick zuverlässig. Aber nur, wenn der User aktiv auf sie umschaltet. Im Default-Modus bekommt man das schnelle, billige Modell. Und das fabuliert.

Für den Privatanwender ist das ärgerlich. Für jemanden, der in einer Bank, einer Vermögensverwaltung oder einer Wirtschaftsprüfung arbeitet, ist das ein Compliance-Problem ersten Ranges.

Warum es jetzt für Finanzdienstleister zählt

Ich sehe in Beratungsgesprächen mit Banken und Asset-Managern in Österreich und Süddeutschland ein wiederkehrendes Muster. Copilot ist über M365 ausgerollt. Mitarbeiter nutzen es täglich. Niemand hat dokumentiert, welches Modell hinter „Copilot” eigentlich steckt. Niemand weiß, wann Microsoft das Routing ändert. Und niemand fragt nach.

Der Kucharski-Test zeigt das Kernproblem präzise. Das Default-Modell halluziniert nicht zufällig. Es halluziniert plausibel. Es liefert genau die Geschichte, die der User erwartet, wenn er Ländernamen sieht. Stereotype, Klischees, plausible Narrative. Das ist statistisch der wahrscheinlichste Output. Es ist nur eben falsch.

Übertragen Sie das auf typische Finanz-Workflows:

Ein Analyst lässt Copilot Quartalszahlen zweier Tochtergesellschaften vergleichen. Eine in Österreich, eine in Rumänien. Identische operative Kennzahlen, unterschiedliche Labels. Wird Copilot eine Stereotyp-Erklärung anbieten, wo keine Differenz existiert? Nach Kucharski: ja.

Ein Compliance-Officer prüft Transaktionsmuster zweier Kundengruppen. Eine aus Deutschland, eine aus Zypern. Wird Copilot Risikomuster „erkennen”, die im Datensatz nicht stehen? Nach Kucharski: sehr wahrscheinlich.

Ein Wealth-Manager lässt sich Portfolio-Performance zweier Klienten vergleichen, einer institutionell, einer privat. Wird Copilot Verhaltensmuster zuschreiben, die nicht in den Zahlen liegen? Wahrscheinlich.

Das ist kein theoretisches Risiko. Das ist genau das Verhalten, das im Kucharski-Test reproduziert wurde.

Was der EU AI Act und DORA dazu sagen

Kurzer regulatorischer Realitätscheck. Der EU AI Act stuft KI-Systeme im Kreditscoring und in der Risikobewertung als Hochrisiko ein. Anbieter und Betreiber müssen Genauigkeit, Robustheit und Nachvollziehbarkeit gewährleisten. Wenn Sie Copilot im Default-Modus für Analysen einsetzen, die in solche Prozesse einfließen, dann betreiben Sie ein Hochrisiko-System, ohne zu wissen, welches Modell darunterläuft.

DORA verlangt seit Januar 2025 von Finanzunternehmen ein dokumentiertes IKT-Risikomanagement. Drittanbieter-Risiken sind explizit erfasst. Ein KI-Tool, dessen Modell-Routing der Anbieter jederzeit ohne Vorankündigung ändern kann, ist genau so ein Drittanbieter-Risiko. Es gehört in das Register und in die Risikoanalyse.

Das bedeutet praktisch: Wenn Ihre Bafin- oder FMA-Prüfung morgen fragt, welches Modell Ihre Mitarbeiter für die Vorbereitung von Kreditakten benutzen, dann reicht „Microsoft Copilot” als Antwort nicht. Die Aufsicht will wissen: GPT-4o, GPT-5, o3, o4-mini? Mit oder ohne Reasoning? Im EU-Tenant gehostet? Mit welcher Daten-Retention?

Mein Rat: drei Schritte für die nächsten 30 Tage

Erstens: Modell-Inventur. Lassen Sie dokumentieren, welche KI-Tools im Haus produktiv im Einsatz sind und welches konkrete Modell jeweils antwortet. Bei Copilot: Microsoft veröffentlicht die Modell-Versionen in der Admin-Dokumentation. Bei ChatGPT Enterprise: im Admin-Panel sichtbar. Bei Gemini for Workspace: ebenfalls dokumentiert. Wer das nicht weiß, fliegt blind.

Zweitens: Use-Case-Klassifizierung. Trennen Sie zwischen Workflows mit niedrigem Risiko (E-Mail-Entwürfe, Protokoll-Zusammenfassungen) und Workflows mit hohem Risiko (alles, was in Kunden-Reporting, Compliance-Entscheidungen, Risikomodelle, Anlageempfehlungen einfließt). Für die zweite Kategorie: Default-Modelle sind tabu. Punkt. Verpflichtende Nutzung der Reasoning-Variante, mit Begründung im Prompt-Template, warum dieser Modus gewählt wurde.

Drittens: Halluzinations-Tests im eigenen Haus. Replizieren Sie den Kucharski-Test mit Ihren eigenen typischen Datensätzen. Geben Sie dem Tool zweimal die gleiche Datei, einmal mit Label A, einmal mit Label B. Vergleichen Sie die Ausgaben. Wenn sich Interpretationen unterscheiden, obwohl die Daten identisch sind, haben Sie einen reproduzierbaren Beleg für Halluzination. Den brauchen Sie für die interne Governance und für die Aufsicht.

Das Ganze kostet zwei bis drei Personentage. Es ersetzt keine vollständige AI-Governance. Aber es schließt das Loch, durch das aktuell die meisten Häuser laufen, ohne es zu merken.

Die unbequeme Wahrheit

Die Anbieter werben mit „enterprise-ready” und „grounded in your data”. Das stimmt, soweit es die Datenzugriffe und die Tenant-Isolation betrifft. Es stimmt nicht für die statistische Natur der Modelle. Ein LLM bleibt ein Wahrscheinlichkeitsmodell für Tokens. Es ist kein deterministischer Rechner. Bei Zahlen ist das ein Problem. Bei Zahlen mit Labels, die kulturelle oder geografische Stereotype triggern, ist es ein größeres Problem.

Reasoning-Modelle reduzieren das Risiko deutlich. Sie eliminieren es nicht. Wer in einem regulierten Finanzkontext arbeitet, muss diese Differenzierung kennen und in den Prozessen verankert haben. Wer es nicht tut, betreibt einen blinden Fleck dort, wo er am teuersten ist: im Risiko- und Compliance-Bereich.

Aus meiner Sicht ist der Kucharski-Test der wichtigste Reality-Check für Finanzhäuser in diesem Quartal. Nicht, weil er etwas Neues zeigt. Sondern weil er etwas Bekanntes so simpel reproduzierbar macht, dass niemand mehr behaupten kann, das Problem sei abstrakt.

Copilot erfindet Länderunterschiede: Warum Default-Modelle für Finanzanalysen gefährlich sind