KI-Halluzinationen in Finanzdokumenten: Lehre aus Medizin-Audit

Was diese Woche bekannt wurde

Ein Audit von 2,5 Millionen biomedizinischen Fachartikeln durch die Columbia University und weitere Institutionen zeigt: Die Rate an erfundenen Quellenangaben hat sich seit 2023 mehr als verzwölffacht. Die Forscher vermuten einen direkten Zusammenhang mit dem breiten Einsatz von Sprachmodellen. Die gefälschten Referenzen passen thematisch zum Paper, folgen korrekter Formatierung und sind praktisch nicht zu erkennen. 98 Prozent der betroffenen Veröffentlichungen haben bisher keine Reaktion der Verlage erhalten.

Die Pointe: Es geht hier nicht um irgendwelche Blogs. Es geht um Papers, die in klinische Leitlinien einfließen. Also genau jene Dokumente, auf denen später Behandlungsentscheidungen basieren.

Warum das für die Finanzwelt zählt

Man könnte sagen: Banken sind nicht Medizin. Stimmt. Aber die strukturelle Parallele ist eins zu eins übertragbar.

In jeder mittleren bis großen Bank, jedem Asset-Manager, jedem Steuerberatungs- oder Wirtschaftsprüfungs-Haus laufen seit 2024 LLM-Pilotprojekte in genau jenen Dokumenttypen, die strukturell wie wissenschaftliche Papers aufgebaut sind:

Equity-Research-Reports mit Verweisen auf SEC-Filings, IFRS-Standards, Analystenkonsens
Compliance-Gutachten mit Verweisen auf BaFin-Rundschreiben, FMA-Bescheide, EBA-Guidelines
Wertpapierprospekte mit hunderten Fußnoten auf Verordnungen und Marktstudien
Kreditmemoranden mit Bezügen auf Branchenreports, Bilanzkennzahlen, Rating-Methodologien
Steuergutachten mit Paragraphen-Verweisen auf BAO, EStG, KStG, Doppelbesteuerungsabkommen

Alle diese Dokumente haben dieselbe Eigenschaft wie ein medizinisches Paper: Sie leben von der Autorität ihrer Quellen. Wenn ein Compliance-Gutachten ein BaFin-Rundschreiben mit präziser Nummer zitiert, geht der Leser davon aus, dass es dieses Rundschreiben gibt und dass es das aussagt, was zitiert wird.

Genau hier halluzinieren LLMs am liebsten. Erfundene Aktenzeichen, falsche Randziffern, falsche Datumsangaben in Verordnungen, falsche Tabellenwerte in Bilanzen. Das Modell rät plausibel. Format stimmt, Inhalt nicht.

Der spezifische Charakter dieses Risikos

Drei Eigenschaften machen halluzinierte Quellen in Finanzdokumenten besonders gefährlich:

Erstens: Sie sehen perfekt aus. Im Medizin-Audit fielen die Fake-Referenzen genau deshalb nicht auf, weil sie thematisch passten und formal korrekt waren. In einem Research-Report wird ein erfundenes EZB-Working-Paper mit plausibler Nummer, plausiblem Datum und plausibler These nicht durch Lektorat aussortiert. Es fällt erst auf, wenn jemand klickt. Und niemand klickt auf jede einzelne Fußnote.

Zweitens: Die Folgekette ist lang. Ein Equity-Research wird von Sales-Tradern zitiert, von Portfoliomanagern als Allokationsgrundlage verwendet, von Privatkunden im Beratungsgespräch gezeigt. Ein einmal eingestreuter Fake-Fakt wandert durch die Wertschöpfungskette und wird mit jeder Weiterverwendung autoritativer.

Drittens: Die Haftung ist eindeutig zugeordnet. Anders als bei Wissenschaftsverlagen, die mit Schulterzucken reagieren, gilt im Finanzbereich klare Verantwortung. Eine BaFin- oder FMA-Prüfung interessiert nicht, ob ein LLM den Fehler verursacht hat. Verantwortlich ist die Institution, die das Dokument veröffentlicht oder dem Kunden ausgehändigt hat. Bei MiFID-II-relevanter Anlageberatung kostet das im Schadensfall sehr konkret Geld.

Was Banken jetzt überprüfen sollten

Aus meiner Sicht sind drei Schritte überfällig, falls sie nicht ohnehin schon laufen.

Schritt 1: Inventur der LLM-Einsatzfelder mit Zitatcharakter. Welche Workflows in Ihrem Haus produzieren Dokumente mit externen Quellenangaben, in denen heute schon ein LLM mitschreibt? Typisches Muster in mittelgroßen Asset-Managern: Research-Assistenten ziehen mit ChatGPT- oder Claude-Hilfe Marktkommentare zusammen, Compliance lässt Erstentwürfe von Stellungnahmen vom Modell schreiben, Steuerabteilungen prüfen Sachverhalte zuerst mit dem LLM und übernehmen die Begründungsstruktur. Solange das nicht systematisch erfasst ist, kennen Sie Ihr Halluzinationsrisiko nicht.

Schritt 2: Trennung von Generierung und Verifikation. Das Modell darf formulieren. Es darf strukturieren. Es darf zusammenfassen. Aber jede Quellenangabe in einem extern verwendeten Finanzdokument muss durch einen mechanischen Verifikationsschritt laufen. Konkret: Retrieval gegen autoritative Datenbanken (Bundesgesetzblatt, RIS, BaFin-Datenbank, ESMA-Register, Bloomberg, Refinitiv) mit eindeutiger ID. Wenn die zitierte Quelle dort nicht auffindbar ist, fliegt sie raus. Punkt. Das ist technisch in jedem RAG-Setup machbar, wird aber überraschend oft nicht implementiert, weil es im Pilot lästig erscheint.

Schritt 3: Stichproben mit echten Klicks. Lassen Sie monatlich eine zufällige Auswahl Ihrer aktuellen Research-Reports, Compliance-Memos oder Steuergutachten durch eine zweite Person prüfen, die jede einzelne Fußnote tatsächlich öffnet. Nicht plausibilisiert, sondern aufruft. Das findet Halluzinationen, die jeder automatisierte Check übersieht, weil die Modelle inzwischen geschickt genug sind, halbwegs reale Aktenzeichen zu produzieren, die nur im Detail nicht stimmen.

Die unbequeme Schlussfolgerung

Das Medizin-Audit ist deshalb relevant, weil es zum ersten Mal in dieser Größenordnung zeigt, wie schnell sich das Problem ausbreitet, wenn niemand systematisch hinschaut. Faktor zwölf in zwei Jahren. Und das in einem Feld mit Peer-Review, also mit einer Qualitätssicherung, die Banken in dieser Form gar nicht haben.

Mein Rat an Banken-CFOs, Compliance-Verantwortliche und Research-Heads: Behandeln Sie LLM-Output bis auf Weiteres so, wie Sie eine Praktikantenarbeit im ersten Tag behandeln würden. Brauchbar als Rohmaterial, niemals als unterschriftsreifes Dokument ohne mechanische Quellenprüfung. Wer das jetzt nicht aufsetzt, riskiert in 18 Monaten genau jene Schlagzeile, die der medizinische Bereich gerade bekommt. Nur dass es bei einer Bank teurer wird als bei einem Verlag.

Halluzinierte Quellen in Studien: Was Banken daraus lernen müssen