EBA-Stresstest 2026: LLM-Agenten übersetzen Szenarien in Code

Warum EBA-Stresstests 2026 eine Automatisierungszäsur markieren

Der nächste EBA-Stresstest steht 2026 vor der Tür, und er wird nicht einfacher. Die Methodik wächst, die Szenarien werden granularer, neue Klimarisikokomponenten kommen dazu. Gleichzeitig verschieben sich die Startpunkte durch die CRR-III-Umsetzung. Wer ehrlich auf den letzten Zyklus zurückblickt, weiß: Der Engpass war selten die Modellqualität. Der Engpass war die manuelle Übersetzungsarbeit zwischen Methodikpapier, internen Daten und ausführbarem Code.

In mittelgroßen DACH-Instituten sieht der Personalaufwand typischerweise so aus: zehn bis fünfzehn Vollzeitäquivalente über drei bis vier Monate, verteilt auf Risikomanagement, Treasury, Meldewesen und IT. Ein nicht unwesentlicher Teil davon geht in Excel-Modelle, die jeder im Haus „kennt”, aber faktisch nur zwei Personen wirklich verstehen. Wenn eine davon kündigt, ist der nächste Zyklus akut gefährdet.

Dazu kommt ein Signal aus Paris, das in der Branche unterschätzt wird. Die EBA hat eine Reduktion der Meldepflichten um 55 Prozent bis 2027 angekündigt. Das klingt erst einmal nach Entlastung. Tatsächlich ist es ein Katalysator. Wer seine Prozesse jetzt sauber digitalisiert, hat in zwei Jahren ein wartungsarmes Setup. Wer wartet, bis die neuen Templates kommen, baut wieder Excel-Tabellen, nur mit weniger Feldern.

Aus meiner Sicht ist 2026 der letzte Zyklus, in dem man die manuelle Variante mit gutem Gewissen verteidigen kann. Ab 2027 wird die Frage in jedem Audit lauten, warum ein Institut noch ohne Automatisierung arbeitet, wenn die Technik nachweislich verfügbar ist.

Was LLM-Agenten im Stress-Test-Workflow konkret leisten

Lassen Sie uns konkret werden. Ein LLM-Agent ist kein Chatbot. Es ist eine Pipeline aus Sprachmodell, Werkzeugzugriff und Kontrolllogik, die definierte Aufgaben in einer Kette abarbeitet. Vier Anwendungsfälle im Stresstest sind heute produktiv umsetzbar.

Szenario-to-Code. Die EBA veröffentlicht ihre Methodik als PDF, oft mehrere hundert Seiten. Ein LLM-Agent kann dieses Dokument lesen, die relevanten Berechnungsvorschriften extrahieren und daraus einen ersten Entwurf in Python oder R generieren. Was vor zwei Jahren noch Science-Fiction war, ist heute mit einer Kombination aus Retrieval-Augmented-Generation über die Regulatorikdokumente und einem Code-Interpreter-fähigen Modell Standard. Der erzeugte Code ist nicht produktionsreif. Er ist ein Skelett, das ein Quant in Stunden statt in Wochen verfeinert.

Daten-Mapping. FINREP- und COREP-Felder auf interne Buchungskreise zu mappen, ist die undankbarste Arbeit im ganzen Zyklus. Ein Agent mit Zugriff auf den Datenkatalog und die Meldewesendefinitionen kann hier 70 bis 80 Prozent der Mappings vorschlagen. Die restlichen 20 Prozent sind die spannenden, also genau die, bei denen ein Mensch sowieso entscheiden muss. Der Gewinn liegt darin, dass die Routinearbeit verschwindet und Kapazität für die echten Fragen frei wird.

Plausibilitätsprüfung. LLMs sind erstaunlich gut darin, Einheiteninkonsistenzen, fehlende Vorzeichen oder unplausible Größenordnungen zu erkennen, wenn man sie als erste Reviewschicht einsetzt. Ein typisches Muster: Der Agent bekommt das Berechnungsergebnis und die ursprüngliche Methodik, prüft auf offensichtliche Brüche und markiert auffällige Zellen. Das ersetzt keinen Reviewer, aber es reduziert die Trefferquote, die der Mensch noch finden muss.

Architektur in der Praxis. Ein bewährtes Setup nutzt LangChain oder ein vergleichbares Agenten-Framework, ein lokal oder über Azure OpenAI gehostetes Sprachmodell, eine Vektordatenbank für die EBA-Dokumente und einen Sandbox-Code-Interpreter für die Ausführung. Wichtig ist, dass alle Schritte protokolliert werden: Welcher Prompt ging an welches Modell? Welcher Code wurde ausgeführt? Welches Ergebnis kam zurück? Ohne diesen Audit-Trail ist der ganze Aufbau aufsichtsrechtlich wertlos.

Grenzen der Automatisierung: Wo das Vier-Augen-Prinzip bleibt

Jetzt der unbequeme Teil. Es gibt Schritte, die nicht automatisiert werden dürfen. Nicht weil die Technik es nicht könnte, sondern weil die Aufsicht zu Recht etwas anderes verlangt.

Die EBA-Leitlinien zu internen Modellen und die Logik analog zu SR 11-7 sind eindeutig: Modellvalidierung ist personengebunden. Ein Mensch trägt die Verantwortung dafür, dass das Modell tut, was es soll. Dieser Mensch kann sich auf KI-Werkzeuge stützen, aber er kann die Verantwortung nicht an ein LLM delegieren. Das ist keine konservative Auslegung, das ist die Grundlage des Modellrisiko-Frameworks.

Konkret heißt das: LLM-generierter Code braucht einen nachvollziehbaren Audit-Trail, der den menschlichen Reviewer zwingt, jede Berechnungslogik zu verstehen und freizugeben. Wer hier abkürzt und sagt „das Modell hat es generiert, also stimmt es”, hat in der ersten Aufsichtsprüfung ein Problem. Halluzinationsrisiko bei regulatorischen Berechnungen ist real. LLMs erfinden plausibel klingende Formeln. Ohne deterministische Gegenprüfung kommt das in den Produktivbetrieb.

Eine praktische Daumenregel für die Entscheidung, was automatisierbar ist und was nicht:

Vollständig automatisierbar: Datenextraktion aus strukturierten Quellen, Format-Konvertierung, Routine-Mapping bei klar definierten Feldern, erste Plausibilitätschecks.
Mit Human-in-the-Loop: Code-Generierung aus Methodik, Mapping bei ambigen Feldern, finale Plausibilitätsprüfung, Dokumentation.
Nicht automatisierbar: Modellvalidierung, finale Freigabe der Ergebnisse, Kommunikation an die Aufsicht, Entscheidungen über Modellannahmen.

Die mittlere Kategorie ist die spannende. Dort liegt der Großteil des Effizienzgewinns. Aber sie verlangt eine Prozessdisziplin, die viele Häuser unterschätzen.

Implementierungs-Roadmap für mittelgroße DACH-Banken

Wie kommt man von der Excel-Armee zur Agenten-Pipeline? Eine realistische Roadmap teilt sich in drei Phasen über zwölf Monate.

Phase 1, Monate 0 bis 3: Inventur und Pilotumgebung. Vor jeder Toolauswahl steht die Bestandsaufnahme. Welche Excel-Modelle existieren? Wer pflegt sie? Welche Datenquellen werden wie verknüpft? Diese Inventur klingt langweilig, ist aber die Voraussetzung für alles Weitere. Parallel wird eine LLM-Pilotumgebung aufgesetzt, idealerweise in einer abgeschotteten Cloud-Region oder On-Premise, mit klaren Zugriffsrechten und Logging. In dieser Phase wird noch nichts produktiv verändert.

Phase 2, Monate 3 bis 6: Sandbox-Pipeline mit Parallelrechnung. Jetzt wird die erste Agenten-Pipeline gebaut, typischerweise für ein abgegrenztes Modul wie die Kreditrisiko-Komponente eines bestimmten Portfolios. Die Pipeline rechnet parallel zum Legacy-Modell. Beide Ergebnisse werden verglichen. Abweichungen werden analysiert. Das ist die Phase, in der die meisten unangenehmen Überraschungen auftauchen und in der man die Prozessdisziplin lernt, die später im Produktivbetrieb trägt.

Phase 3, Monate 6 bis 12: Produktivbetrieb mit Validierungsschleife. Wenn Phase 2 sauber durchgelaufen ist, wandert die Pipeline in den Produktivbetrieb, aber mit einer expliziten Human-in-the-Loop-Validierungsschleife. Jeder Schritt wird dokumentiert, jeder Output wird von einem Menschen geprüft und freigegeben. Erst nach einem vollständigen Zyklus mit der neuen Pipeline kann das Legacy-Modell schrittweise zurückgebaut werden.

Ressourcenbedarf realistisch: ein dedizierter technischer Lead, ein Quant mit Modellierungserfahrung, zeitweise Unterstützung durch Datenmanagement und IT-Security. Quick Wins zeigen sich meist in Phase 2 bei der Datenintegration. Wo vorher drei Personen zwei Wochen lang Daten zusammengezogen haben, übernimmt der Agent diesen Schritt in Stunden. Das sind die zwanzig bis dreißig Manntage pro Zyklus, mit denen sich das Projekt rechnet.

Governance-Framework: KI-Einsatz revisionssicher gestalten

Die technische Implementierung ist die halbe Miete. Die andere Hälfte ist Governance, und sie wird in Pilotprojekten oft sträflich vernachlässigt.

Der Modellkatalog des Hauses muss um LLM-Agenten erweitert werden. Versionierung, Change-Log, klare Ownership. Wer ist verantwortlich, wenn der Agent in einem Quartal andere Ergebnisse liefert als im Vorquartal? Welche Änderungen am Modell, an den Daten oder am Prompt waren dafür verantwortlich? Ohne diese Disziplin sind Sie in der nächsten Sonderprüfung sprachlos.

Prompt-Engineering ist ein regulatorisches Artefakt. Das ist ein Punkt, der in der KI-Community oft belächelt wird, aber aufsichtsrechtlich ernst ist. Der System-Prompt eines Agenten ist Teil seiner Funktionslogik. Eine Änderung am Prompt ist eine Modelländerung. Das verlangt Versionskontrolle, Freigabeprozess und Dokumentation. Wer Prompts in Slack-Nachrichten austauscht, hat kein Modellrisikomanagement, sondern ein Hobby.

Das Zusammenspiel mit der internen Revision muss von Anfang an mitgedacht werden. Internal Audit braucht Zugriff auf die Logs, auf die Prompt-Versionen, auf die Modellkarten. Idealerweise wird die Revision schon in Phase 2 eingebunden, nicht erst, wenn die Pipeline läuft. Das verhindert die unangenehme Situation, dass ein technisch sauberes Projekt an der Auditierbarkeit scheitert.

Ausblick auf 2026 und 2027: Die EBA wird voraussichtlich Konsultationen zum KI-Einsatz im Risikomanagement durchführen. Erste Diskussionspapiere deuten darauf hin, dass ein eigenes Governance-Framework für KI-gestützte Modelle entstehen wird, vermutlich angelehnt an die bestehenden Leitlinien zu internen Modellen, aber mit zusätzlichen Anforderungen an Erklärbarkeit und Reproduzierbarkeit. Wer jetzt seine Governance sauber aufbaut, hat dann einen Vorsprung. Wer wartet, bis die Leitlinien final sind, baut zweimal.

Fazit: Excel-Armeen werden nicht abgeschafft, aber neu kommandiert

Die Kernbotschaft ist nicht, dass KI die Menschen im Stresstest ersetzt. Sie ist, dass LLMs das Übersetzen und Tippen übernehmen, damit die Menschen das Urteilen übernehmen können. Wer den ganzen Zyklus damit verbringt, Felder zu mappen und Formeln in Excel zu tippen, kommt nie zu der Frage, ob das Modell überhaupt das Richtige misst. Genau diese Frage ist es aber, die im nächsten Aufsichtsgespräch zählt.

Die Institute, die 2026 sauber durch den Stresstest kommen, werden nicht die mit den größten Excel-Tabellen sein. Es werden die sein, die ihre Quants von der Tipparbeit befreit haben und gleichzeitig eine Governance aufgebaut haben, die jeder Sonderprüfung standhält. Beides ist machbar, aber beides braucht Zeit.

Wenn Sie überlegen, wo Ihr Haus auf dieser Reise steht, lohnt sich ein Gespräch. Ich begleite mittelgroße DACH-Institute bei genau dieser Brücke zwischen KI-Potenzial und aufsichtsrechtlicher Realität. Ein Erstgespräch über die wolfgangrenz.com-Kontaktseite klärt in 45 Minuten, ob ein Pilot in Ihrem Haus sinnvoll ist und wo der erste Quick Win liegt.