Warum klassische Bonitätsprüfung im Factoring an ihre Grenzen stößt
Factoring-Anbieter und Working-Capital-Finanzierer stehen 2026 vor einem strukturellen Problem: das Volumen an Debitoren wächst, die Anforderungen der Risk-Manager auch, aber die klassische Bonitätsprüfung hängt weiter an drei Datenpunkten, die alle dasselbe Defizit teilen. Sie sind alt.
Der Bilanzstichtag liegt typischerweise sechs bis achtzehn Monate zurück, bis die eBilanz im Bundesanzeiger landet. Wenn ein mittelständischer Debitor im Frühjahr 2026 in Zahlungsschwierigkeiten gerät, sehen Sie das in der Bilanz frühestens Ende 2027. Bis dahin ist Ihre Forderung längst ausgefallen.
Die Schufa hilft im B2B-Geschäft nur bedingt. Sie ist auf Privatpersonen kalibriert. Für juristische Personen gibt es Creditreform, Bürgel, CRIF, Atradius, Euler Hermes. Jeder dieser Anbieter hat Lücken, regional unterschiedliche Datentiefe und eine Preisstruktur, die bei hohem Anfragenvolumen wehtut. Wer im Factoring täglich 200 bis 500 Limit-Anfragen verarbeitet, bezahlt fünfstellig pro Monat allein für Bonitätsabfragen, deren Datenstand teilweise Monate alt ist.
Manuelle Recherche durch den Risk-Manager schließt die Lücke heute. Ein erfahrener Sachbearbeiter googelt den Debitor, prüft das Handelsregister live, scannt Pressemitteilungen, schaut in Bewertungsportale. Das funktioniert, skaliert aber nicht. Bei wachsendem Volumen wird der Risk-Desk zum Flaschenhals, oder die Sorgfalt sinkt.
Dazu kommt das regulatorische Risiko. Art. 22 DSGVO verbietet vollautomatisierte Entscheidungen mit erheblicher Auswirkung auf die betroffene Person. Wenn Ihr Scoring-System einen Geschäftsführer als Privatperson mitbewertet (was bei vielen KMU-Debitoren faktisch passiert), greift Art. 22. Wer hier einen Black-Box-Score ohne Erklärbarkeit fährt, hat im Audit-Fall ein Problem.
Die Branche braucht etwas anderes. Schneller, erklärbar, mit Live-Daten. Genau dort setzen LLM-gestützte Pipelines an.
Wie LLM-gestützte Debitorenanalyse technisch funktioniert
Das Missverständnis bei den meisten KI-Factoring-Diskussionen: es geht nicht darum, ein GPT-Modell mit der Frage „Ist dieser Debitor kreditwürdig?" zu füttern. Das produziert Halluzinationen und scheitert in der Revision innerhalb von Minuten.
Eine produktive Pipeline besteht aus drei Schichten.
Datenquellen-Trias. Strukturierte Bilanzdaten (XBRL, eBilanz, Bundesanzeiger) liefern das Fundament. Handelsregister-Echtzeitsignale (Geschäftsführerwechsel, Sitzverlegung, Insolvenzeröffnungen, Verschmelzungen) liefern die zeitkritischen Trigger. Unstrukturierte Web-Signale (Pressemitteilungen, Bewertungsportale, LinkedIn-Aktivität von Geschäftsführern, Branchen-News) liefern den qualitativen Kontext, den klassische Scores nicht abbilden.
Retrieval-Augmented Generation als Architektur-Pflicht. Das LLM bekommt keine Frage zum Beantworten, sondern den Auftrag, aus einem kuratierten, aktuellen Datenpool zu extrahieren und zu strukturieren. RAG bedeutet: die Faktenbasis liegt nicht im Modellgewicht, sondern in einer abrufbaren Quelle. Jede Aussage des Modells lässt sich auf einen konkreten Beleg zurückführen. Ohne RAG ist das System nicht audit-fähig.
Entity-Resolution. Klingt trocken, ist aber der Punkt, an dem die meisten Pilotprojekte scheitern. „Müller GmbH", „Müller GmbH & Co. KG", „Mueller GmbH" und „Fa. Müller" können dieselbe Firma sein oder vier verschiedene. Eine saubere Pipeline löst Rechtsformen, Adressen, Handelsregisternummern und UID-Nummern eindeutig auf, bevor das LLM auch nur einen Token generiert.
Der Output ist kein Fließtext, sondern ein strukturierter JSON-Report: Risikostufe (z.B. A bis E), Konfidenz-Score, Liste der bewerteten Signale, für jedes Signal ein zitierbarer Beleg mit Quelle und Zeitstempel, dazu ein Begründungstext für den Risk-Manager. Genau dieser Aufbau ist der Unterschied zwischen einem KI-Spielzeug und einem produktiven System.
Debitorenrisiko in Minuten bewerten: der operative Workflow
Ein typisches Szenario: ein Factoring-Anbieter mit 40 Mitarbeitern, monatlich rund 8.000 angekaufte Rechnungen, durchschnittlich 1.200 aktive Debitoren. Heute laufen Limit-Prüfungen über eine Mischung aus Creditreform-API und manueller Sichtung. Bei Neudebitoren dauert die Erstprüfung 25 bis 90 Minuten.
Mit einer LLM-gestützten Pipeline läuft das so:
Schritt 1, Trigger. Eine neue Rechnungseinreichung oder Limit-Anfrage löst die Pipeline automatisch aus. Der Debitor wird per Entity-Resolution eindeutig identifiziert.
Schritt 2, Datenaggregation. Parallel laufende Abfragen: Bundesanzeiger (letzte verfügbare eBilanz), Handelsregister-Liveabfrage (Veränderungen letzte 24 Monate), Unternehmenswebsite (Crawl mit Stand-Check), News-APIs für die letzten 12 Monate, optional Branchen-Datenbanken. Die Latenz liegt bei sauberer Architektur unter 30 Sekunden.
Schritt 3, LLM-Analyse. Das Modell extrahiert strukturiert: Zahlungsverhalten-Indikatoren aus der Bilanz (DSO-Entwicklung, Liquidität 2. Grades, EK-Quote), Eigentümerstruktur und deren Veränderungen, Branchenrisiko-Einordnung, explizite Warnhinweise (Insolvenzeröffnungen verbundener Gesellschaften, negative Pressemeldungen, Geschäftsführerwechsel ohne klare Nachfolge).
Schritt 4, Konfidenz-Score und Begründungstext. Das System liefert eine Entscheidungsvorlage: Empfohlene Risikostufe, Konfidenz (z.B. 0.87), Top-3-Treiber positiv, Top-3-Treiber negativ, jeweils mit Quellenbeleg. Bearbeitungszeit für den Risk-Manager: zwei bis drei Minuten Sichtung statt 25 bis 90 Minuten Recherche.
Schritt 5, Human-in-the-Loop. Bei hoher Konfidenz und unkritischem Limit (z.B. unter 50.000 EUR Forderungsvolumen) reicht eine bestätigende Freigabe. Bei niedriger Konfidenz, hohem Volumen oder roten Flaggen eskaliert das System automatisch an den Senior-Risk-Manager. Die Entscheidung trifft immer ein Mensch. Das ist nicht nur Art.-22-DSGVO-Pflicht, sondern auch Qualitätssicherung.
Die realistische Zeitersparnis liegt bei 70 bis 85 Prozent der Recherche-Zeit. Wichtiger als die Zeit ist aber die Konstanz: jeder Debitor wird nach demselben Schema bewertet, mit denselben Quellen, dokumentiert nach demselben Standard.
DSGVO und Scoring-Regulierung als Design-Constraint, nicht als Blocker
Die häufigste Reaktion in Geschäftsführer-Runden, wenn ich über LLM-Scoring spreche: „Das geht doch wegen der DSGVO nicht." Diese Aussage ist zu pauschal. Was geht und was nicht geht, lässt sich präzise abgrenzen.
Art. 22 DSGVO verbietet vollautomatisierte Entscheidungen mit rechtlicher oder ähnlich erheblicher Wirkung gegenüber der betroffenen Person. Im Factoring bedeutet das: wenn ein KMU-Debitor (oder dessen Geschäftsführer als Privatperson) durch einen automatischen Score abgelehnt wird, ohne dass ein Mensch involviert war, ist das angreifbar. Die Lösung ist nicht „keine KI", sondern „Human-in-the-Loop als Pflichtelement". Das System schlägt vor, der Mensch entscheidet.
§ 31 BDSG regelt Scoring konkret. Wahrscheinlichkeitswerte zur Bonitätsbeurteilung sind unter Bedingungen zulässig: wissenschaftlich anerkanntes mathematisch-statistisches Verfahren, relevante Daten, kein alleiniger Bezug auf Anschriftendaten. Wer eine LLM-Pipeline baut, muss diese Bedingungen explizit dokumentieren können. „Das Modell hat halt entschieden" reicht nicht.
Explainability-Layer. Jede Risiko-Einstufung des Systems braucht einen zitierbaren Textbeweis. Nicht im Sinne von SHAP-Werten (die für LLMs ohnehin schwierig sind), sondern im Sinne von: „Risikostufe D, weil im Bundesanzeiger am 14.03.2026 die Insolvenzeröffnung der Schwestergesellschaft veröffentlicht wurde (Link), und weil die Bilanz 2024 eine EK-Quote von 4,2 Prozent zeigt (Quelle)." Das ist die Form von Erklärbarkeit, die in der Revision durchgeht.
Audit-Trail. Logging-Struktur für jede Bewertung: Eingangsdaten, abgefragte Quellen, Zeitstempel, Modell-Version, Prompt-Version, Output, menschliche Entscheidung, finale Begründung. Bei einer BaFin- oder FMA-Anfrage in zwei Jahren wollen Sie genau diesen Log abrufbar haben. Wer das nachträglich baut, baut es nie sauber.
Datensparsamkeit. Nicht alles, was technisch crawlbar ist, ist auch datenschutzrechtlich zulässig. LinkedIn-Profile von Geschäftsführern in die Bewertung einzubeziehen ist heikel, vor allem wenn private Aktivitäten miteinfließen. Klare Quellen-Whitelist: Bundesanzeiger, Handelsregister, offizielle Unternehmenswebsite, etablierte Wirtschaftspresse. Bewertungsportale und Social-Media-Profile gehören nur dann dazu, wenn die Datenschutz-Folgenabschätzung das explizit gedeckt hat.
Typische Fallstricke und wie man sie architektonisch vermeidet
Halluzination ohne RAG. Ein reines GPT-Prompt-Setup nach dem Muster „Bewerte die Bonität von Müller GmbH" erfindet Zahlen. Es klingt plausibel, ist aber substanzlos. Im regulierten Umfeld disqualifizierend. RAG ist nicht optional.
Veraltete Datenstände. Wer eine Bilanz aus 2023 als Hauptquelle einer Bewertung im Frühjahr 2026 nimmt, hat den Vorteil gegenüber klassischen Scores verspielt. Die Pipeline muss Live-Quellen priorisieren und das Alter jeder Datenquelle explizit ausweisen. Idealerweise mit einer „Frische-Konfidenz", die in den Gesamtscore eingeht.
Vendor-Lock-in. Proprietäre Scoring-APIs, die LLM-Bewertungen als Blackbox liefern, sind verlockend (schnelle Integration, kein Eigenaufwand). Sie sind aber genau dann ein Problem, wenn der Anbieter sein Modell wechselt, die Preise verdreifacht oder im Schadensfall keine Erklärung liefern kann. Buy-vs.-Build ist ein echter Trade-off. Mein Rat: die Entity-Resolution und den Datenaggregations-Layer immer selbst kontrollieren, das Modell-Backend austauschbar halten.
Branchen-Bias. Ein LLM, das auf US-Wirtschaftsdaten trainiert ist, bewertet einen österreichischen Handwerksbetrieb mit 6 Prozent EK-Quote anders als einen amerikanischen SaaS-Anbieter mit derselben Kennzahl. Branchenspezifische Kalibrierung ist Pflicht. Konkret: für jede Hauptbranche im Debitorenportfolio sollten Sie Validierungsdatensätze haben, an denen Sie das System regelmäßig nachkalibrieren.
Implementierungs-Roadmap für Factoring- und Working-Capital-Anbieter
Für ein Haus mittlerer Größe (20 bis 80 Mitarbeiter, 50 bis 500 Millionen Euro Ankaufsvolumen) sieht eine realistische Roadmap so aus:
Phase 1, vier bis sechs Wochen: Use-Case-Definition und Datenquellen-Audit. Welche Debitorentypen werden zuerst abgedeckt? Welche Datenquellen sind heute schon lizenziert, welche müssen neu beschafft werden? Parallel: Datenschutz-Folgenabschätzung (DSFA) starten. Ohne DSFA geht kein produktiver Roll-out, und sie braucht Zeit.
Phase 2, sechs bis zehn Wochen: Pilot-Pipeline für einen Debitorentyp. Sinnvoll ist meist der Mittelstandskunde im DACH-Raum mit Bilanzveröffentlichungspflicht. Parallel zur produktiven manuellen Bearbeitung läuft die Pipeline im Schattenmodus. Vergleich der Bewertungen über 200 bis 500 Fälle. Wo weicht das System ab? Wo ist es treffsicherer, wo schwächer?
Phase 3, laufend: Monitoring, Modell-Kalibrierung, Compliance-Reviews. Ein golden Testset mit bekannten guten und schlechten Bonitäten läuft monatlich gegen die produktive Pipeline. Modell-Drift wird damit messbar. Compliance-Reviews quartalsweise, mit dokumentiertem Ergebnis.
Buy-vs.-Build im Detail. Eine eigene Pipeline lohnt sich, wenn das Ankaufsvolumen hoch ist (ab ca. 200 Millionen Euro jährlich), wenn die Debitorenstruktur spezifisch ist (z.B. Schwerpunkt auf einer Branche oder Region) oder wenn Sie das Compliance-Risiko nicht an einen externen Anbieter delegieren wollen. Ein spezialisierter Anbieter reicht für Häuser, die Standard-Debitorenstrukturen haben und schnell starten wollen. In beiden Fällen: Verträge so gestalten, dass ein Wechsel des Modell-Backends ohne Komplett-Migration möglich bleibt.
Fazit: KI als Risiko-Radar, nicht als Autopilot
LLM-gestützte Debitorenanalyse ist 2026 kein Pilotprojekt-Thema mehr. Sie ist operativer Wettbewerbsvorteil für Factoring-Anbieter und Working-Capital-Finanzierer, die das Volumen verarbeiten müssen, ohne den Risk-Desk zu verdoppeln.
Die regulatorische Erklärbarkeit ist dabei kein Widerspruch zur KI. Sie ist das Qualitätsmerkmal, das eine produktive Lösung von einem teuren Spielzeug unterscheidet. Wer den Audit-Trail, die Quellenbelege und den Human-in-the-Loop von Anfang an architektonisch verankert, hat in zwei Jahren kein BaFin-Problem und auch keinen unzufriedenen Kreditausschuss.
KI ersetzt den Risk-Manager nicht. Sie macht ihn schneller, konsistenter und entlastet ihn von der Recherche. Die Entscheidung über das Risiko bleibt menschlich. Genau so ist es richtig.
Wer den konkreten Architektur-Schritt für sein Haus diskutieren will, kann mich direkt ansprechen. Ein einstündiges Gespräch reicht meist, um die Buy-vs.-Build-Frage und die ersten drei Datenquellen zu klären.