Warum klassisches Order-Routing 2026 an seine Grenzen stößt
VWAP, TWAP, POV, Implementation Shortfall nach Almgren-Chriss. Das sind die Arbeitspferde jedes Equity-Trading-Desks seit zwei Jahrzehnten. Sie funktionieren, weil sie ein klares mathematisches Optimierungsproblem lösen: minimiere Market Impact und Timing-Risiko unter Annahme stationärer Marktbedingungen.
Genau das ist das Problem. Die Annahme stationärer Bedingungen hält in heutigen Märkten nur noch in ruhigen Phasen. Drei strukturelle Verschiebungen haben das klassische Setup ausgehöhlt.
Erstens die Liquiditätsfragmentierung. In europäischen Equities laufen je nach Titel zwischen 35 und 60 Prozent des Volumens off-exchange, über Systematic Internalisers, Dark Pools, periodische Auktionen. Ein VWAP-Algo, der auf historische Intraday-Volume-Profile zurückgreift, sieht diese Verschiebungen nicht in Echtzeit. Er rechnet mit einer Welt, die so nicht mehr existiert.
Zweitens News-getriebene Regime-Wechsel innerhalb von Minuten. Ein Earnings-Call, eine EZB-Pressekonferenz, ein Bloomberg-Headline-Push. Klassische Algos passen sich über Volumen-Feedback-Loops an, mit deutlicher Verzögerung. Das Timing-Fenster, in dem ein Block-Trade ohne Adverse Selection durchgeht, kann sich in 90 Sekunden komplett schließen.
Drittens der Benchmark selbst. Implementation Shortfall misst die Differenz zwischen Entscheidungspreis und realisiertem Ausführungspreis. Als Performance-Metrik solide. Als Steuerungsgröße in Echtzeit aber ein Rückspiegel. Sie sehen den Schaden, nachdem er entstanden ist.
Wer 2026 mit demselben Routing-Stack arbeitet wie 2018, optimiert auf eine Marktstruktur, die so nicht mehr handelt.
Was ein LLM-Layer in der Execution-Architektur leisten kann
Die spannende Frage ist nicht, ob LLMs klassische Execution-Algorithmen ersetzen. Das werden sie auf absehbare Zeit nicht. Die spannende Frage ist, ob sie als kontextueller Layer darüber einen messbaren Vorteil liefern.
Meine These: ja, in einer ganz bestimmten Architektur.
Ein LLM ist gut in genau dem, worin klassische Quant-Modelle schwach sind. Es kann unstrukturierte Inputs aggregieren und in einen Kontext-Score überführen. Earnings-Call-Transkripte, Analyst-Notes, Bloomberg-Reuters-Headlines, Makro-Daten-Releases, sogar Orderbook-Annotationen aus Broker-Kommentaren. Das ist genau die Schicht, in der heute ein menschlicher Trader sitzt und entscheidet, ob er den Standard-VWAP-Algo laufen lässt oder eingreift.
Die sinnvolle Architektur ist eine Kaskade, kein Ersatz:
Marktkontext (News, Macro, Orderbook-Color)
↓
LLM-Layer (Regime-Klassifikation, Confidence-Score)
↓
Routing-Entscheidung (Standardpfad vs. Anpassung)
↓
Klassischer Execution-Algo (VWAP, TWAP, IS)
Das LLM trifft keine Ausführungsentscheidungen im Sub-Sekunden-Bereich. Es liefert einen Kontext-Score, der den Standard-Algo entweder bestätigt oder einen Eingriff begründet. Beispielsweise: „Earnings-Drift-Wahrscheinlichkeit nächste 30 Minuten hoch, Konfidenz 0.78, empfohlene Aktion: Pausieren bis T+15min oder Wechsel auf aggressiveres Schedule."
Ein typisches Anwendungsbeispiel macht das konkret. Stellen Sie sich einen Large-Cap-Block-Trade vor, 800.000 Stück in einem DAX-Titel, geplanter Schedule VWAP über vier Stunden. Eine Stunde nach Start kommt ein unerwartetes Headline-Item zu einem Sektor-Peer. Klassischer VWAP-Algo läuft weiter, weil das Volumenprofil noch keine Anomalie zeigt. Ein LLM-Layer, der Reuters-Feeds und Twitter-Equivalent-Sentiment in Sekunden klassifiziert, kann das Timing-Fenster verschieben oder den Schedule kurz pausieren, bis sich die Mikrostruktur stabilisiert.
Das ist der Punkt: Der LLM-Layer entscheidet nicht über die nächste Order. Er entscheidet, ob der Standardpfad noch der richtige ist.
Harte Grenzen: Latenz, Halluzination, Regulatorik
Wer diese Architektur ernsthaft baut, muss drei strukturelle Limits akzeptieren.
Latenz. Ein typischer GPT-4o-Call braucht zwischen 800ms und 3 Sekunden Inferenz-Zeit. Claude Sonnet ähnlich. Selbst spezialisierte Finance-LLMs liegen im 200-500ms-Bereich. In einer Welt, in der HFT-Desks in Mikrosekunden operieren, ist das ausgeschlossen für direkte Order-Decisions.
Die Konsequenz: Der LLM-Layer arbeitet nicht im Order-Pfad, sondern parallel dazu. Pre-computed Signals, die alle 30 bis 300 Sekunden refresht werden. Cache-Strategien für wiederkehrende Kontexte. Streaming-Setups, in denen das LLM kontinuierlich Hintergrund-Scores produziert, die der Execution-Algo bei Bedarf abfragt. Das ist machbar. Aber es bedeutet, dass der LLM-Layer für Trades unterhalb einer bestimmten Größe und Dringlichkeit schlicht overkill ist.
Halluzinationsrisiko. Ein LLM, das einen News-Sentiment falsch klassifiziert, kann einen funktionierenden VWAP-Schedule abbrechen, weil es eine harmlose Headline als Krisen-Signal liest. Worst-Case: Sie pausieren einen Block-Trade kurz vor einem Preisanstieg, weil das Modell eine ironische Analyst-Note als Bear-Signal interpretiert hat. Der Implementation Shortfall explodiert.
Kill-Switch-Logik ist hier nicht optional. Konkret heißt das: harte Schwellwerte, bei denen der LLM-Layer überstimmt wird. Wenn die Kontextempfehlung mehr als X Prozent vom Standardschedule abweicht, geht ein Alert an den Trader. Wenn die Konfidenz unter Y liegt, wird die Empfehlung ignoriert. Wenn das Modell innerhalb von Z Minuten mehrfach widersprüchliche Signale liefert, wird es aus dem Loop genommen.
MiFID II Best Execution. Das ist der Punkt, an den die meisten Quant-Teams nicht denken. MiFID II verlangt für jede Order eine nachvollziehbare Best-Execution-Begründung. Wenn ein LLM Ihren Schedule beeinflusst hat, müssen Sie dokumentieren können, warum. Welcher Input hat zu welcher Klassifikation geführt? Welche Modellversion war aktiv? Welche Confidence-Schwelle wurde angewendet?
Das ist mit klassischen Quant-Algos trivial. Mit LLMs nicht. Sie brauchen Logging auf Prompt-Ebene, Versionierung des Modells, ein Audit-Trail, der dem Trader erklärt, was das Modell „gesehen" hat. Bloomberg GPT und ähnliche spezialisierte Anbieter haben das im Architektur-Design verankert. Bei einem Standard-API-Call gegen OpenAI fehlt es komplett.
Dazu kommt Modell-Drift. LLMs sind keine stationären Systeme. Ein GPT-4o-Update von Microsoft kann das Klassifikationsverhalten verschieben, ohne dass Sie es merken. Backtesting wird damit fundamental schwieriger als bei deterministischen Quant-Modellen. Sie müssen die Modellversion in Ihren Backtests einfrieren und bei jedem Produktiv-Update neu validieren.
Entscheidungsmatrix: Wann lohnt der LLM-Layer, wann nicht?
Nicht jeder Desk braucht das. Eine ehrliche Einordnung:
Asset-Klasse. Equities profitieren am stärksten, weil Kontext-Dichte (News, Earnings, Analyst-Notes) und Liquiditätsfragmentierung am höchsten sind. Fixed Income ist heterogen: Government Bonds wenig profit, IG- und HY-Credit deutlich mehr, gerade bei Event-driven Setups. FX im G10-Bereich ist zu effizient und zu eng auf Macro-Releases getaktet, dort hilft Speed mehr als Kontext. EM-FX wiederum kann profitieren.
Ticket-Größe. Faustregel: Unterhalb von 1 bis 2 Prozent ADV (Average Daily Volume) lohnt der LLM-Layer kaum. Der zusätzliche Implementation-Shortfall-Gewinn frisst die Infrastrukturkosten nicht ein. Oberhalb von 5 Prozent ADV wird er strukturell interessant, weil dort jeder Basispunkt zählt.
Dringlichkeit. Aggressive Schedules mit hoher Urgency profitieren weniger, weil der LLM-Layer Zeit braucht. Passive bis moderate Schedules über mehrere Stunden bieten das größte Anpassungsfenster.
Make-or-Buy. Drei Pfade:
- Standard-LLM-API (OpenAI, Anthropic) mit eigener Prompt-Pipeline. Schnell aufzusetzen, Datenschutz-Frage problematisch (Trade-Intentions an US-Anbieter), Latenz akzeptabel für Pre-Trade.
- Spezialisierte Finance-LLMs (Bloomberg GPT, FinGPT, JPMorgan IndexGPT-Derivate). Bessere Domain-Performance, höhere Kosten, eingeschränkte Verfügbarkeit.
- Inhouse-Fine-tuning auf Open-Source-Basis (Llama 3, Mistral). Volle Datenkontrolle, hoher initialer Aufwand, laufende ML-Ops-Kapazität nötig.
Für ein Buy-Side-Haus mittlerer Größe in DACH ist Pfad 1 für Pilotierung sinnvoll, Pfad 3 für produktiven Einsatz in 18 bis 24 Monaten realistisch. Pfad 2 ist sinnvoll, wenn Bloomberg Terminal ohnehin Teil des Workflows ist.
Fünf Fragen vor dem ersten Piloten:
- Welcher konkrete Implementation-Shortfall-Verlust ist uns in Event-Phasen letztes Jahr entstanden?
- Welche Asset-Klassen und Ticket-Größen sind betroffen?
- Haben wir die Compliance-Infrastruktur, um Modell-Entscheidungen MiFID-konform zu loggen?
- Haben wir einen Trader, der das System fachlich validieren kann, oder bauen wir blind?
- Können wir den LLM-Layer parallel zum Live-Algo schalten und drei Monate Shadow-Mode laufen lassen, bevor er produktiv eingreift?
Wer Frage 5 nicht mit ja beantwortet, sollte nicht starten.
Implementierungspfad: Von der Proof-of-Concept zur Produktion
Der einzige sinnvolle Weg ist gestaffelt. Drei Phasen, jede mit klar definiertem Ausstiegspunkt.
Phase 1: LLM als Post-Trade-Analyst. Keine Latenz-Anforderung, kein Live-Eingriff. Das LLM analysiert nach Handelsschluss, welche Trades suboptimal liefen und warum. Es korreliert Implementation-Shortfall-Abweichungen mit Kontext-Daten desselben Tages (News, Macro-Events, Peer-Bewegungen). Output: ein wöchentlicher Report, der Patterns identifiziert. Mehrwert: messbar, Risiko: minimal. Dauer: 6 bis 10 Wochen.
Phase 2: Pre-Trade-Kontext-Scoring. Festes Zeitfenster, typischerweise T-5min vor Order-Start. Das LLM erstellt einen Kontext-Score für den geplanten Trade. Trader sieht den Score und entscheidet, ob er den Standard-Schedule freigibt oder anpasst. Mensch im Loop, kein autonomer Eingriff. Hier zeigt sich, ob das Modell konsistent sinnvolle Signale liefert. Dauer: 3 bis 6 Monate Pilotierung.
Phase 3: Echtzeit-Feedback-Loop. Das LLM produziert kontinuierlich Kontext-Scores während der Ausführung. Schedule passt sich automatisch innerhalb definierter Bandbreiten an. Trader greift nur bei Alerts ein. Das ist der Zielzustand. Voraussetzung: belastbare Phase-2-Statistik (mindestens 200 Trades mit Shadow-Vergleich), Compliance-Sign-off, ML-Ops-Kapazität für Monitoring und Drift-Detection.
Typische Stolpersteine in der Praxis:
- Prompt-Engineering wird unterschätzt. Ein generischer Sentiment-Prompt taugt nicht. Sie brauchen domänenspezifische Instruktionen, die den Trader-Kontext einbauen.
- Datenqualität der News-Feeds entscheidet alles. Garbage in, halluzinierter Trade-Stopp out.
- Compliance wird zu spät eingebunden. Wenn Sie in Phase 3 merken, dass Ihr Audit-Trail nicht MiFID-konform ist, bauen Sie 6 Monate zurück.
- Die Latenzdiskussion verschiebt sich auf den Datenfeed, nicht das Modell. Bloomberg-Push hat andere Latenz als Reuters, der Unterschied summiert sich.
Fazit: LLM als Co-Pilot, nicht als Autopilot
Die Hybridarchitektur ist die einzige Variante, die 2026 produktiv funktioniert. Klassische Execution-Algorithmen bleiben das Rückgrat. Sie sind mathematisch validiert, regulatorisch akzeptiert, latenz-tauglich. Der LLM-Layer setzt darauf auf als kontextueller Filter, nicht als Ersatz.
Die Häuser, die jetzt mit Phase 1 starten, haben in 12 bis 18 Monaten einen belastbaren Vergleichsmaßstab. Die Häuser, die warten, bis ein Anbieter eine fertige Lösung verkauft, kaufen in zwei Jahren eine Black Box, die sie nicht validieren können und für die sie gegenüber BaFin oder FMA keine Nachvollziehbarkeit darstellen können.
Mein konkreter Rat für 2026: Setzen Sie einen Post-Trade-Piloten auf, bevor das Quartalsende durch ist. Budget unter 80.000 Euro, Team aus einem Quant, einem Trader, einer Compliance-Person. Ergebnis nach drei Monaten: Sie wissen, wo Ihr Implementation-Shortfall strukturell leckt und ob ein LLM-Layer das messbar adressieren kann. Ohne diese Datenbasis ist jede Investitionsentscheidung in 2026/27 ein Bauchgefühl.
Der Ausblick ist klar. Multimodale Modelle, die Orderbook-Snapshots direkt als Bild-Input verarbeiten, sind technisch in 18 Monaten Realität. Echtzeit-Orderbook-Embeddings, die Mikrostruktur-Patterns klassifizieren, ebenfalls. Wer bis dahin keine eigene Execution-Architektur mit LLM-Layer hat, baut auf Sand. Der Markt konsolidiert sich genau jetzt. Wer 2027 startet, kauft fertige Produkte zu Premium-Preisen und verliert die Mikrostruktur-Edge, die heute noch zu haben ist.