KI-Agent-Architektur und Verteidigung ist die Menge strukturierter Muster, die einen Agenten auch dann das Richtige tun lassen, wenn Prompts schiefgehen, Kontexte überlaufen, Modelle driften oder Angreifer injizieren. Compliance beantwortet die Frage: Haben wir die richtigen Dokumente? Architektur beantwortet die Frage: Verhält sich der Agent korrekt, wenn etwas schiefgeht? Beides zählt. Keines ersetzt das andere.

Dieser Pillar ist die Engineering-Seite zu unserem Pillar KI-Governance und Compliance EU. Während Governance die Evidenz für Procurement und Aufsicht produziert, liefert Architektur die strukturellen Verteidigungen, die den Agenten überhaupt erst produktionstauglich machen. Die Artikel hier richten sich an die Ingenieurin, die umsetzen muss, was die Auditorin verlangt. Sie nennen konkrete Dateien, konkrete Funktionen, konkrete Code-Muster. Keine Übersichtsartikel — Arbeitsnotizen.

Die Muster skalieren über Produkte und Frameworks hinweg. Das 7-Ringe-Berechtigungsmodell funktioniert, egal ob du auf LangChain, LlamaIndex, eigenem Go oder etwas anderem baust. Der Snapshot-Guard ist über SQL und NoSQL hinweg portabel. Audit-Trail-Design ist framework-agnostisch. Es geht nicht darum, unsere Implementierung zu kopieren. Es geht darum, dieselben Probleme zu erkennen und dieselben strukturellen Verteidigungen in deiner eigenen Codebasis zu bauen.

7unabhängige Berechtigungs-Ringe zwischen Anfrage und Daten
OWASP #1Prompt Injection führt die OWASP-LLM-Risikoliste seit 2023 an
$4.88Mdurchschnittliche Kosten eines KI-bezogenen Datenlecks (IBM 2025)
0halluzinierte Updates am Snapshot-Guard vorbei seit Auslieferung

Drei Verteidigungs-Kategorien, die jeder KI-Agent braucht

KI-Agenten versagen in drei Kategorien — jede verlangt eine eigene architektonische Verteidigung. Wenn du die Kategorien nicht trennst, baust du eine Schicht für drei Probleme und keine davon hält.

Kategorie 1: Berechtigungs-Fehler. Der Agent tut etwas, das die aufrufende Person nicht dürfen sollte. Ursache ist eine fehlende Berechtigungsprüfung in einer von mehreren Schichten (Authentifizierung, Rolle, Scope, ACL, Empfänger). Verteidigung: gestaffelte Berechtigungen, eine einzige Quelle der Wahrheit pro Schicht, Audit-Logs jeder Ablehnung. Das vollständige Muster findest du im 7-Ringe-Berechtigungsmodell.

Kategorie 2: Reasoning-Fehler. Der Agent produziert eine falsche Aktion, die richtig aussieht. Ursachen: Drift in langen Schleifen (der Kontext verschlechtert sich), Pattern-Matching auf eigene Ausgaben (Halluzination) oder die Selbstüberschätzung des Modells bei Freitext-Feldern. Verteidigung: strukturelle Verifikation, das Echo von erwarteten Werten, Observability der Quellenzitate pro Schritt. Das Muster im Detail im Artikel KI-Halluzinationen bei Massenupdates.

Kategorie 3: Outbound-Fehler. Der Agent sendet eine Nachricht, plant ein Meeting oder verändert externen Zustand, ohne dass die aufrufende Person dazu berechtigt wäre. Ursache: fehlende Empfänger-Verifikation oder eine zu große Wirkungs-Reichweite über Mandantengrenzen hinweg. Verteidigung: Recipient-Scope-Guard, Idempotenz-Schlüssel, Bestätigungs-Flüsse für destruktive Aktionen. Die Detail-Artikel unten zerlegen jede Kategorie mit konkreten Code-Mustern.

Was du nicht tun solltest (3 Anti-Muster)

Strukturelle Verteidigung (Architektur)

  • Der Snapshot-Guard lehnt jedes Update ohne verifiziertes Echo des erwarteten Werts ab

  • ACL pro Datensatz über einen einzigen Helper (CheckEntityVisibility), kein zweiter Code-Pfad

  • Der Recipient-Scope-Guard prüft das Empfangsziel vor jeder ausgehenden Aktion

  • Der Aktivitätsstrom protokolliert jeden Tool-Aufruf, jeden Hook und jede Entscheidung

  • Idempotenz-Schlüssel verhindern doppelte Anlagen bei Wiederholungen

  • Bestätigungs-Flüsse blockieren destruktive Aktionen, bis die Person sie explizit freigibt

Appellative Verteidigung (Anti-Muster)

  • Bitte vor dem Update verifizieren im System-Prompt (der Hinweis verliert nach 50 Schritten sein Gewicht)

  • Eine einzelne Berechtigungsprüfung am Route-Handler, dem Modell zu vertrauen, sie nicht zu umgehen

  • Das nächste, klügere Modell halluziniere weniger (jedes Modell driftet unter Kontext-Druck)

  • Wir erkennen es hinterher im Audit (die Datenkorruption ist da, bevor das Audit greift)

  • Eine Konfidenz-Schwelle (ein driftendes Modell ist gerade von seinem falschen Muster überzeugt)

  • Logging reicht aus (Logging ist Erkennung, nicht Prävention)

Prüfe die Bereitschaft deiner KI-Architektur

Kostenlose 8-minütige Bewertung zu Berechtigungs-Architektur, Drift-Abwehr, Audit-Trail-Design und Observability. Strukturierter KI-Bericht zu deinem aktuellen Stand.

Jetzt ausprobieren

Den Cluster erkunden

Zum Berechtigungsmodell lies die Tiefenanalyse 7-Ringe-Berechtigungsarchitektur. Sie geht jede Schicht einzeln durch (JWT, Unternehmensrolle, Teamrolle, Tool-Scope, Action-Scope, ACL pro Datensatz, Empfänger-Schutz), benennt für jede Schicht die konkrete Helfer-Funktion und liefert dir eine 7-Schritte-Prüfung, die du gegen jeden KI-Anbieter laufen lassen kannst.

Zur Drift-Abwehr lies KI-Halluzinationen bei Massenupdates. Der Artikel erzählt den Fall vom Mai 2026, in dem ein Agent über 99 sequentielle Schritte mehr als 30 Datensätze halluzinierte, erklärt, warum lange Schleifen driften, und führt durch das Snapshot-Guard-Muster, das Drift auf Architektur-Ebene mathematisch ausschließt.

Zum Audit-Trail-Design lies KI-Agent: Audit-Trail und RBAC-Anforderungen für die Procurement-seitige Anforderungs-Sicht und komm danach für die Engineering-Sicht zum kommenden Observability-Artikel zurück. Beide Sichten zählen: Procurement fragt, was du auf Papier hast — Engineering fragt, wie es im Betrieb wirklich funktioniert.

Kernaussagen

1. Drei Versagens-Kategorien, drei Verteidigungs-Kategorien. Berechtigungs-Fehler, Reasoning-Fehler, Outbound-Fehler. Jede braucht ihr eigenes strukturelles Muster — eine Schicht für alle drei trägt keines davon.

2. Struktur schlägt Appell. Der Agent soll X nicht tun ist eine Bitte. Das System nimmt X nicht an ist eine Verteidigung. Die Architektur gewinnt jedes Mal.

3. Eine einzige Quelle der Wahrheit pro Schicht ist nicht verhandelbar. Zwei Funktionen, die beide dasselbe prüfen, werden sich irgendwann widersprechen. Genau in dieser Lücke wohnt der Vorfall.

4. Compliance bringt dich in den Vertrag — Architektur hält dich aus dem Post-Mortem. Beides zählt. Sie operieren auf unterschiedlichen Zeithorizonten.

5. Die Muster sind portabel. 7-Ringe-Berechtigung, Snapshot-Guard, Recipient-Scope-Guard, drei unabhängige Audit-Logs — keines davon hängt an einem bestimmten Framework. Lesbar in Go, Python, TypeScript. Umsetzbar in jeder Codebasis, die einen Agenten in Produktion betreibt.