
Die Entwicklung agentenbasierter KI-Systeme zeigt ein Muster, das Sicherheitsexperten alarmiert: Anbieter und Nutzer behandeln probabilistische Modellausgaben zunehmend wie zuverlässige Systeme. Johann Rehberger analysiert, wie sich in der Branche eine kulturelle Drift etabliert – mit Parallelen zur Challenger-Katastrophe.
Das Phänomen der schleichenden Akzeptanz
Der Begriff „Normalisierung von Abweichungen“ geht auf die Soziologin Diane Vaughan zurück, die damit beschreibt, wie Abweichungen von etablierten Standards allmählich zur akzeptierten Praxis werden. In der KI-Entwicklung manifestiert sich dies in der wachsenden Abhängigkeit von Large Language Model-Ausgaben, besonders in automatisierten Systemen.
Die zentrale Problematik: LLMs sind von Natur aus unzuverlässige Komponenten. Ihre Ausgaben sind weder deterministisch noch konsistent vorhersagbar. Dennoch zeigt sich in der Praxis, dass Sicherheitsmechanismen – wie Zugriffsbeschränkungen oder Eingabebereinigung – häufig erst nach der Modellausgabe greifen oder ganz fehlen.
Erfolg als trügerischer Indikator
Die Challenger-Katastrophe von 1986 illustriert die Mechanik dieser Entwicklung: Trotz dokumentierter Materialprobleme bei niedrigen Temperaturen wurden Sicherheitsbedenken wiederholt zurückgestellt. Frühere erfolgreiche Starts wurden als Beleg für die Systemsicherheit interpretiert – bis zum Unglück.
In der KI-Landschaft vollzieht sich ein vergleichbarer Prozess. Organisationen interpretieren das Ausbleiben von Zwischenfällen als Bestätigung ihrer Systemarchitektur. Wenn agentenbasierte Anwendungen „beim letzten Mal funktioniert haben“, sinkt die Aufmerksamkeit für potenzielle Schwachstellen. Menschliche Kontrollinstanzen werden reduziert oder entfernen.
Zwei Ebenen der Systemgefährdung
Die Risiken gliedern sich in zwei Kategorien:
Unbeabsichtigte Fehler: Halluzinationen, Kontextverluste oder fehlerhafte Interpretationen führen zu Systemfehlern. Dokumentierte Fälle reichen von ungewollten Festplattenformatierungen über automatisch generierte GitHub-Issues bis zu gelöschten Produktionsdatenbanken.
Gezielte Manipulation: Prompt-Injection-Angriffe oder in Modelle eingebettete Hintertüren nutzen dieselben Schwachstellen aus. Aktuelle Forschung von Anthropic zeigt, dass bereits kleine Mengen manipulierter Trainingsdaten ausreichen, um Hintertüren zu implementieren.
Die Brisanz verstärkt sich durch die Zentralisierung des Ökosystems: Angriffsvektoren sind häufig übertragbar, da natürliche Sprache von verschiedenen Modellen verarbeitet wird.
Ökonomischer Druck verstärkt die Drift
Die Normalisierung entsteht nicht durch Einzelentscheidungen, sondern durch akkumulierte „vorübergehende“ Kompromisse. Unter dem Wettbewerbsdruck – Automatisierungsziele, Kostensenkung, Marktpositionierung – überwiegen Anreize für Geschwindigkeit die Investitionen in grundlegende Sicherheitsarchitekturen.
Teams hinterfragen etablierte Abkürzungen nicht mehr, sobald Systeme scheinbar stabil laufen. Die ursprünglichen Sicherheitserwägungen geraten in Vergessenheit.
Dokumentierte Beispiele aus der Praxis
Führende Anbieter zeigen unterschiedliche Transparenzgrade:
Microsoft warnt in der Dokumentation zum agenten Betriebssystem explizit vor Prompt-Injection-Angriffen, die „Anweisungen überschreiben und zu Datenexfiltration oder Malware-Installation führen können“. Eine gemeinsame Studie von Anthropic und dem University College London bestätigt das Risiko autonomer Aktionen durch KI-Agenten.
OpenAI rät bei ChatGPT Atlas von der Verwendung mit regulierten, vertraulichen oder Produktionsdaten ab. Die Dokumentation verweist auf ungelöste Sicherheitsaspekte beim Web-Browsing.
Anthropic dokumentiert Risiken der Daten-Exfiltration bei Claude und empfiehlt aktive Überwachung. Nutzer sollen die Funktion beenden, wenn unerwartete Datenzugriffe auftreten.
Google verzeichnete bereits bei Produkteinführung von Antigravity Remote Code Execution durch indirekte Prompt-Injection sowie Datenexfiltrationsprobleme.
Windsurf implementiert beim Cascade Coding Agent keine obligatorische menschliche Freigabe für MCP-Tool-Aufrufe, was riskante Vertrauensmuster fördern kann.
Während einige Anbieter Risiken adressieren, scheinen andere diese zu minimieren – möglicherweise getrieben durch Produktfokus und Kundenakquise.
Realistische Perspektiven statt Utopie
Die Analyse führt nicht zu einem Verdikt gegen KI-Technologie. Zahlreiche Anwendungsfälle mit niedrigem Risikoprofil sind heute umsetzbar. Selbst komplexe Workflows lassen sich mit angemessenen Bedrohungsmodellen, Schutzmaßnahmen und Monitoring realisieren.
Erforderlich sind jedoch substantielle Investitionen in Systemarchitektur: Sandbox-Umgebungen, hermtische Kontexte, Prinzipien minimaler Privilegien, temporäre Zugangsdaten und ähnliche Kontrollen.
Die Hoffnung, „das Modell wird schon das Richtige tun“, steht im Widerspruch zum Sicherheitsprinzip „Assume Breach“. Systeme müssen unter der Annahme konzipiert werden, dass Kompromittierungen eintreten werden.
Grundprinzip: Kein blindes Vertrauen
Für den Einsatz in Kontexten mit erhöhtem Risiko bleibt menschliche Kontrolle das zentrale Element. Die Balance zwischen Innovation und Sicherheit erfordert bewusste Designentscheidungen – und die Anerkennung, dass LLM-Ausgaben grundsätzlich als nicht vertrauenswürdig zu behandeln sind.
Basierend auf einem Beitrag von Johann Rehberger (@WUNDERWUZZI)
Auch interessant:
Bild/Quelle: https://depositphotos.com/de/home.html
Fachartikel

WRAP-Methode: Effizienter arbeiten mit GitHub Copilot Coding Agent

Wenn IT-Sicherheit zum Risiko wird: Das Phänomen der Cyber-Seneszenz

Cybersicherheit bei Krypto-Börsen: Nur drei Anbieter überzeugen im Security-Check

SIEM-Systeme richtig konfigurieren: Wie Unternehmen Sicherheitslücken in der Bedrohungserkennung schließen

KI-Sicherheit: OpenAI setzt auf automatisiertes Red Teaming gegen Prompt-Injection-Attacken
Studien
![Featured image for “Phishing-Studie deckt auf: [EXTERN]-Markierung schützt Klinikpersonal kaum”](https://www.all-about-security.de/wp-content/uploads/2025/12/phishing-4.jpg)
Phishing-Studie deckt auf: [EXTERN]-Markierung schützt Klinikpersonal kaum

Gartner-Umfrage: Mehrheit der nicht geschäftsführenden Direktoren zweifelt am wirtschaftlichen Wert von Cybersicherheit

49 Prozent der IT-Verantwortlichen in Sicherheitsirrtum

Deutschland im Glasfaserausbau international abgehängt

NIS2 kommt – Proliance-Studie zeigt die Lage im Mittelstand
Whitepaper

NIS2-Richtlinie im Gesundheitswesen: Praxisleitfaden für die Geschäftsführung

Datenschutzkonformer KI-Einsatz in Bundesbehörden: Neue Handreichung gibt Orientierung

NIST aktualisiert Publikationsreihe zur Verbindung von Cybersecurity und Enterprise Risk Management

State of Cloud Security Report 2025: Cloud-Angriffsfläche wächst schnell durch KI

BITMi zum Gutachten zum Datenzugriff von US-Behörden: EU-Unternehmen als Schlüssel zur Datensouveränität
Hamsterrad-Rebell

Platform Security: Warum ERP-Systeme besondere Sicherheitsmaßnahmen erfordern

Daten in eigener Hand: Europas Souveränität im Fokus

Sicherer Remote-Zugriff (SRA) für Operational Technology (OT) und industrielle Steuerungs- und Produktionssysteme (ICS)

Identity und Access Management (IAM) im Zeitalter der KI-Agenten: Sichere Integration von KI in Unternehmenssysteme







