Wenn KI-Systeme zu vertrauenswürdig erscheinen: Das unterschätzte Risiko der Normalisierung

Die Entwicklung agentenbasierter KI-Systeme zeigt ein Muster, das Sicherheitsexperten alarmiert: Anbieter und Nutzer behandeln probabilistische Modellausgaben zunehmend wie zuverlässige Systeme. Johann Rehberger analysiert, wie sich in der Branche eine kulturelle Drift etabliert – mit Parallelen zur Challenger-Katastrophe.

Das Phänomen der schleichenden Akzeptanz

Der Begriff „Normalisierung von Abweichungen“ geht auf die Soziologin Diane Vaughan zurück, die damit beschreibt, wie Abweichungen von etablierten Standards allmählich zur akzeptierten Praxis werden. In der KI-Entwicklung manifestiert sich dies in der wachsenden Abhängigkeit von Large Language Model-Ausgaben, besonders in automatisierten Systemen.

Die zentrale Problematik: LLMs sind von Natur aus unzuverlässige Komponenten. Ihre Ausgaben sind weder deterministisch noch konsistent vorhersagbar. Dennoch zeigt sich in der Praxis, dass Sicherheitsmechanismen – wie Zugriffsbeschränkungen oder Eingabebereinigung – häufig erst nach der Modellausgabe greifen oder ganz fehlen.

Erfolg als trügerischer Indikator

Die Challenger-Katastrophe von 1986 illustriert die Mechanik dieser Entwicklung: Trotz dokumentierter Materialprobleme bei niedrigen Temperaturen wurden Sicherheitsbedenken wiederholt zurückgestellt. Frühere erfolgreiche Starts wurden als Beleg für die Systemsicherheit interpretiert – bis zum Unglück.

In der KI-Landschaft vollzieht sich ein vergleichbarer Prozess. Organisationen interpretieren das Ausbleiben von Zwischenfällen als Bestätigung ihrer Systemarchitektur. Wenn agentenbasierte Anwendungen „beim letzten Mal funktioniert haben“, sinkt die Aufmerksamkeit für potenzielle Schwachstellen. Menschliche Kontrollinstanzen werden reduziert oder entfernen.

Zwei Ebenen der Systemgefährdung

Die Risiken gliedern sich in zwei Kategorien:

Unbeabsichtigte Fehler: Halluzinationen, Kontextverluste oder fehlerhafte Interpretationen führen zu Systemfehlern. Dokumentierte Fälle reichen von ungewollten Festplattenformatierungen über automatisch generierte GitHub-Issues bis zu gelöschten Produktionsdatenbanken.

Gezielte Manipulation: Prompt-Injection-Angriffe oder in Modelle eingebettete Hintertüren nutzen dieselben Schwachstellen aus. Aktuelle Forschung von Anthropic zeigt, dass bereits kleine Mengen manipulierter Trainingsdaten ausreichen, um Hintertüren zu implementieren.

Die Brisanz verstärkt sich durch die Zentralisierung des Ökosystems: Angriffsvektoren sind häufig übertragbar, da natürliche Sprache von verschiedenen Modellen verarbeitet wird.

Ökonomischer Druck verstärkt die Drift

Die Normalisierung entsteht nicht durch Einzelentscheidungen, sondern durch akkumulierte „vorübergehende“ Kompromisse. Unter dem Wettbewerbsdruck – Automatisierungsziele, Kostensenkung, Marktpositionierung – überwiegen Anreize für Geschwindigkeit die Investitionen in grundlegende Sicherheitsarchitekturen.

Teams hinterfragen etablierte Abkürzungen nicht mehr, sobald Systeme scheinbar stabil laufen. Die ursprünglichen Sicherheitserwägungen geraten in Vergessenheit.

Dokumentierte Beispiele aus der Praxis

Führende Anbieter zeigen unterschiedliche Transparenzgrade:

Microsoft warnt in der Dokumentation zum agenten Betriebssystem explizit vor Prompt-Injection-Angriffen, die „Anweisungen überschreiben und zu Datenexfiltration oder Malware-Installation führen können“. Eine gemeinsame Studie von Anthropic und dem University College London bestätigt das Risiko autonomer Aktionen durch KI-Agenten.

OpenAI rät bei ChatGPT Atlas von der Verwendung mit regulierten, vertraulichen oder Produktionsdaten ab. Die Dokumentation verweist auf ungelöste Sicherheitsaspekte beim Web-Browsing.

Anthropic dokumentiert Risiken der Daten-Exfiltration bei Claude und empfiehlt aktive Überwachung. Nutzer sollen die Funktion beenden, wenn unerwartete Datenzugriffe auftreten.

Google verzeichnete bereits bei Produkteinführung von Antigravity Remote Code Execution durch indirekte Prompt-Injection sowie Datenexfiltrationsprobleme.

Windsurf implementiert beim Cascade Coding Agent keine obligatorische menschliche Freigabe für MCP-Tool-Aufrufe, was riskante Vertrauensmuster fördern kann.

Während einige Anbieter Risiken adressieren, scheinen andere diese zu minimieren – möglicherweise getrieben durch Produktfokus und Kundenakquise.

Realistische Perspektiven statt Utopie

Die Analyse führt nicht zu einem Verdikt gegen KI-Technologie. Zahlreiche Anwendungsfälle mit niedrigem Risikoprofil sind heute umsetzbar. Selbst komplexe Workflows lassen sich mit angemessenen Bedrohungsmodellen, Schutzmaßnahmen und Monitoring realisieren.

Erforderlich sind jedoch substantielle Investitionen in Systemarchitektur: Sandbox-Umgebungen, hermtische Kontexte, Prinzipien minimaler Privilegien, temporäre Zugangsdaten und ähnliche Kontrollen.

Die Hoffnung, „das Modell wird schon das Richtige tun“, steht im Widerspruch zum Sicherheitsprinzip „Assume Breach“. Systeme müssen unter der Annahme konzipiert werden, dass Kompromittierungen eintreten werden.

Grundprinzip: Kein blindes Vertrauen

Für den Einsatz in Kontexten mit erhöhtem Risiko bleibt menschliche Kontrolle das zentrale Element. Die Balance zwischen Innovation und Sicherheit erfordert bewusste Designentscheidungen – und die Anerkennung, dass LLM-Ausgaben grundsätzlich als nicht vertrauenswürdig zu behandeln sind.

Basierend auf einem Beitrag von Johann Rehberger (@WUNDERWUZZI)

Auch interessant:

Auswirkungen beschleunigter KI-Forschung und -Entwicklung: Prognose & Ergebnisse einer Pilotstudie

Wenn Maschinen lügen, ohne es zu wissen

Wenn KI-Detektoren versagen: Code-Verschleierung entlarvt Schwächen großer Sprachmodelle

Ex-Forscher wirft OpenAI mangelnde Transparenz bei kritischen Studienergebnissen vor

Bild/Quelle: https://depositphotos.com/de/home.html

Wenn KI-Systeme zu vertrauenswürdig erscheinen: Das unterschätzte Risiko der Normalisierung

Das Phänomen der schleichenden Akzeptanz

Erfolg als trügerischer Indikator

Zwei Ebenen der Systemgefährdung

Ökonomischer Druck verstärkt die Drift

Dokumentierte Beispiele aus der Praxis

Realistische Perspektiven statt Utopie

Grundprinzip: Kein blindes Vertrauen

Fachartikel

Gefährliche Chrome-Erweiterung entwendet Zugangsdaten von Meta Business-Konten

Agentenbasierte KI im Unternehmen: Wie Rollback-Mechanismen Automatisierung absichern

Google dokumentiert zunehmenden Missbrauch von KI-Systemen durch Cyberkriminelle

Sicherheitslücke in Claude Desktop Extensions gefährdet Tausende Nutzer

KI-Agenten: Dateisystem vs. Datenbank – Welche Speicherlösung passt zu Ihrem Projekt?

Studien

Deutsche Wirtschaft unzureichend auf hybride Bedrohungen vorbereitet

Cyberkriminalität im Dark Web: Wie KI-Systeme Betrüger ausbremsen

Sicherheitsstudie 2026: Menschliche Faktoren übertreffen KI-Risiken

Studie: Unternehmen müssen ihre DNS- und IP-Management-Strukturen für das KI-Zeitalter neu denken

Deutsche Unicorn-Gründer bevorzugen zunehmend den Standort Deutschland

Whitepaper

MITRE ATLAS analysiert OpenClaw: Neue Exploit-Pfade in KI-Agentensystemen

BSI setzt Auslaufdatum für klassische Verschlüsselungsverfahren

Token Exchange: Sichere Authentifizierung über Identity-Provider-Grenzen

KI-Agenten in Unternehmen: Governance-Lücken als Sicherheitsrisiko

KuppingerCole legt Forschungsagenda für IAM und Cybersecurity 2026 vor

Hamsterrad-Rebell

KI‑basierte E‑Mail‑Angriffe: Einfach gestartet, kaum zu stoppen

NIS2: „Zum Glück gezwungen“ – mit OKR-basiertem Vorgehen zum nachhaltigen Erfolg

Cyberversicherung ohne Datenbasis? Warum CIOs und CISOs jetzt auf quantifizierbare Risikomodelle setzen müssen

Identity Security Posture Management (ISPM): Rettung oder Hype?

Platform Security: Warum ERP-Systeme besondere Sicherheitsmaßnahmen erfordern