Share
Beitragsbild zu Wenn KI-Systeme zu vertrauenswürdig erscheinen: Das unterschätzte Risiko der Normalisierung

Wenn KI-Systeme zu vertrauenswürdig erscheinen: Das unterschätzte Risiko der Normalisierung

29. Dezember 2025

Die Entwicklung agentenbasierter KI-Systeme zeigt ein Muster, das Sicherheitsexperten alarmiert: Anbieter und Nutzer behandeln probabilistische Modellausgaben zunehmend wie zuverlässige Systeme. Johann Rehberger analysiert, wie sich in der Branche eine kulturelle Drift etabliert – mit Parallelen zur Challenger-Katastrophe.

Das Phänomen der schleichenden Akzeptanz

Der Begriff „Normalisierung von Abweichungen“ geht auf die Soziologin Diane Vaughan zurück, die damit beschreibt, wie Abweichungen von etablierten Standards allmählich zur akzeptierten Praxis werden. In der KI-Entwicklung manifestiert sich dies in der wachsenden Abhängigkeit von Large Language Model-Ausgaben, besonders in automatisierten Systemen.

Die zentrale Problematik: LLMs sind von Natur aus unzuverlässige Komponenten. Ihre Ausgaben sind weder deterministisch noch konsistent vorhersagbar. Dennoch zeigt sich in der Praxis, dass Sicherheitsmechanismen – wie Zugriffsbeschränkungen oder Eingabebereinigung – häufig erst nach der Modellausgabe greifen oder ganz fehlen.

Erfolg als trügerischer Indikator

Die Challenger-Katastrophe von 1986 illustriert die Mechanik dieser Entwicklung: Trotz dokumentierter Materialprobleme bei niedrigen Temperaturen wurden Sicherheitsbedenken wiederholt zurückgestellt. Frühere erfolgreiche Starts wurden als Beleg für die Systemsicherheit interpretiert – bis zum Unglück.

In der KI-Landschaft vollzieht sich ein vergleichbarer Prozess. Organisationen interpretieren das Ausbleiben von Zwischenfällen als Bestätigung ihrer Systemarchitektur. Wenn agentenbasierte Anwendungen „beim letzten Mal funktioniert haben“, sinkt die Aufmerksamkeit für potenzielle Schwachstellen. Menschliche Kontrollinstanzen werden reduziert oder entfernen.

Zwei Ebenen der Systemgefährdung

Die Risiken gliedern sich in zwei Kategorien:

Unbeabsichtigte Fehler: Halluzinationen, Kontextverluste oder fehlerhafte Interpretationen führen zu Systemfehlern. Dokumentierte Fälle reichen von ungewollten Festplattenformatierungen über automatisch generierte GitHub-Issues bis zu gelöschten Produktionsdatenbanken.

Gezielte Manipulation: Prompt-Injection-Angriffe oder in Modelle eingebettete Hintertüren nutzen dieselben Schwachstellen aus. Aktuelle Forschung von Anthropic zeigt, dass bereits kleine Mengen manipulierter Trainingsdaten ausreichen, um Hintertüren zu implementieren.

Die Brisanz verstärkt sich durch die Zentralisierung des Ökosystems: Angriffsvektoren sind häufig übertragbar, da natürliche Sprache von verschiedenen Modellen verarbeitet wird.

Ökonomischer Druck verstärkt die Drift

Die Normalisierung entsteht nicht durch Einzelentscheidungen, sondern durch akkumulierte „vorübergehende“ Kompromisse. Unter dem Wettbewerbsdruck – Automatisierungsziele, Kostensenkung, Marktpositionierung – überwiegen Anreize für Geschwindigkeit die Investitionen in grundlegende Sicherheitsarchitekturen.

Teams hinterfragen etablierte Abkürzungen nicht mehr, sobald Systeme scheinbar stabil laufen. Die ursprünglichen Sicherheitserwägungen geraten in Vergessenheit.

Dokumentierte Beispiele aus der Praxis

Führende Anbieter zeigen unterschiedliche Transparenzgrade:

Microsoft warnt in der Dokumentation zum agenten Betriebssystem explizit vor Prompt-Injection-Angriffen, die „Anweisungen überschreiben und zu Datenexfiltration oder Malware-Installation führen können“. Eine gemeinsame Studie von Anthropic und dem University College London bestätigt das Risiko autonomer Aktionen durch KI-Agenten.

OpenAI rät bei ChatGPT Atlas von der Verwendung mit regulierten, vertraulichen oder Produktionsdaten ab. Die Dokumentation verweist auf ungelöste Sicherheitsaspekte beim Web-Browsing.

Anthropic dokumentiert Risiken der Daten-Exfiltration bei Claude und empfiehlt aktive Überwachung. Nutzer sollen die Funktion beenden, wenn unerwartete Datenzugriffe auftreten.

Google verzeichnete bereits bei Produkteinführung von Antigravity Remote Code Execution durch indirekte Prompt-Injection sowie Datenexfiltrationsprobleme.

Windsurf implementiert beim Cascade Coding Agent keine obligatorische menschliche Freigabe für MCP-Tool-Aufrufe, was riskante Vertrauensmuster fördern kann.

Während einige Anbieter Risiken adressieren, scheinen andere diese zu minimieren – möglicherweise getrieben durch Produktfokus und Kundenakquise.

Realistische Perspektiven statt Utopie

Die Analyse führt nicht zu einem Verdikt gegen KI-Technologie. Zahlreiche Anwendungsfälle mit niedrigem Risikoprofil sind heute umsetzbar. Selbst komplexe Workflows lassen sich mit angemessenen Bedrohungsmodellen, Schutzmaßnahmen und Monitoring realisieren.

Erforderlich sind jedoch substantielle Investitionen in Systemarchitektur: Sandbox-Umgebungen, hermtische Kontexte, Prinzipien minimaler Privilegien, temporäre Zugangsdaten und ähnliche Kontrollen.

Die Hoffnung, „das Modell wird schon das Richtige tun“, steht im Widerspruch zum Sicherheitsprinzip „Assume Breach“. Systeme müssen unter der Annahme konzipiert werden, dass Kompromittierungen eintreten werden.

Grundprinzip: Kein blindes Vertrauen

Für den Einsatz in Kontexten mit erhöhtem Risiko bleibt menschliche Kontrolle das zentrale Element. Die Balance zwischen Innovation und Sicherheit erfordert bewusste Designentscheidungen – und die Anerkennung, dass LLM-Ausgaben grundsätzlich als nicht vertrauenswürdig zu behandeln sind.

Basierend auf einem Beitrag von Johann Rehberger (@WUNDERWUZZI)

Auch interessant:


Bild/Quelle: https://depositphotos.com/de/home.html