Share
Beitragsbild zu Forscher entdecken universellen Trick zur Umgehung von Sicherheitsvorgaben bei KI-Chatbots

Forscher entdecken universellen Trick zur Umgehung von Sicherheitsvorgaben bei KI-Chatbots

26. April 2025

Ein Team von Sicherheitsexperten des Unternehmens HiddenLayer hat eine neue Schwachstelle aufgedeckt, die nahezu alle gängigen großen Sprachmodelle (LLMs) betrifft – darunter ChatGPT, Gemini, Copilot, Claude, Llama, DeepSeek, Qwen und Mistral. Mithilfe eines einzelnen, raffiniert gestalteten Prompts konnten die Forscher die Chatbots dazu bringen, gefährliche Anleitungen zu liefern, etwa zur Urananreicherung, zum Bombenbau oder zur Herstellung von Methamphetamin.

Die als „Policy Puppetry Prompt Injection“ bezeichnete Technik nutzt eine strukturelle Schwäche vieler Sprachmodelle aus. Diese wurden im Training stark auf Anweisungen und Richtlinien ausgerichtet – genau das machen sich Angreifer zunutze.

Besonders tückisch: Die manipulierten Prompts sind als scheinbar harmlose Konfigurationsdateien im Format XML, INI oder JSON getarnt. Diese Tarnung reicht aus, um die Modelle dazu zu bringen, ihre Sicherheitsvorgaben zu ignorieren und auf gefährliche Inhalte zu reagieren.

„Die Technik funktioniert unabhängig von der konkreten Richtliniensprache. Entscheidend ist, dass der Prompt so formuliert ist, dass das Sprachmodell ihn als autoritative Anweisung erkennt“, erklären die Forscher. Die Lücke sei tief im Design der Modelle verankert – und deshalb nur schwer zu schließen.

Alle wichtigen generativen KI-Modelle sind speziell darauf trainiert, alle Benutzeranfragen abzulehnen, die sie zur Generierung schädlicher Inhalte auffordern, wobei der Schwerpunkt auf Inhalten im Zusammenhang mit CBRN-Bedrohungen (chemische, biologische, radiologische und nukleare Bedrohungen), Gewalt und Selbstverletzung liegt. Diese Modelle werden durch verstärktes Lernen so optimiert, dass sie unter keinen Umständen solche Inhalte ausgeben oder verherrlichen, selbst wenn der Benutzer indirekte Anfragen in Form von hypothetischen oder fiktiven Szenarien stellt.

Modellanpassungen, die die Generierung schädlicher Inhalte umgehen, sind weiterhin möglich, allerdings sind sie nicht universell (sie können nicht verwendet werden, um beliebige schädliche Inhalte aus einem bestimmten Modell zu extrahieren) und fast nie übertragbar (sie können nicht verwendet werden, um bestimmte schädliche Inhalte aus beliebigen Modellen zu extrahieren).

Wir haben eine Prompting-Technik entwickelt, die sowohl universell als auch übertragbar ist und dazu verwendet werden kann, praktisch jede Form von schädlichen Inhalten aus allen wichtigen KI-Modellen zu generieren. Bei einem bestimmten schädlichen Verhalten kann ein einziger Prompt verwendet werden, um schädliche Anweisungen oder Inhalte zu generieren, die eindeutig gegen die KI-Sicherheitsrichtlinien beliebter Modelle von OpenAI, Google, Microsoft, Anthropic, Meta, DeepSeek, Qwen und Mistral verstoßen.

Quelle: HiddenLayer

Ein Chatbot, der angewiesen war, niemals medizinische Ratschläge oder Behandlungspläne an den Nutzer zu geben, wurde jedoch mit Policy Puppetry umgangen.

Universalangriff auf KI-Modelle kombiniert Richtlinienumgehung mit Rollenspiel- und Verschlüsselungstechniken

Wie aktuelle Tests zeigen, sind sogenannte Policy-Angriffe besonders effektiv, wenn sie gezielt darauf ausgelegt sind, bestimmte Systemaufforderungen zu umgehen. Solche Angriffe wurden bereits erfolgreich gegen eine Vielzahl agentenbasierter Systeme und spezialisierter Chat-Anwendungen durchgeführt.

Für ihren universellen Bypass haben die Forschenden eine weiterentwickelte Variante dieser Technik entwickelt. Dabei kombinierten sie klassische Policy-Angriffe mit bekannten Rollenspielmethoden sowie verschiedenen Formen der Verschlüsselung, etwa der Verwendung von „Leetspeak“ – einer Schreibweise, die Buchstaben durch ähnlich aussehende Zahlen oder Symbole ersetzt.

Das Ergebnis: eine einzige, universell einsetzbare Eingabevorlage, die die Sicherheitsvorgaben der großen KI-Modelle umgeht und schädliche Inhalte generiert. Laut den Forschern war diese Methode bei allen getesteten Systemen erfolgreich.

Forschungsergebnis warnt: KI-Modelle benötigen externe Überwachung zum Schutz vor Angriffen

Chatbots sind nicht in der Lage, gefährliche Inhalte eigenständig wirksam zu kontrollieren – darauf weist eine aktuelle Untersuchung hin. Um böswillige Prompt-Injection-Angriffe frühzeitig zu erkennen und zu stoppen, sei eine externe Überwachung unverzichtbar.

Besonders alarmierend: Die Forscher fanden heraus, dass universelle Umgehungsmethoden inzwischen so einfach sind, dass Angreifer weder spezielles Fachwissen benötigen noch ihre Angriffe auf einzelne Modelle abstimmen müssen.

„Jeder, der eine Tastatur bedienen kann, könnte nun Anleitungen zur Urananreicherung, zur Herstellung von Anthrax oder gar zur Planung von Völkermord abrufen“, warnen die Experten eindringlich.

Die Ergebnisse verdeutlichen, dass zusätzliche Sicherheitsmechanismen und verbesserte Erkennungssysteme dringend notwendig sind, um den Missbrauch von KI-Chatbots effektiv einzudämmen.

Was bedeutet das für Sie?

Die Existenz einer universellen Umgehungsmöglichkeit für moderne LLMs über Modelle, Organisationen und Architekturen hinweg weist auf einen gravierenden Mangel in der Art und Weise hin, wie LLMs trainiert und aufeinander abgestimmt werden, wie in den mit jedem Modell veröffentlichten Modellsystemkarten beschrieben. Das Vorhandensein mehrerer wiederholbarer universeller Umgehungsmöglichkeiten bedeutet, dass Angreifer keine komplexen Kenntnisse mehr benötigen, um Angriffe zu erstellen oder diese für jedes einzelne Modell anzupassen. Stattdessen können sie nun mit einem einfachen Point-and-Shoot-Ansatz gegen jedes zugrunde liegende Modell vorgehen, selbst wenn sie dieses nicht kennen. Jeder, der über eine Tastatur verfügt, kann nun fragen, wie man Uran anreichert, Anthrax herstellt, Völkermord begeht oder auf andere Weise die vollständige Kontrolle über ein beliebiges Modell erlangt. Diese Bedrohung zeigt, dass LLMs nicht in der Lage sind, gefährliche Inhalte wirklich selbst zu überwachen, und unterstreicht die Notwendigkeit zusätzlicher Sicherheitswerkzeuge wie der HiddenLayer AISec Platform, die eine Überwachung zur Erkennung und Abwehr böswilliger Prompt-Injection-Angriffe in Echtzeit bieten.

Zusammenfassend lässt sich sagen, dass die Entdeckung der Policy Puppetry eine erhebliche Schwachstelle in großen Sprachmodellen aufzeigt, die es Angreifern ermöglicht, schädliche Inhalte zu generieren, Systemanweisungen zu leaken oder zu umgehen und agentenbasierte Systeme zu kapern. Als erste Methode zur Umgehung der Ausrichtung der Befehlshierarchie, die gegen fast alle führenden KI-Modelle funktioniert, zeigt die modellübergreifende Wirksamkeit dieser Technik, dass die Daten und Methoden, die zum Trainieren und Ausrichten von LLMs verwendet werden, noch viele grundlegende Mängel aufweisen und dass zusätzliche Sicherheitswerkzeuge und Erkennungsmethoden erforderlich sind, um LLMs sicher zu machen.

Redaktion AllAboutSecurity


Bild/Quelle: https://depositphotos.com/de/home.html