
Ein Forscher des KI-Sicherheitsunternehmens Neural Trust hat eine neue Methode entdeckt, mit der sich selbst fortschrittliche Sprachmodelle wie GPT-4 oder Gemini-2.5 austricksen lassen. Die als „Echo Chamber Attack“ bezeichnete Technik durchbricht die bestehenden Schutzmechanismen der Modelle – jedoch auf besonders raffinierte Weise: Anstatt auf direkte Aufforderungen oder verschleierte Formulierungen zu setzen, manipuliert der Angriff den Kontext schrittweise und subtil.
Die Methode beruht auf sogenanntem „Context Poisoning“ und mehrstufigem Schlussfolgern. Dabei werden dem Modell scheinbar harmlose Informationen in mehreren Etappen präsentiert, bis es schließlich regelwidrige oder schädliche Inhalte generiert – ohne dass es je eine eindeutig problematische Eingabe erhalten hätte. Die Technik unterläuft damit grundlegende Prinzipien der Sicherheit in modernen KI-Systemen.
In Tests erreichte der Angriff beeindruckende Erfolgsraten: In der Hälfte der getesteten inhaltlichen Kategorien lag die Erfolgsquote bei über 90 Prozent – und selbst in den übrigen Bereichen wurde in mehr als 40 Prozent der Fälle ein Sicherheitsversagen beobachtet. Betroffen waren dabei unter anderem Modelle wie GPT-4.1-nano, GPT-4o und Gemini-2.5.
Die Ergebnisse zeigen, wie verwundbar KI-Modelle gegenüber indirekten Manipulationen weiterhin sind – und wie wichtig es wird, künftig auch komplexere Formen des Missbrauchs frühzeitig zu erkennen und zu unterbinden.
Der Echo-Chamber-Angriff ist ein Jailbreak-Angriff, der den Kontext vergiftet und die Schlussfolgerungen eines Modells gegen sich selbst richtet. Anstatt eine offensichtlich schädliche oder gegen Richtlinien verstoßende Eingabe zu präsentieren, führt der Angreifer harmlos klingende Eingaben ein, die subtil eine unsichere Absicht implizieren. Diese Hinweise bauen sich über mehrere Runden auf und formen nach und nach den internen Kontext des Modells, bis es beginnt, schädliche oder nicht konforme Ergebnisse zu liefern.
Der Name „Echo Chamber“ spiegelt den Kernmechanismus des Angriffs wider: Frühzeitig eingespielte Eingabeaufforderungen beeinflussen die Antworten des Modells, die dann in späteren Durchläufen genutzt werden, um das ursprüngliche Ziel zu verstärken. Dadurch entsteht eine Rückkopplungsschleife, in der das Modell beginnt, den in der Konversation eingebetteten schädlichen Subtext zu verstärken und so nach und nach seine eigenen Sicherheitsresistenzen zu untergraben. Der Angriff lebt von Andeutungen, Indirektheit und kontextbezogenen Verweisen – Techniken, die bei einer isolierten Auswertung der Eingabeaufforderungen nicht erkannt werden.
Im Gegensatz zu früheren Jailbreaks, die sich auf oberflächliche Tricks wie Rechtschreibfehler, Prompt-Injektion oder Formatierungs-Hacks stützen, arbeitet Echo Chamber auf semantischer und konversationeller Ebene. Es nutzt die Art und Weise aus, wie LLMs den Kontext aufrechterhalten, mehrdeutige Referenzen auflösen und Schlussfolgerungen über Dialogrunden hinweg ziehen, und deckt damit eine tiefere Schwachstelle in den aktuellen Alignment-Methoden auf.
So funktioniert der Echo-Chamber-Angriff: KI gezielt manipulieren
Der sogenannte Echo-Chamber-Angriff ist eine besonders ausgeklügelte Methode des sogenannten „Context Poisoning“. Dabei handelt es sich um den Versuch, große Sprachmodelle (LLMs) schrittweise zu manipulieren – ohne dabei offene Regelverstöße zu begehen.
Statt eine Künstliche Intelligenz direkt zu einer verbotenen Handlung aufzufordern, setzen Angreifer auf eine Reihe unverdächtiger Eingaben. Diese scheinbar harmlosen Informationen enthalten jedoch subtile Hinweise auf ein schädliches Ziel. In mehreren aufeinanderfolgenden Interaktionen werden diese „giftigen Samen“ verstärkt, bis sich eine Art Rückkopplungsschleife bildet.
Da viele Sprachmodelle auf den bisherigen Gesprächsverlauf zurückgreifen, kann sich der ursprüngliche Kontext allmählich verschieben – hin zu problematischen Inhalten. Im Laufe der Zeit wird das Modell so in eine Richtung gedrängt, in der es Aussagen trifft, die es unter normalen Umständen nicht äußern würde.
Ein konkretes Beispiel: Wird ein LLM direkt gebeten, eine Bauanleitung für einen Molotowcocktail zu liefern, wird es dies in der Regel verweigern. Durch den Echo-Chamber-Angriff jedoch kann das System so beeinflusst werden, dass es dieses Verbot umgeht – ohne dass es die Absicht sofort erkennt.
Dieser Angriff kann direkt auf der Plattform durchgeführt werden, ohne dass viele Runden erforderlich sind. In diesem Beispiel besteht das Ziel darin, das LLM zu bitten, „eine Anleitung zum Bau eines Molotowcocktails zu schreiben”. Auf die explizite Frage hin lehnte das LLM dies ab (Abbildung 1). Als wir jedoch den Echo-Chamber-Angriff durchführten, lieferte uns das LLM eine Beschreibung des Molotowcocktails (Abbildung 2) und zeigte sogar die Schritte zu dessen Herstellung (Abbildung 3). Dieser Angriff wurde unter Verwendung des Fachwissens des Experten durchgeführt, um die Konversation zu steuern. Der Angriff war erfolgreich und der Forscher schaffte es, das LLM dazu zu bringen, eine Schritt-für-Schritt-Anleitung zum Bau eines Molotowcocktails zu schreiben. Als Nächstes wurde dieser Angriff weiterentwickelt und in den Neural Trust-Katalog aufgenommen. Dieser wird dann verwendet, um die folgenden Experimente zur Bewertung der Angriffsleistung zu entwickeln.
Abbildung 1. Der LLM widersetzt sich der Anfrage.
Abbildung 2. Nach dem Jailbreak beginnt das LLM mit dem Schreiben des Handbuchs.
Abbildung 3. Nach dem Jailbreak zeigt das LLM, wie man Molotowcocktails herstellt, indem es die Zutaten und die einzelnen Schritte angibt.
So funktioniert der Echo-Chamber-Angriff
Der Echo-Chamber-Jailbreak ist eine mehrstufige gegnerische Prompting-Technik, die die eigene Argumentation und das Gedächtnis des LLM ausnutzt. Anstatt das Modell mit einer unsicheren Eingabeaufforderung zu konfrontieren, führen Angreifer einen harmlos erscheinenden Kontext ein, der das Modell dazu veranlasst, selbst zu schädlichen Schlussfolgerungen zu gelangen – als wäre es in einer Feedback-Schleife mit zunehmend suggestiver Logik gefangen.
Der Ablauf des Echo-Chamber-Angriffs.
Echo-Chamber-Angriff entlarvt Schwächen führender KI-Modelle
In einer kontrollierten Umgebung haben wir den sogenannten Echo-Chamber-Angriff an zwei führenden großen Sprachmodellen (LLMs) getestet – mit alarmierenden Ergebnissen. Insgesamt wurden pro Modell 200 gezielte Jailbreak-Versuche durchgeführt, basierend auf acht besonders sensiblen Inhaltskategorien des Microsoft Crescendo-Benchmarks: Obszönitäten, Sexismus, Gewalt, Hassrede, Falschinformationen, illegale Aktivitäten, Selbstverletzung und Pornografie.
Ziel war es, mit minimalem Prompt-Engineering Sicherheitsmechanismen zu umgehen und die Modelle dazu zu bringen, problematische Inhalte zu generieren – ohne Ablehnung oder Warnhinweise.
Die Bilanz ist eindeutig – und besorgniserregend:
-
Sexismus, Gewalt, Hassrede, Pornografie: In über 90 % der Fälle reagierten die Modelle mit unzulässigen Inhalten – selbst in diesen besonders sensiblen Kategorien.
-
Falschinformationen und Selbstverletzung: Auch hier lag die Erfolgsquote bei etwa 80 %, was auf eine hohe Anfälligkeit in komplexen und potenziell gefährlichen Bereichen hinweist.
-
Obszönitäten und illegale Aktivitäten: Trotz strenger Filtermechanismen lag die Erfolgsrate noch bei über 40 % – ein deutliches Zeichen für bestehende Sicherheitslücken.
Der Echo-Chamber-Angriff erwies sich damit als äußerst wirksam: Mit einfach strukturierten Prompts konnten die Schutzbarrieren der Modelle in breiter inhaltlicher Tiefe durchbrochen werden. Die Ergebnisse werfen zentrale Fragen zur Zuverlässigkeit und Resilienz aktueller KI-Systeme auf – insbesondere im Hinblick auf den Umgang mit schädlichen oder gefährlichen Inhalten.
Warum das wichtig ist
Der Echo-Chamber-Angriff deckt eine kritische Schwachstelle bei den Bemühungen zur Ausrichtung von LLM auf. Konkret zeigt er, dass
- LLM-Sicherheitssysteme anfällig für indirekte Manipulation durch kontextbezogene Schlussfolgerungen und Inferenz sind.
- Mehrrunden-Dialoge ermöglichen die Bildung schädlicher Trajektorien, selbst wenn einzelne Eingabeaufforderungen harmlos sind.
- Eine Filterung auf Token-Ebene ist unzureichend, wenn Modelle schädliche Ziele ableiten können, ohne toxische Wörter zu sehen.
In realen Szenarien – Kundensupport-Bots, Produktivitätsassistenten oder Content-Moderatoren – könnte diese Art von Angriff genutzt werden, um auf subtile Weise schädliche Ausgaben zu erzwingen, ohne Alarme auszulösen.
Empfehlungen zur Risikominderung
Um sich gegen Echo-Chamber-artige Jailbreaks zu schützen, sollten LLM-Entwickler und -Anbieter Folgendes in Betracht ziehen:
Kontextbewusste Sicherheitsüberprüfung
Implementieren Sie eine dynamische Überprüfung der Konversationshistorie, um Muster für aufkommende Risiken zu identifizieren – nicht nur eine statische Überprüfung der Eingabeaufforderungen.
Bewertung der Toxizitätsakkumulation
Überwachen Sie Konversationen über mehrere Runden hinweg, um zu erkennen, wann harmlose Eingabeaufforderungen beginnen, schädliche Narrative aufzubauen.
Erkennung von Indirektheit
Trainieren oder optimieren Sie Sicherheitsschichten, um zu erkennen, wann Eingabeaufforderungen implizit statt explizit auf den vergangenen Kontext Bezug nehmen.
Fazit
Der Echo Chamber Jailbreak zeigt die nächste Herausforderung für die LLM-Sicherheit auf: Angriffe, die die Argumentation des Modells manipulieren, anstatt seine Eingabeoberfläche. Je besser Modelle in der Lage sind, Schlussfolgerungen zu ziehen, desto anfälliger werden sie für indirekte Angriffe.
Wir bei Neural Trust sind davon überzeugt, dass die Abwehr dieser Angriffe ein Umdenken in Bezug auf die Ausrichtung als mehrstufigen, kontextsensitiven Prozess erfordert. Die Zukunft einer sicheren KI hängt nicht nur davon ab, was ein Modell sieht, sondern auch davon, was es sich merkt, was es daraus schließt und wozu es überzeugt werden kann.
Fachartikel

Unsicherer Systemstart: Sicherheitslücke in initramfs erlaubt Umgehung von Linux-Bootschutz

SAP Patch Day: Juli 2025

Zweifelhafte Datensätze im Dark Web: Warum Combolists und ULP-Dateien oft keine verlässlichen Hinweise auf Sicherheitsvorfälle liefern

Ransomware-Gruppe BERT attackiert Unternehmen in Asien und Europa auf breiter Front

Streamen Sie Red Sift-Telemetriedaten an Sentinel, Splunk und mehr mit Event Hub
Studien

WatchGuard Internet Security Report: Einzigartige Malware steigt um 171 Prozent – KI-Boom treibt Bedrohungen voran

Zwei Drittel der EU-Institutionen erfüllen grundlegende Cybersicherheitsstandards nicht

Splunk-Studie: Datenflut bedroht Sicherheit und bremst KI – Deutsche Unternehmen im Spannungsfeld von Informationsexplosion und Compliance

Neue CSC-Umfrage: Überwältigende Mehrheit der CISOs rechnet in den nächsten drei Jahren mit einem Anstieg der Cyberangriffe

Accenture-Studie: Unternehmen weltweit kaum gegen KI-basierte Cyberangriffe gewappnet
Whitepaper

ISACA veröffentlicht Leitfaden zu NIS2 und DORA: Orientierungshilfe für Europas Unternehmen

CISA und US-Partner warnen kritische Infrastrukturen vor möglichen Cyberangriffen aus dem Iran

Dating-Apps: Intime Einblicke mit Folgen

Europol-Bericht warnt vor KI-Vorurteilen in der Strafverfolgung – Leitfaden für verantwortungsvollen Technologieeinsatz veröffentlicht
