
Sicherheitsforschern von NeuralTrust ist es gelungen, das KI-Sprachmodell Grok-4 von X mit einem raffinierten Jailbreak-Angriff auszuhebeln. Dabei kombinierten sie zwei fortschrittliche Exploit-Techniken – Echo Chamber und Crescendo – zu einer wirksamen Angriffsmethode, mit der sie die Sicherheitsmechanismen des Systems umgehen konnten.
LLM-Jailbreak: Kombinierte Angriffe erhöhen Wirksamkeit
Laut dem aktuellen Bericht der IT-Sicherheitsforscher entwickeln sich Jailbreak-Angriffe auf große Sprachmodelle (LLMs) nicht nur einzeln weiter – sie lassen sich auch wirkungsvoll miteinander kombinieren. In diesem Beitrag präsentieren die Forscher ein konkretes Beispiel für eine solche Angriffskombination.
Bereits vor einigen Wochen stellten sie den sogenannten Echo Chamber Attack vor. Dabei wird ein Sprachmodell so manipuliert, dass es einen gezielt vergifteten Kontext wiederholt und dadurch seine eigenen Sicherheitsvorkehrungen unterläuft. Dieser Angriff wurde erfolgreich an mehreren LLMs getestet.
Im nun veröffentlichten Blogbeitrag gehen die Forscher einen Schritt weiter: Sie kombinieren Echo Chamber mit der Technik Crescendo. Ziel ist es, die Angriffsstrategie zu verstärken – demonstriert wird dies am Modell Grok-4.
Kombinierter Angriff im Test
Konkret nutzten die Forscher die kombinierte Methode, um das Modell dazu zu bringen, Anweisungen zur Herstellung eines Molotowcocktails preiszugeben – ein Beispiel, das bereits in der ursprünglichen Crescendo-Veröffentlichung verwendet wurde.
Zu Beginn wurde Echo Chamber mit einer Mischung aus toxischen und steuernden Seeds ausgeführt. Im ersten Versuch waren die steuernden Elemente zu stark ausgeprägt, was dazu führte, dass das Modell die Anfrage als bösartig erkannte und blockierte. Beim zweiten Versuch setzten die Forscher mildere steuernde Seeds ein und folgten dem vollständigen Echo-Chamber-Prozess: Einführung des manipulierten Kontexts, Auswahl eines passenden Gesprächspfads und Einleitung des Überzeugungszyklus.
Zwar brachte der Überzeugungszyklus das Modell näher an das gewünschte, schädliche Ergebnis – allein reichte er jedoch nicht aus. Erst durch den Einsatz von Crescendo in zwei zusätzlichen Schritten gelang es, die Schutzmechanismen vollständig zu umgehen und die gewünschte Antwort zu erhalten.
Ermutigt durch diesen Erfolg, testeten die Forscher die Methode an weiteren Beispielen, um deren Übertragbarkeit auf andere schädliche Ziele zu überprüfen.
Beispiel für das Erreichen des Ziels in Grok 3 und Schritt-für-Schritt-Anleitung zur Herstellung eines Molotow-Cocktails. Aus Sicherheitsgründen haben wir das Bild unscharf gemacht. / Grafik Quelle: NeuralTrust
Abbildung 2: Erfolgreiche Instanz von Grok-4, die während eines kombinierten Echo-Chamber- und Crescendo-Angriffs schädliche Ergebnisse im Zusammenhang mit dem Molotow-Ziel produziert. / Grafik Quelle: NeuralTrust
Integration von Echo Chamber und Crescendo: Kombinierter Ablauf im Überblick
Wie bereits im vorangegangenen Blogbeitrag zu Echo Chamber beschrieben, lässt sich diese Angriffstechnik problemlos mit anderen Methoden kombinieren. Abbildung 2 zeigt einen vereinfachten Ablauf, der das Zusammenspiel zwischen Echo Chamber und Crescendo veranschaulicht.
Der Angriff beginnt mit Echo Chamber, das im Rahmen des Überzeugungszyklus eine zusätzliche Prüfung einführt. Ziel ist es, sogenannte „veraltete“ Fortschritte zu identifizieren – also Gesprächsverläufe, die sich nicht mehr wirksam in Richtung des gewünschten Ziels bewegen. In solchen Fällen setzt Crescendo ein, um dem Angriff neuen Impuls zu geben.
Dieser zusätzliche Schub führt in der Regel innerhalb von zwei Iterationen zum Erfolg. An diesem Punkt erkennt das Modell entweder die schädliche Absicht und verweigert die Antwort – oder der Angriff gelingt, und das Modell gibt eine schädliche Ausgabe preis.
Workflow, der die Integration von Echo Chamber und Crescendo zur Steigerung der Wirksamkeit des Angriffs veranschaulicht. / Grafik Quelle: NeuralTrust
Fazit der IT-Sicherheitsforscher: Kombinierte Angriffstechnik offenbart kritische Schwachstelle
Die Forscher konnten zeigen, dass die Kombination der Techniken Echo Chamber und Crescendo die Wirksamkeit von adversarial prompting deutlich erhöht. Durch den Einsatz dieser Methode auf das Sprachmodell Grok-4 gelang es, das System zu überwinden und schädliche Ziele zu erreichen – ohne dabei eine explizit bösartige Eingabe zu verwenden.
Das Ergebnis legt eine zentrale Schwachstelle offen: Solche Angriffe können bestehende Filtermechanismen, die auf Absicht oder Schlüsselwörtern basieren, umgehen. Statt direkter, schädlicher Eingaben nutzen sie den weiteren Konversationskontext gezielt aus.
Die Ergebnisse verdeutlichen, wie entscheidend es ist, Abwehrmechanismen großer Sprachmodelle auch in mehrstufigen Dialogen zu bewerten – insbesondere dort, wo subtile und anhaltende Manipulationen zu unerwartetem Verhalten des Modells führen können.
Fachartikel

Solaranlagen im Visier von Hackern: Wie veraltete Protokolle die Energiewende gefährden

Wie Cyberkriminelle Microsoft-Nutzer mit gefälschten Gerätecodes täuschen

OpenAI präsentiert GPT-5.2-Codex: KI-Revolution für autonome Softwareentwicklung und IT-Sicherheit

Speicherfehler in Live-Systemen aufspüren: GWP-ASan macht es möglich

Geparkte Domains als Einfallstor für Cyberkriminalität: Über 90 Prozent leiten zu Schadsoftware weiter
Studien
![Featured image for “Phishing-Studie deckt auf: [EXTERN]-Markierung schützt Klinikpersonal kaum”](https://www.all-about-security.de/wp-content/uploads/2025/12/phishing-4.jpg)
Phishing-Studie deckt auf: [EXTERN]-Markierung schützt Klinikpersonal kaum

Gartner-Umfrage: Mehrheit der nicht geschäftsführenden Direktoren zweifelt am wirtschaftlichen Wert von Cybersicherheit

49 Prozent der IT-Verantwortlichen in Sicherheitsirrtum

Deutschland im Glasfaserausbau international abgehängt

NIS2 kommt – Proliance-Studie zeigt die Lage im Mittelstand
Whitepaper

State of Cloud Security Report 2025: Cloud-Angriffsfläche wächst schnell durch KI

BITMi zum Gutachten zum Datenzugriff von US-Behörden: EU-Unternehmen als Schlüssel zur Datensouveränität

Agentic AI als Katalysator: Wie die Software Defined Industry die Produktion revolutioniert

OWASP veröffentlicht Security-Framework für autonome KI-Systeme

Malware in Bewegung: Wie animierte Köder Nutzer in die Infektionsfalle locken
Hamsterrad-Rebell

Platform Security: Warum ERP-Systeme besondere Sicherheitsmaßnahmen erfordern

Daten in eigener Hand: Europas Souveränität im Fokus

Sicherer Remote-Zugriff (SRA) für Operational Technology (OT) und industrielle Steuerungs- und Produktionssysteme (ICS)

Identity und Access Management (IAM) im Zeitalter der KI-Agenten: Sichere Integration von KI in Unternehmenssysteme










