Brainworm: Wenn KI-Agenten durch natürliche Sprache zur Waffe werden

In einem Beitrag von Mitchell Turner wird eine neue Art von Schadsoftware vorgestellt, die vollständig im Kontextfenster eines KI-Agenten operiert. Brainworm benötigt weder ausführbare Dateien noch Skripte – es genügt manipulierter Text in einer Konfigurationsdatei, um einen Agenten wie Claude Code unter fremde Kontrolle zu bringen.

Brainworm: KI-Agenten als Angriffsfläche für semantische Malware

Die Sicherheitsforschung rund um sogenannte Computer-Use-Agents (CUAs) hat ein neues Kapitel aufgeschlagen. Mit Brainworm wurde eine Klasse von Schadsoftware demonstriert, die ausschließlich aus natürlicher Sprache besteht und dennoch vollständige Kontrolle über einen KI-Agenten erlangen kann – gesteuert über ein eigens entwickeltes Command-and-Control-Framework namens Praxis.

Von Creeper zu Brainworm: eine Parallele

Der historische Ausgangspunkt ist bewusst gewählt: 1971 veröffentlichte Bob Thomas im ARPANET das Programm Creeper – den ersten bekannten Computerwurm, der sich zwischen Großrechnern bewegte und eine Textnachricht hinterließ. Ray Tomlinson entwickelte daraufhin Reaper, das erste Antivirenprogramm. Die Idee hinter Brainworm knüpft konzeptuell an Creeper an, überträgt das Prinzip aber in eine neue technologische Realität: die der großen Sprachmodelle und ihrer Agenten.

Was Brainworm tut – und wie

Brainworm nutzt eine Funktion, die CUAs wie Claude Code, Gemini CLI oder OpenAI Codex gemeinsam haben: sitzungsübergreifende Speicherdateien. Diese Dateien – je nach Plattform CLAUDE.md, GEMINI.md oder AGENTS.md – werden beim Start einer neuen Sitzung automatisch geladen, sofern das Projekt vom Nutzer als vertrauenswürdig eingestuft wurde.

Der Angriff läuft in folgenden Schritten ab:

Eine manipulierte Speicherdatei wird im Projektverzeichnis oder Home-Verzeichnis des Nutzers platziert
Beim nächsten Sitzungsstart liest der Agent die Datei automatisch ein
Die darin enthaltene Spezifikation in natürlicher Sprache weist den Agenten an, sich bei einem Praxis-C2-Server zu registrieren
Anschließend sendet der Agent regelmäßige Heartbeats und empfängt Aufgaben vom Angreifer
Die empfangenen Befehle werden vom Agenten mit dessen eigenen Tools ausgeführt – darunter Bash, WebFetch und Dateisystemoperationen

Der algorithmische Ablauf eines Praxis-Knotens entspricht dabei klassischen Malware-Architekturen:

Registrierung beim C2-Server
Heartbeat-Schleife
Aufgabe abrufen
Aufgabe ausführen
Antwort zurücksenden

Semantische Steuerung statt Binärcode

Das Besondere an Brainworm ist, dass zu keinem Zeitpunkt ausführbarer Code auf dem Hostsystem geschrieben oder abgelegt wird. Stattdessen enthält die Speicherdatei eine detaillierte Verhaltensbeschreibung – eine sogenannte Spec-Driven-Specification –, die dem Agenten vorschreibt, wie er sich zu verhalten hat. Diese Technik, auch „Spec-Driven Development“ genannt, wird normalerweise genutzt, um KI-Agenten bei der Implementierung von Software zu leiten.

Die Spezifikation enthält unter anderem:

Protokolldetails zur Kommunikation mit dem Praxis-C2-Server über RabbitMQ
Anweisungen zum Aufrufen von Sub-Agenten für die Payload-Ausführung
Formulierungen, die das Modell dazu bringen sollen, die Anweisungen als legitim einzustufen
Umgehungshinweise, etwa das Deaktivieren einer Umgebungsvariable, die Claude Code eigentlich daran hindert, sich selbst als Unterprozess zu starten

Grafiken Quelle: Mitchell Turner

Einschränkungen und Transparenz

Brainworm ist nach Aussage Turners absichtlich nicht auf Tarnung ausgelegt. Die Aktivitäten des Agenten – Registrierung, Signalübertragung, Aufgabenausführung – sind in der Kommandozeile für den Nutzer sichtbar. Experimente mit einem SessionStart-Hook hätten gezeigt, dass sich die Aktivitäten prinzipiell vollständig verbergen lassen. Der Fokus des Projekts lag jedoch auf der Frage, wie weit semantische Mittel allein reichen – ohne zusätzliche Konfigurationsausbeutung.

Warum bestehende Sicherheitslösungen nicht greifen

Brainworm stellt die etablierte Endpoint-Security vor ein strukturelles Problem:

Signatur-Scanner prüfen auf bekannte Codemuster – Brainworm besteht ausschließlich aus Text
Verhaltensbasierte Erkennung setzt auf die Analyse von Prozessen und Systemaufrufen – die Tool-Aufrufe eines infizierten Agenten sind von legitimen Vorgängen nicht zu unterscheiden
EDR-Lösungen (Endpoint Detection and Response) setzen voraus, dass Malware Code auf dem Host ausführt – das ist hier nicht der Fall
Dateiüberwachung der Speicherdateien ist kaum umsetzbar, da sich keine zuverlässigen Regeln für natürlichsprachliche Inhalte formulieren lassen, die über einfache reguläre Ausdrücke hinausgehen

Hinzu kommt: Speicherdateien können auch über andere Wege manipuliert werden – etwa durch vergiftete GitHub-Issues, manipulierte Webinhalte in Rechercheagenten oder durch Einflussnahme auf Trainingsdaten.

Das Vertrauensproblem im Kontextfenster

CUAs behandeln alle Eingaben in ihrem Kontextfenster – Systemprompts, Nutzernachrichten, Speicherdateien, abgerufene Inhalte – als gleichwertig vertrauenswürdig. Es gibt keinen internen Mechanismus, der ein Tool-Ergebnis als weniger autoritativ einstuft als eine Systemanweisung.

Modellanbieter versuchen, diesem Problem mit Klassifikatoren und gezieltem Training zu begegnen. Laut bestehender Fachliteratur ist es jedoch fraglich, ob sich Modelle vollständig aus semantischen Angriffsmustern heraustrainieren lassen. Reasoning-Modelle sollen dabei tendenziell leichter zu unerwünschten Handlungen rationalisierbar sein.

Mögliche Gegenmaßnahmen und ihre Grenzen:

Explizite Nutzerfreigabe vor jeder Tool-Ausführung schützt zwar, verlangsamt aber automatisierte Workflows erheblich – viele Nutzer deaktivieren diese Kontrollen bewusst
Sandboxing und Containerisierung isolieren die Auswirkungen eines kompromittierten Kontextfensters, schränken aber gleichzeitig den Ressourcenzugriff ein, der für den Agenten essenziell ist
Lieferkettensicherheit für Speicherdateien wird notwendig, da diese als Abhängigkeiten in CUA-Workflows fungieren und sowohl upstream als auch durch Prompt-Injection vergiftet werden können

Fazit

Turner demonstriert mit Brainworm, dass das Kontextfenster eines KI-Agenten heute als eigenständige Vertrauensdomäne behandelt werden muss.

Weder klassische Endpoint-Security noch einfache Zugriffskontrollen reichen aus, um Angriffe auf dieser Ebene zuverlässig abzuwehren.

Die zentrale offene Frage lautet: Wie lässt sich eine Vertrauensdomäne schützen, in der sich ein Angreifer – systembedingt – von Anfang an befindet?

„Die in diesem Beitrag veröffentlichten Informationen wurden sorgfältig recherchiert. Dennoch übernehmen wir keine Gewähr für Vollständigkeit oder absolute Richtigkeit. Die Inhalte dienen der allgemeinen Orientierung und ersetzen keine fachkundige Beratung. Für etwaige Fehler, Auslassungen oder Folgen aus der Nutzung der Informationen übernimmt die Redaktion keine Haftung. Trotz sorgfältiger Prüfung können vereinzelt unbeabsichtigte Fehler oder Ungenauigkeiten, etwa bei Übersetzungen, auftreten.“

Bild/Quelle: https://depositphotos.com/de/home.html

Folgen Sie uns auf X

Folgen Sie uns auf Bluesky

Folgen Sie uns auf Mastodon

Hamsterrad Rebell – Cyber Talk

Brainworm: Wenn KI-Agenten durch natürliche Sprache zur Waffe werden

Brainworm: KI-Agenten als Angriffsfläche für semantische Malware

Von Creeper zu Brainworm: eine Parallele

Was Brainworm tut – und wie

Semantische Steuerung statt Binärcode

Einschränkungen und Transparenz

Warum bestehende Sicherheitslösungen nicht greifen

Das Vertrauensproblem im Kontextfenster

Fazit

Fachartikel

KI im SAP-Custom-Code: Sicherheitsrisiken erkennen und gezielt absichern

Zero-Day-Exploits 2025: 90 Schwachstellen, mehr Unternehmensziele, KI als neuer Faktor

Brainworm: Wenn KI-Agenten durch natürliche Sprache zur Waffe werden

Mozilla und Anthropic: Gemeinsame KI-Analyse macht Firefox sicherer

RC4-Deaktivierung – so müssen Sie jetzt handeln

Studien

Sieben Regierungen einigen sich auf 6G-Sicherheitsrahmen

Lieferkettenkollaps und Internetausfall: Unternehmen rechnen mit dem Unwahrscheinlichen

KI als Werkzeug für schnelle, kostengünstige Cyberangriffe

KI beschleunigt Cyberangriffe: IBM X-Force warnt vor wachsenden Schwachstellen in Unternehmen

Finanzsektor unterschätzt Cyber-Risiken: Studie offenbart strukturelle Defizite in der IT-Sicherheit

Whitepaper

Cloudflare Threat Report 2026: Ransomware beginnt mit dem Login – KI und Botnetze treiben die Industrialisierung von Cyberangriffen

EBA-Folgebericht: Fortschritte bei IKT-Risikoaufsicht unter DORA – weitere Harmonisierung nötig

Böswillige KI-Nutzung erkennen und verhindern: Anthropics neuer Bedrohungsbericht mit Fallstudien

Third Party Risk Management – auch das Procurement benötigt technische Unterstützung

EU-Toolbox für IKT-Lieferkettensicherheit: Gemeinsamer Rahmen zur Risikominderung

Hamsterrad-Rebell

Sicherer Remote-Zugriff (SRA) für Operational Technology (OT) und industrielle Steuerungs- und Produktionssysteme (ICS) – Teil 2

Incident Response Retainer – worauf sollte man achten?

KI‑basierte E‑Mail‑Angriffe: Einfach gestartet, kaum zu stoppen

NIS2: „Zum Glück gezwungen“ – mit OKR-basiertem Vorgehen zum nachhaltigen Erfolg

Cyberversicherung ohne Datenbasis? Warum CIOs und CISOs jetzt auf quantifizierbare Risikomodelle setzen müssen