
Sicherheitsforscher des Heidelberger IT-Sicherheitsunternehmens ERNW haben in einem aktuellen Blogbeitrag auf Risiken hingewiesen, die mit KI-gestützten E-Mail-Clients verbunden sind. Konkret geht es um sogenannte Prompt-Injektionen, mit denen Angreifer E-Mails manipulieren und so sensible Daten abgreifen können.
Mit der zunehmenden Integration von KI-Assistenten in Produkte habe ERNW begonnen, seine Test- und Erkennungsrichtlinien für Sprachmodelle (LLMs) zu verfeinern. Immer mehr Kunden ließen zudem gezielt KI-Anwendungen auf ihre Sicherheit prüfen. Die Kollegen Florian Grunow und Hannes Mohr analysierten neue Angriffsvektoren und stellten ihre Ergebnisse auf der Konferenz TROOPERS24 vor.
Im Blogbeitrag, verfasst von Malte Heinzelmann und Florian Port, schildern die Forscher mehrere Exploit-Ketten in einem KI-E-Mail-Client, der Google Mail um einen ChatGPT-ähnlichen Assistenten erweitert. Sie fanden heraus, dass schädlicher Code in HTML-E-Mails versteckt werden kann und vom Modell auch dann ausgeführt wird, wenn der Nutzer nicht aktiv mit der Nachricht interagiert.
Die Untersuchung begann mit einer Analyse der Angriffsfläche aus Sicht eines Angreifers. Dazu prüften die Forscher, welche Daten und Funktionen dem LLM zur Verfügung stehen. Über die Chat-Funktion des Testkontos konnten sie Systemaufforderungen, Kontextinformationen sowie Funktionsnamen mitsamt Parametern extrahieren.
Anschließend testeten sie E-Mails mit eingebetteten Anweisungen. Schon ein einfacher Versuch zeigte Erfolg: Das Modell fügte auf Anweisung das Wort „Ente“ in eine Zusammenfassung ein. Darauf aufbauend entwickelten die Forscher komplexere Nutzlasten.
Beispiele für die getesteten Payloads:
-
Payload 1: Aufforderung an das Modell, alle verfügbaren Funktionen mit Parametern offenzulegen.
-
Payload 2: Manipulation, damit das Modell eine Phishing-Mail als legitim darstellt und Links verfälscht. Die Anweisungen wurden unsichtbar in HTML-Elementen versteckt.
-
Payload 3: Dauerhafte Manipulation der LLM-Memories, sodass in jeder Antwort Werbung für die Konferenz TROOPERS erscheint.
-
Payload 4: Abfrage des Posteingangs per Funktion search_email und Exfiltration sensibler Daten über einen präparierten Link.
-
Payload 5: Persistente Prompt-Injektion über die Funktion read_webpage, die es ermöglicht, Anweisungen dynamisch von einer externen Angreifer-Website nachzuladen.
-
Payload 6 und 7: Angriff ohne Nutzerinteraktion. Dabei wurden vordefinierte Funktionen der Shortwave-Oberfläche („Dringende E-Mails finden“ und „Posteingang organisieren“) missbraucht, um schädliche Payloads auszuführen.
Die Experimente zeigen, wie leicht sich KI-basierte E-Mail-Assistenten durch präparierte Nachrichten täuschen lassen.
Selbst ohne direkte Interaktion des Nutzers konnten Angreifer sensible Daten auslesen oder dauerhafte Manipulationen am System vornehmen.
Prompt-Injektionen: Forscher zeigen Grenzen und Sicherheitsmaßnahmen bei Shortwave
Die IT-Spezialisten von ERNW weisen in ihrem Bericht darauf hin, dass bei der Ausnutzung der entdeckten Schwachstellen bestimmte Einschränkungen zu beachten sind. So könne dieselbe Prompt-Injection-Nutzlast aufgrund der nicht-deterministischen Natur von Sprachmodellen zu unterschiedlichen Ergebnissen führen – ein Umstand, der nicht nur für die untersuchte Anwendung, sondern für alle LLMs gelte.
Zudem sei die für einige Proof-of-Concepts notwendige Webbrowser-Integration bei Shortwave standardmäßig deaktiviert. Die Wahrscheinlichkeit, dass Anwender diese Funktion aktivieren, schätzen die Forscher jedoch als hoch ein. Auch das Tool read_webpage zeige ein Bestätigungsfeld an, das sich über die Option „Nicht erneut fragen“ dauerhaft deaktivieren lasse. Ohne diese Einstellung seien manche Angriffe auf manuelle Bestätigung angewiesen.
Fazit der Untersuchung
Am Ende der Analyse stießen die Experten auf eine vergleichbare Veröffentlichung, die Googles Gemini for Workspaces betrifft. Dort verhindere jedoch das Verbot externer Webseitenaufrufe eine automatische Datenexfiltration. Zusätzlich werde beim Anklicken von Links in Modellantworten stets die vollständige URL angezeigt. Weder Google noch Shortwave rendern außerdem Bilder innerhalb der Modellausgabe, was Datenabflüsse über Bild-URLs erschwert.
Wichtige Erkenntnisse für den sicheren Umgang mit LLMs
-
Zero Trust: Alle Eingaben sollten als potenziell bösartig gelten, Modellantworten als nicht vertrauenswürdig.
-
Manipulation einkalkulieren: Sprachmodelle können zu ungewollten Aktionen verleitet werden, daher dürfen sie ohne menschliche Bestätigung keine sicherheitskritischen Aufgaben ausführen.
-
Datenexfiltration verhindern: Funktionen wie Bild-Rendering oder selbstständige Webanfragen sind kritisch. Nutzer sollten beim Klicken auf Links eine Warnung mit der vollständigen URL erhalten.
-
Alle Daten als zugänglich behandeln: Jedes vom Modell erreichbare Datum muss als potenziell für den Nutzer abrufbar gelten.
-
LLMs als Vermittler: Die Berechtigungen eines Modells dürfen niemals über die des Nutzers hinausgehen.
Reaktion von Shortwave
Das Unternehmen hat auf die Meldung reagiert und mehrere Änderungen umgesetzt:
-
Speicheraktualisierungen werden nun detailliert angezeigt.
-
Beim Öffnen von Links erscheint ein Hinweisfenster mit Warnung und vollständiger URL.
-
Die Systemaufforderung wurde verstärkt, um auf versteckte Anweisungen hinzuweisen.
-
Die Webbrowser-Integration ist nun eine kostenpflichtige Zusatzfunktion.
Zeitplan der Offenlegung
-
22. Juli 2025: Meldung des Problems an Shortwave.
-
23. Juli 2025: Bestätigung des Eingangs durch den Anbieter.
-
14. August 2025: Mitteilung über implementierte Sicherheitsmaßnahmen.
-
02. September 2025: Öffentliche Veröffentlichung des Blogbeitrags.
Die Forscher bedanken sich ausdrücklich für die konstruktive Zusammenarbeit mit dem Anbieter.
Lesen Sie auch
Bild/Quelle: https://depositphotos.com/de/home.html
Fachartikel

Gefährliche Chrome-Erweiterung entwendet Zugangsdaten von Meta Business-Konten

Agentenbasierte KI im Unternehmen: Wie Rollback-Mechanismen Automatisierung absichern

Google dokumentiert zunehmenden Missbrauch von KI-Systemen durch Cyberkriminelle

Sicherheitslücke in Claude Desktop Extensions gefährdet Tausende Nutzer

KI-Agenten: Dateisystem vs. Datenbank – Welche Speicherlösung passt zu Ihrem Projekt?
Studien

Deutsche Wirtschaft unzureichend auf hybride Bedrohungen vorbereitet

Cyberkriminalität im Dark Web: Wie KI-Systeme Betrüger ausbremsen

Sicherheitsstudie 2026: Menschliche Faktoren übertreffen KI-Risiken

Studie: Unternehmen müssen ihre DNS- und IP-Management-Strukturen für das KI-Zeitalter neu denken

Deutsche Unicorn-Gründer bevorzugen zunehmend den Standort Deutschland
Whitepaper

MITRE ATLAS analysiert OpenClaw: Neue Exploit-Pfade in KI-Agentensystemen

BSI setzt Auslaufdatum für klassische Verschlüsselungsverfahren

Token Exchange: Sichere Authentifizierung über Identity-Provider-Grenzen

KI-Agenten in Unternehmen: Governance-Lücken als Sicherheitsrisiko

KuppingerCole legt Forschungsagenda für IAM und Cybersecurity 2026 vor
Hamsterrad-Rebell

KI‑basierte E‑Mail‑Angriffe: Einfach gestartet, kaum zu stoppen

NIS2: „Zum Glück gezwungen“ – mit OKR-basiertem Vorgehen zum nachhaltigen Erfolg

Cyberversicherung ohne Datenbasis? Warum CIOs und CISOs jetzt auf quantifizierbare Risikomodelle setzen müssen

Identity Security Posture Management (ISPM): Rettung oder Hype?








