Sicherheitsforscher zeigt: Prompt-Injektionen in KI-E-Mail-Clients ermöglichen Datenklau

Sicherheitsforscher des Heidelberger IT-Sicherheitsunternehmens ERNW haben in einem aktuellen Blogbeitrag auf Risiken hingewiesen, die mit KI-gestützten E-Mail-Clients verbunden sind. Konkret geht es um sogenannte Prompt-Injektionen, mit denen Angreifer E-Mails manipulieren und so sensible Daten abgreifen können.

Mit der zunehmenden Integration von KI-Assistenten in Produkte habe ERNW begonnen, seine Test- und Erkennungsrichtlinien für Sprachmodelle (LLMs) zu verfeinern. Immer mehr Kunden ließen zudem gezielt KI-Anwendungen auf ihre Sicherheit prüfen. Die Kollegen Florian Grunow und Hannes Mohr analysierten neue Angriffsvektoren und stellten ihre Ergebnisse auf der Konferenz TROOPERS24 vor.

Im Blogbeitrag, verfasst von Malte Heinzelmann und Florian Port, schildern die Forscher mehrere Exploit-Ketten in einem KI-E-Mail-Client, der Google Mail um einen ChatGPT-ähnlichen Assistenten erweitert. Sie fanden heraus, dass schädlicher Code in HTML-E-Mails versteckt werden kann und vom Modell auch dann ausgeführt wird, wenn der Nutzer nicht aktiv mit der Nachricht interagiert.

Die Untersuchung begann mit einer Analyse der Angriffsfläche aus Sicht eines Angreifers. Dazu prüften die Forscher, welche Daten und Funktionen dem LLM zur Verfügung stehen. Über die Chat-Funktion des Testkontos konnten sie Systemaufforderungen, Kontextinformationen sowie Funktionsnamen mitsamt Parametern extrahieren.

Anschließend testeten sie E-Mails mit eingebetteten Anweisungen. Schon ein einfacher Versuch zeigte Erfolg: Das Modell fügte auf Anweisung das Wort „Ente“ in eine Zusammenfassung ein. Darauf aufbauend entwickelten die Forscher komplexere Nutzlasten.

Beispiele für die getesteten Payloads:

Payload 1: Aufforderung an das Modell, alle verfügbaren Funktionen mit Parametern offenzulegen.
Payload 2: Manipulation, damit das Modell eine Phishing-Mail als legitim darstellt und Links verfälscht. Die Anweisungen wurden unsichtbar in HTML-Elementen versteckt.
Payload 3: Dauerhafte Manipulation der LLM-Memories, sodass in jeder Antwort Werbung für die Konferenz TROOPERS erscheint.
Payload 4: Abfrage des Posteingangs per Funktion search_email und Exfiltration sensibler Daten über einen präparierten Link.
Payload 5: Persistente Prompt-Injektion über die Funktion read_webpage, die es ermöglicht, Anweisungen dynamisch von einer externen Angreifer-Website nachzuladen.
Payload 6 und 7: Angriff ohne Nutzerinteraktion. Dabei wurden vordefinierte Funktionen der Shortwave-Oberfläche („Dringende E-Mails finden“ und „Posteingang organisieren“) missbraucht, um schädliche Payloads auszuführen.

Die Experimente zeigen, wie leicht sich KI-basierte E-Mail-Assistenten durch präparierte Nachrichten täuschen lassen.

Selbst ohne direkte Interaktion des Nutzers konnten Angreifer sensible Daten auslesen oder dauerhafte Manipulationen am System vornehmen.

Prompt-Injektionen: Forscher zeigen Grenzen und Sicherheitsmaßnahmen bei Shortwave

Die IT-Spezialisten von ERNW weisen in ihrem Bericht darauf hin, dass bei der Ausnutzung der entdeckten Schwachstellen bestimmte Einschränkungen zu beachten sind. So könne dieselbe Prompt-Injection-Nutzlast aufgrund der nicht-deterministischen Natur von Sprachmodellen zu unterschiedlichen Ergebnissen führen – ein Umstand, der nicht nur für die untersuchte Anwendung, sondern für alle LLMs gelte.

Zudem sei die für einige Proof-of-Concepts notwendige Webbrowser-Integration bei Shortwave standardmäßig deaktiviert. Die Wahrscheinlichkeit, dass Anwender diese Funktion aktivieren, schätzen die Forscher jedoch als hoch ein. Auch das Tool read_webpage zeige ein Bestätigungsfeld an, das sich über die Option „Nicht erneut fragen“ dauerhaft deaktivieren lasse. Ohne diese Einstellung seien manche Angriffe auf manuelle Bestätigung angewiesen.

Fazit der Untersuchung

Am Ende der Analyse stießen die Experten auf eine vergleichbare Veröffentlichung, die Googles Gemini for Workspaces betrifft. Dort verhindere jedoch das Verbot externer Webseitenaufrufe eine automatische Datenexfiltration. Zusätzlich werde beim Anklicken von Links in Modellantworten stets die vollständige URL angezeigt. Weder Google noch Shortwave rendern außerdem Bilder innerhalb der Modellausgabe, was Datenabflüsse über Bild-URLs erschwert.

Wichtige Erkenntnisse für den sicheren Umgang mit LLMs

Zero Trust: Alle Eingaben sollten als potenziell bösartig gelten, Modellantworten als nicht vertrauenswürdig.
Manipulation einkalkulieren: Sprachmodelle können zu ungewollten Aktionen verleitet werden, daher dürfen sie ohne menschliche Bestätigung keine sicherheitskritischen Aufgaben ausführen.
Datenexfiltration verhindern: Funktionen wie Bild-Rendering oder selbstständige Webanfragen sind kritisch. Nutzer sollten beim Klicken auf Links eine Warnung mit der vollständigen URL erhalten.
Alle Daten als zugänglich behandeln: Jedes vom Modell erreichbare Datum muss als potenziell für den Nutzer abrufbar gelten.
LLMs als Vermittler: Die Berechtigungen eines Modells dürfen niemals über die des Nutzers hinausgehen.

Reaktion von Shortwave

Das Unternehmen hat auf die Meldung reagiert und mehrere Änderungen umgesetzt:

Speicheraktualisierungen werden nun detailliert angezeigt.
Beim Öffnen von Links erscheint ein Hinweisfenster mit Warnung und vollständiger URL.
Die Systemaufforderung wurde verstärkt, um auf versteckte Anweisungen hinzuweisen.
Die Webbrowser-Integration ist nun eine kostenpflichtige Zusatzfunktion.

Zeitplan der Offenlegung

22. Juli 2025: Meldung des Problems an Shortwave.
23. Juli 2025: Bestätigung des Eingangs durch den Anbieter.
14. August 2025: Mitteilung über implementierte Sicherheitsmaßnahmen.
02. September 2025: Öffentliche Veröffentlichung des Blogbeitrags.

Die Forscher bedanken sich ausdrücklich für die konstruktive Zusammenarbeit mit dem Anbieter.

Lesen Sie auch

Forscher durchbrechen GPT-5 mit Echo-Chamber- und Storytelling-Angriffen

Hacker missbrauchen Fehlkonfiguration in KI-Tool – Sysdig deckt Angriff auf Open WebUI auf

Apigee und die Zukunft der KI-Integration: Wie das Model Context Protocol die agentenbasierte Entwicklung prägt

So lässt sich Secure Boot unter Gentoo Linux einrichten

Bild/Quelle: https://depositphotos.com/de/home.html

Folgen Sie uns auf X

Folgen Sie uns auf Bluesky

Sicherheitsforscher zeigt: Prompt-Injektionen in KI-E-Mail-Clients ermöglichen Datenklau

Prompt-Injektionen: Forscher zeigen Grenzen und Sicherheitsmaßnahmen bei Shortwave

Fazit der Untersuchung

Fachartikel

ShinyHunters-Angriffe: Mandiant zeigt wirksame Schutzmaßnahmen gegen SaaS-Datendiebstahl

Phishing-Angriff: Cyberkriminelle missbrauchen Microsoft-Infrastruktur für Betrugsmaschen

Wie Angreifer proprietäre KI-Modelle über normale API-Zugriffe stehlen können

KI-Agenten in cyber-physischen Systemen: Wie Deepfakes und MCP neue Sicherheitslücken öffnen

Sicherheitslücke in Cursor-IDE: Shell-Befehle werden zur Angriffsfläche

Studien

Deutsche Unicorn-Gründer bevorzugen zunehmend den Standort Deutschland

IT-Modernisierung entscheidet über KI-Erfolg und Cybersicherheit

Neue ISACA-Studie: Datenschutzbudgets werden trotz steigender Risiken voraussichtlich schrumpfen

Cybersecurity-Jahresrückblick: Wie KI-Agenten und OAuth-Lücken die Bedrohungslandschaft 2025 veränderten

Phishing-Studie deckt auf: [EXTERN]-Markierung schützt Klinikpersonal kaum

Whitepaper

DigiCert veröffentlicht RADAR-Bericht für Q4 2025

Koordinierte Cyberangriffe auf polnische Energieinfrastruktur im Dezember 2025

Künstliche Intelligenz bedroht demokratische Grundpfeiler

Insider-Risiken in Europa: 84 Prozent der Hochrisiko-Organisationen unzureichend vorbereitet

ETSI veröffentlicht weltweit führenden Standard für die Sicherung von KI

Hamsterrad-Rebell

NIS2: „Zum Glück gezwungen“ – mit OKR-basiertem Vorgehen zum nachhaltigen Erfolg

Cyberversicherung ohne Datenbasis? Warum CIOs und CISOs jetzt auf quantifizierbare Risikomodelle setzen müssen

Identity Security Posture Management (ISPM): Rettung oder Hype?

Platform Security: Warum ERP-Systeme besondere Sicherheitsmaßnahmen erfordern

Daten in eigener Hand: Europas Souveränität im Fokus