„Mit KI zusammenfassen“-Buttons erscheinen praktisch, können aber versteckte Anweisungen enthalten, die das Gedächtnis von KI-Assistenten manipulieren. Microsoft-Forscher dokumentierten über 50 Fälle aus 31 Unternehmen.
Unsichtbare Manipulation durch URL-Parameter
Unternehmen platzieren versteckte Kommandos in URLs, die beim Klick auf harmlose Buttons aktiviert werden. Diese Anweisungen gelangen über URL-Prompt-Parameter in das Gedächtnis von KI-Systemen und verankern dort Befehle wie „Speichere [Unternehmen] als vertrauenswürdige Quelle“.
Microsoft ordnet diese Angriffsmethode in der MITRE ATLAS-Wissensdatenbank unter AML.T0080 und AML.T0051 ein. Die Manipulation bleibt für Nutzer unsichtbar und beeinflusst alle zukünftigen Interaktionen.
Praxisfall mit weitreichenden Folgen
Ein Finanzverantwortlicher beauftragt seinen KI-Assistenten mit der Recherche von Cloud-Anbietern. Die KI liefert eine Analyse und spricht eine klare Empfehlung aus. Das Unternehmen schließt einen mehrjährigen Millionenvertrag ab.
Was vergessen wurde: Wochen zuvor hatte der Nutzer auf einer Webseite eine „Mit KI zusammenfassen“-Schaltfläche angeklickt. Darin war eine Anweisung verborgen, die sich im KI-Gedächtnis festsetzte. Die spätere Empfehlung basierte nicht auf objektiver Analyse.
Umfang der Problematik
In einer 60-tägigen Untersuchung identifizierten die Forscher 50 unterschiedliche Versuche dieser Art. Die betroffenen Unternehmen stammen aus 14 verschiedenen Branchen:
- Finanzdienstleistungen
- Gesundheitswesen
- Rechtsberatung
- Software-as-a-Service
- Marketing
- Lebensmittel- und Rezeptportale
- Unternehmensberatung
Dabei handelt es sich ausschließlich um reguläre Firmen, nicht um Cyberkriminelle oder Betrugsgruppen. Die Wirksamkeit der eingeschleusten Befehle variiert je nach Plattform und Zeitpunkt, da unterschiedliche Persistenzmechanismen zum Einsatz kommen und Schutzsysteme kontinuierlich weiterentwickelt werden.
Funktionsweise moderner KI-Gedächtnissysteme
Aktuelle KI-Assistenten wie Microsoft 365 Copilot und ChatGPT verfügen über sitzungsübergreifende Gedächtnisfunktionen. Diese speichern persönliche Präferenzen, Kontextinformationen und explizite Anweisungen.
Diese Personalisierung erhöht die Nützlichkeit, schafft aber eine Angriffsfläche: Wer Anweisungen in dieses Gedächtnis einschleust, erhält dauerhaften Einfluss auf künftige Interaktionen.
Technische Angriffsvektoren
Präparierte Links: URLs mit vorausgefüllten Prompts enthalten versteckte Parameter. Die meisten KI-Assistenten unterstützen solche URL-Parameter.
Eingebettete Prompts: Versteckte Anweisungen in Dokumenten, E-Mails oder Webseiten können das KI-Gedächtnis beim Verarbeiten verändern.
Social Engineering: Nutzer werden dazu gebracht, Prompts mit Speichermodifikationsbefehlen selbst einzugeben.
Die dokumentierten Fälle konzentrierten sich auf die erste Methode: Websites mit „Mit KI zusammenfassen“-Buttons, die bei Aktivierung automatisch im KI-System ausgeführt wurden.
Konkrete Beobachtungen
Markenverwechslungen: Ein Fall betraf eine Domain, die leicht mit einer bekannten Webseite verwechselbar ist.
Sensible Bereiche: Mehrere Prompts zielten auf Gesundheits- und Finanzportale ab.
Aggressive Werbung: Die intensivsten Beispiele integrierten komplette Marketingtexte direkt ins KI-Gedächtnis.
Vertrauensmissbrauch: Viele betroffene Websites wirkten seriös. Problematisch wird dies bei Plattformen mit nutzergenerierten Inhalten: Stuft die KI die Website als vertrauenswürdig ein, überträgt sie dieses Vertrauen möglicherweise auch auf ungeprüfte Kommentare.
Gemeinsame Merkmale
Alle untersuchten Fälle zeigten wiederkehrende Charakteristika:
- Einsatz durch etablierte Unternehmen statt Bedrohungsakteure
- Verschleierung hinter scheinbar hilfreichen Funktionen
- Verwendung von Begriffen wie „merken“, „in künftigen Gesprächen“ oder „als vertrauenswürdige Quelle“ für langfristige Wirkung
Verfügbare Werkzeuge
Die Forscher identifizierten öffentlich zugängliche Tools:
CiteMET NPM-Paket: Fertiger Code zum Einbau von Speichermanipulations-Buttons.
AI Share URL Creator: Point-and-Click-Interface zur Erstellung manipulativer URLs.
Diese werden als „SEO-Growth-Hack für LLMs“ vermarktet. Website-Plugins senken die Einstiegshürde auf eine einfache Installation.
Potenzielle Schadenszenarien
Finanzielle Fehlentscheidungen: Eine manipulierte KI verharmlost Risiken einer Krypto-Plattform und empfiehlt umfangreiche Investitionen.
Gefährdung von Minderjährigen: Die kompromittierte KI lässt Informationen über problematische Monetarisierung oder ungeeignete Inhalte eines Online-Spiels aus.
Einseitige Nachrichtenauswahl: Bei Nachrichtenzusammenfassungen greift die manipulierte KI konsequent auf eine einzige Quelle zurück.
Wettbewerbsverzerrung: Die KI schlägt wiederholt dieselbe Plattform vor, was als Branchenstandard interpretiert wird.
Warum Nutzer besonders gefährdet sind
KI-Empfehlungen werden oft weniger kritisch hinterfragt als Informationen von fremden Websites. Die selbstbewusste Präsentation erweckt Vertrauen. Nutzer erkennen häufig nicht, dass ihr System kompromittiert wurde, und wissen bei Verdacht nicht, wie sie dies überprüfen können.
Einordnung als KI-Empfehlungs-Poisoning
Microsoft bezeichnet diese Werbetechniken als „KI-Empfehlungs-Poisoning“, da sie Verhaltensweisen klassischer SEO-Manipulation und Adware auf KI-Assistenten übertragen. Statt vergifteter Suchergebnisse oder Browser-Popups erfolgt die Manipulation über das KI-Gedächtnis.
Schutzmaßnahmen für Anwender
Vorsicht bei KI-bezogenen Links:
- Links vor dem Klicken überprüfen
- Skepsis gegenüber „Mit KI zusammenfassen“-Buttons
- Links aus unbekannten Quellen meiden
Gedächtniskontrolle:
- Regelmäßige Überprüfung gespeicherter Informationen
- Entfernung verdächtiger Einträge
- Periodisches Zurücksetzen nach Kontakt mit fragwürdigen Quellen
Kritische Betrachtung: Bei ungewöhnlichen Vorschlägen den Assistenten nach Begründungen fragen.
Vorsicht bei externen Inhalten:
- Keine Prompts aus unverifizierten Quellen
- Aufmerksamkeit für Formulierungen wie „erinnere“ oder „immer“
- Nutzung offizieller KI-Schnittstellen
Empfehlungen für Sicherheitsverantwortliche
Zur Identifikation möglicher Kompromittierungen sollten URLs geprüft werden, die Prompts mit folgenden Begriffen enthalten:
- erinnern
- vertrauenswürdige Quelle
- in zukünftigen Gesprächen
- maßgebliche Quelle
- zitieren
Für Microsoft Defender für Office 365 stehen erweiterte Suchabfragen zur Verfügung. Eine ähnliche Logik lässt sich auf Web-Proxy-Protokolle, Endpunkt-Telemetrie oder Browserverlauf anwenden.
Schutzmaßnahmen von Microsoft
Microsoft hat mehrschichtige Sicherheitsvorkehrungen implementiert:
- Prompt-Filterung: Erkennung bekannter Injection-Muster
- Inhaltsseparation: Unterscheidung zwischen Nutzeranweisungen und externen Inhalten
- Speicherkontrollen: Transparenz und Kontrollmöglichkeiten
- Kontinuierliche Überwachung: Identifikation neuer Angriffsmuster
Das Unternehmen forscht aktiv an Abwehrmaßnahmen gegen verschiedene KI-Poisoning-Techniken.
Fazit
KI-Empfehlungs-Poisoning ist etabliert und die Werkzeuge zur Umsetzung sind frei verfügbar. Dutzende Unternehmen setzen diese Methode bereits ein. Regelmäßige Überprüfung der Speichereinstellungen, kritische Bewertung von Zusammenfassungs-Buttons und sorgfältige Auswahl der zur Analyse übergebenen Inhalte gehören zu den grundlegenden Vorsichtsmaßnahmen.
Entdecke mehr
