Microsoft reagiert auf neue KI-Bedrohung: Richtlinien gegen indirekte Prompt-Injection-Angriffe

Microsoft hat neue Sicherheitsrichtlinien veröffentlicht, um Unternehmen besser vor sogenannten indirekten Prompt-Injection-Angriffen zu schützen – einer zunehmend relevanten Bedrohung im Bereich der generativen Künstlichen Intelligenz.

Diese Art von Angriff gilt laut der aktuellen OWASP Top 10 für LLM-Anwendungen als das größte Sicherheitsrisiko für 2025. Angesichts dieser Einstufung hat Microsoft eine mehrstufige Verteidigungsstrategie entwickelt. Sie kombiniert präventive Maßnahmen, Mechanismen zur Angriffserkennung sowie Konzepte zur Schadensbegrenzung, um Unternehmen einen umfassenden Schutz vor dieser neuen Angriffsform zu bieten.

Die zunehmende Verbreitung großer Sprachmodelle (LLMs) in Unternehmensworkflows hat eine neue Klasse von Angriffestechniken hervorgebracht: indirekte Prompt-Injection. Indirekte Prompt-Injection kann gegen Systeme eingesetzt werden, die große Sprachmodelle (LLMs) zur Verarbeitung nicht vertrauenswürdiger Daten nutzen. Grundsätzlich besteht das Risiko, dass ein Angreifer speziell gestaltete Daten bereitstellt, die vom LLM als Anweisungen missverstanden werden. Die möglichen Sicherheitsauswirkungen reichen von der Exfiltration der Benutzerdaten bis hin zur Ausführung unbeabsichtigter Aktionen unter Verwendung der Anmeldedaten des Benutzers.

Die mehrschichtige Verteidigung von Microsoft umfasst:

Präventive Techniken wie gehärtete Systemaufforderungen und Spotlighting, um nicht vertrauenswürdige Eingaben zu isolieren.
Erkennungswerkzeuge wie Microsoft Prompt Shields, integriert in Defender for Cloud für unternehmensweite Transparenz.
Minderung der Auswirkungen durch Datenverwaltung, Workflows für die Einwilligung der Benutzer und deterministische Blockierung bekannter Methoden zur Exfiltration von Daten.
Fortgeschrittene Forschung zu neuen Designmustern und Minderungstechniken.

In diesem Blog wird erläutert, wie Microsoft indirekte Prompt-Injektionen mit einem mehrschichtigen Ansatz abwehrt, der sowohl probabilistische als auch deterministische Abwehrmaßnahmen umfasst.

Einführung

In den letzten drei Jahren hat das Aufkommen großer Sprachmodelle (LLMs) den Bereich der natürlichen Sprachverarbeitung (NLP) revolutioniert und innovative neue Anwendungen wie Microsoft Copilot ermöglicht. Moderne LLMs sind in der Lage, eine Vielzahl von Aufgaben zu erfüllen, darunter das Zusammenfassen großer Textmengen, das kreative Generieren neuer Inhalte, das Durchführen komplexer Schlussfolgerungen und das dynamische Erstellen von Ausführungsplänen zur Bewältigung komplexer Aufgaben. Eine wichtige Innovation, die dies ermöglicht hat, ist die Tatsache, dass moderne LLMs in der Regel während des Trainings auf bestimmte Anweisungen abgestimmt werden. Dadurch kann der Benutzer die Aufgabe, die das LLM ausführen soll, zum Zeitpunkt der Inferenz durch natürliche Sprachbefehle und Beispiele für die Aufgabe festlegen.

Diese Möglichkeit, die Ausgabe eines LLM mithilfe von Anweisungen zum Zeitpunkt der Inferenz zu steuern, hat jedoch zu neuen Techniken geführt, mit denen das LLM und das System, in dem es verwendet wird, angegriffen werden können. Insbesondere die indirekte Prompt-Injection hat sich als eine gegnerische Technik herauskristallisiert, die sowohl schwer abzuwehren ist als auch zu verschiedenen Arten von Sicherheitsauswirkungen führen kann. Eine der am häufigsten nachgewiesenen Sicherheitsauswirkungen in aktuellen Systemen ist die Möglichkeit für einen Angreifer, sensible Daten von Benutzern des Systems zu exfiltrieren.

In den AI-Sicherheitslücken, die Microsoft gemeldet wurden, ist die indirekte Prompt-Injection eine der am häufigsten verwendeten Techniken. Sie steht auch an erster Stelle der OWASP Top 10 für LLM-Anwendungen und generative KI 2025.

Dieser Artikel beschreibt die möglichen Sicherheitsauswirkungen der indirekten Prompt-Injection und erläutert die mehrschichtige Verteidigungsstrategie von Microsoft gegen diese Technik.

Was ist indirekte Prompt-Injection?

Indirekte Prompt-Injection ist eine Technik, mit der Angreifer die Ausgabe eines auf Befehle abgestimmten LLM steuern oder beeinflussen, indem sie Text einfügen, den das LLM als legitime Befehle missversteht. Im Gegensatz zur direkten Prompt-Injection, bei der der Angreifer der Benutzer des LLM ist, fügt der Angreifer bei der indirekten Prompt-Injection Befehle in die Interaktion zwischen einem Opferbenutzer und dem LLM ein.

In einem typischen Szenario, wie in der Abbildung unten dargestellt, interagiert der Opferbenutzer möglicherweise mit einem LLM-basierten Dienst wie Microsoft Copilot und fordert das LLM auf, Text aus einer externen Quelle zu verarbeiten, beispielsweise um den Inhalt einer Webseite zusammenzufassen. Der externe Text (z. B. der Inhalt der Webseite) wird mit der Anweisung des Benutzers (d. h. der „Eingabeaufforderung” des Benutzers) verkettet und der kombinierte Text wird als Eingabe an das LLM übergeben. Wenn dieser extern stammende Text vom Angreifer kontrolliert würde, könnte er Text enthalten, den das LLM als Anweisungen missversteht. Diese Anweisungen könnten vor dem Benutzer verborgen sein, beispielsweise durch weiße Schrift auf weißem Hintergrund oder nicht druckbare Unicode-Zeichen. Die Prompt-Injection gilt als erfolgreich, wenn das LLM den Anweisungen des Angreifers „folgt”. Die möglichen Auswirkungen werden im nächsten Abschnitt erläutert.

Grafik Quelle: Microsoft

Obwohl das obige Beispiel den vom Angreifer kontrollierten Text aus einer Webseite veranschaulicht, könnte dieser Text in der Praxis aus jeder Quelle stammen, in der ein Angreifer den Text kontrollieren oder beeinflussen kann. Wenn das LLM beispielsweise zur Verarbeitung von E-Mails oder zur Analyse gemeinsam genutzter Dokumente verwendet wird, könnte die Prompt-Injektion in einer E-Mail enthalten sein, die der Angreifer an das Opfer sendet, oder in einem Dokument, das zwischen dem Angreifer und dem Opfer ausgetauscht wird. Wenn das LLM Tools aufrufen kann, könnte die Prompt-Injection in den vom Tool zurückgegebenen Daten enthalten sein. Es ist auch wichtig zu betonen, dass diese Technik keine bestimmten Dateiformate oder Kodierungen erfordert; selbst eine einfache ASCII-kodierte .txt-Datei kann eine indirekte Prompt-Injection enthalten.

Da Modelle zunehmend auch andere Modalitäten wie Bilder, Audio und Video unterstützen, kann die Prompt-Injection außerdem aus Eingaben in jeder dieser Modalitäten entstehen. Grundsätzlich besteht immer dann, wenn ein Angreifer einen Teil der Eingaben in ein auf Anweisungen abgestimmtes Modell kontrollieren kann, das Risiko einer indirekten Prompt-Injection.

Was sind die potenziellen Auswirkungen auf die Sicherheit?

Bei Erfolg könnte die indirekte Prompt-Injektion dazu verwendet werden, die Ausgabe des LLM auf verschiedene Weise zu manipulieren, was in einigen Fällen zu konkreten Auswirkungen auf die Sicherheit führen könnte.

Datenexfiltration

Eine der am häufigsten berichteten Auswirkungen ist die Exfiltration von Benutzerdaten an den Angreifer. Wie in der folgenden Abbildung dargestellt, veranlasst die Prompt-Injection das LLM, zunächst bestimmte Teile der Benutzerdaten (z. B. den Gesprächsverlauf des Benutzers oder Dokumente, auf die der Benutzer Zugriff hat) zu finden und/oder zusammenzufassen und diese dann mithilfe einer Datenexfiltrationstechnik an den Angreifer zurückzusenden.

Grafik Quelle: Microsoft

Datenexfiltration: So nutzen Angreifer LLMs aus

Mehrere Techniken zur Datenexfiltration über LLM-basierte Systeme wurden bereits demonstriert:

HTML-Bilder: Das LLM erzeugt einen Bild-Tag mit einer URL zum Server des Angreifers, in der sensible Daten kodiert sind. Beim Laden des Bildes sendet der Browser automatisch eine Anfrage – die Daten werden unbemerkt übertragen.
Anklickbare Links: Das Modell generiert Links mit eingebetteten Nutzerdaten. Klickt der Nutzer darauf, werden diese an den Angreifer übermittelt.
Tool-Aufrufe: LLMs mit Zugriff auf externe Tools können durch Prompt-Injection dazu gebracht werden, sensible Informationen z. B. in ein öffentliches GitHub-Repository zu schreiben.
Verdeckte Kanäle: Selbst einzelne Tool-Aufrufe können als Signal verwendet werden, um Informationen bitweise über beobachtbare Effekte zu exfiltrieren.

Unbeabsichtigte Aktionen durch LLMs

Indirekte Prompt-Injection kann dazu führen, dass eine LLM-basierte Anwendung unbeabsichtigt im Namen des Nutzers handelt – je nach Funktionsumfang der Anwendung.

Phishing über vertrauenswürdige Kanäle: LLMs, die E-Mails im Namen von Nutzern versenden, könnten durch manipulierte Eingaben Phishing-Links an Kollegen senden. Die Nachrichten wirken legitim, da sie von echten Nutzerkonten stammen.
Ausführung schädlicher Befehle: Systeme, die Code ausführen können, könnten über Prompt-Injection dazu gebracht werden, schädliche Befehle mit Nutzerrechten auszuführen.

Nicht jede Manipulation hat sicherheitsrelevante Folgen. Doch sobald Daten exfiltriert oder Handlungen im Namen des Nutzers ausgelöst werden, stuft Microsoft dies als sicherheitsrelevante Schwachstelle gemäß der firmeneigenen AI Bug Bar ein.

Wie Microsoft gegen indirekte Prompt-Injections vorgeht

Indirekte Prompt-Injections sind eine Folge der stochastischen Natur und sprachlichen Flexibilität moderner Sprachmodelle. Um diese Angriffsform zu bekämpfen, setzt Microsoft auf einen mehrschichtigen Sicherheitsansatz mit Fokus auf Prävention, Erkennung und Schadensbegrenzung.

Dabei kommen zwei Arten von Schutzmaßnahmen zum Einsatz:

Probabilistische Abwehr reduziert die Wahrscheinlichkeit eines erfolgreichen Angriffs, kann ihn aber nicht vollständig ausschließen. Sie basiert auf Wahrscheinlichkeiten, etwa beim Textdecoding des Modells.
Deterministische Abwehr basiert auf festen Systemregeln und kann garantieren, dass bestimmte Angriffe unter definierten Bedingungen nicht durchdringen – selbst in probabilistischen Systemen.

Zwar bieten deterministische Maßnahmen stärkere Sicherheit, doch lassen sie sich bei KI-Modellen nicht immer umsetzen. Insbesondere die zuverlässige Erkennung indirekter Prompt-Injections gilt weiterhin als ungelöstes Forschungsproblem. In solchen Fällen setzt Microsoft auf probabilistische Schutzmechanismen als Teil einer tief gestaffelten Verteidigungsstrategie.

Microsofts Fazit: Schutz vor indirekter Prompt-Injection ist essenziell

Indirekte Prompt-Injection ist eine neuartige Angriffstechnik, die sich aus der Fähigkeit moderner Sprachmodelle ergibt, Anweisungen während der Nutzung zu interpretieren und auszuführen. Die Technik selbst stellt nicht zwangsläufig eine Schwachstelle dar – kann aber gezielt für Sicherheitsverletzungen ausgenutzt werden.

Microsoft setzt daher auf einen mehrschichtigen Verteidigungsansatz, um seine Systeme zu schützen. Die vorgestellten Maßnahmen und Designprinzipien lassen sich auch auf LLM-basierte Anwendungen von Kunden und Partnern übertragen.

Künftig will Microsoft verstärkt in deterministische Architekturänderungen investieren, um die Abwehr weiter zu verbessern – aufbauend auf den hier dargestellten Grundlagen.

Das könnte Sie ebenfalls interessieren

Microsoft entfernt PowerShell 2.0 aus Windows 11 – veraltete Skriptumgebung gilt als Sicherheitsrisiko

Bild/Quelle: https://depositphotos.com/de/home.html

Folgen Sie uns auf X

Folgen Sie uns auf Bluesky

Microsoft reagiert auf neue KI-Bedrohung: Richtlinien gegen indirekte Prompt-Injection-Angriffe

Einführung

Was ist indirekte Prompt-Injection?

Was sind die potenziellen Auswirkungen auf die Sicherheit?

Datenexfiltration

Wie Microsoft gegen indirekte Prompt-Injections vorgeht

Microsofts Fazit: Schutz vor indirekter Prompt-Injection ist essenziell

Fachartikel

RC4-Deaktivierung – so müssen Sie jetzt handeln

Plattform-Engineering im Wandel: Was KI-Agenten wirklich verändern

KI-Agenten im Visier: Wie versteckte Web-Befehle autonome Systeme manipulieren

Island und AWS Security Hub: Kontrollierte KI-Nutzung und sicheres Surfen im Unternehmensumfeld

Wie das iOS-Exploit-Kit Coruna zum Werkzeug staatlicher und krimineller Akteure wurde

Studien

KI als Werkzeug für schnelle, kostengünstige Cyberangriffe

KI beschleunigt Cyberangriffe: IBM X-Force warnt vor wachsenden Schwachstellen in Unternehmen

Finanzsektor unterschätzt Cyber-Risiken: Studie offenbart strukturelle Defizite in der IT-Sicherheit

CrowdStrike Global Threat Report 2026: KI beschleunigt Cyberangriffe und weitet Angriffsflächen aus

IT-Sicherheit in Großbritannien: Hohe Vorfallsquoten, steigende Budgets – doch der Wandel stockt

Whitepaper

Cloudflare Threat Report 2026: Ransomware beginnt mit dem Login – KI und Botnetze treiben die Industrialisierung von Cyberangriffen

EBA-Folgebericht: Fortschritte bei IKT-Risikoaufsicht unter DORA – weitere Harmonisierung nötig

Böswillige KI-Nutzung erkennen und verhindern: Anthropics neuer Bedrohungsbericht mit Fallstudien

Third Party Risk Management – auch das Procurement benötigt technische Unterstützung

EU-Toolbox für IKT-Lieferkettensicherheit: Gemeinsamer Rahmen zur Risikominderung

Hamsterrad-Rebell

Incident Response Retainer – worauf sollte man achten?

KI‑basierte E‑Mail‑Angriffe: Einfach gestartet, kaum zu stoppen

NIS2: „Zum Glück gezwungen“ – mit OKR-basiertem Vorgehen zum nachhaltigen Erfolg

Cyberversicherung ohne Datenbasis? Warum CIOs und CISOs jetzt auf quantifizierbare Risikomodelle setzen müssen

Identity Security Posture Management (ISPM): Rettung oder Hype?