
Microsoft hat neue Sicherheitsrichtlinien veröffentlicht, um Unternehmen besser vor sogenannten indirekten Prompt-Injection-Angriffen zu schützen – einer zunehmend relevanten Bedrohung im Bereich der generativen Künstlichen Intelligenz.
Diese Art von Angriff gilt laut der aktuellen OWASP Top 10 für LLM-Anwendungen als das größte Sicherheitsrisiko für 2025. Angesichts dieser Einstufung hat Microsoft eine mehrstufige Verteidigungsstrategie entwickelt. Sie kombiniert präventive Maßnahmen, Mechanismen zur Angriffserkennung sowie Konzepte zur Schadensbegrenzung, um Unternehmen einen umfassenden Schutz vor dieser neuen Angriffsform zu bieten.
Die zunehmende Verbreitung großer Sprachmodelle (LLMs) in Unternehmensworkflows hat eine neue Klasse von Angriffestechniken hervorgebracht: indirekte Prompt-Injection. Indirekte Prompt-Injection kann gegen Systeme eingesetzt werden, die große Sprachmodelle (LLMs) zur Verarbeitung nicht vertrauenswürdiger Daten nutzen. Grundsätzlich besteht das Risiko, dass ein Angreifer speziell gestaltete Daten bereitstellt, die vom LLM als Anweisungen missverstanden werden. Die möglichen Sicherheitsauswirkungen reichen von der Exfiltration der Benutzerdaten bis hin zur Ausführung unbeabsichtigter Aktionen unter Verwendung der Anmeldedaten des Benutzers.
Die mehrschichtige Verteidigung von Microsoft umfasst:
- Präventive Techniken wie gehärtete Systemaufforderungen und Spotlighting, um nicht vertrauenswürdige Eingaben zu isolieren.
- Erkennungswerkzeuge wie Microsoft Prompt Shields, integriert in Defender for Cloud für unternehmensweite Transparenz.
- Minderung der Auswirkungen durch Datenverwaltung, Workflows für die Einwilligung der Benutzer und deterministische Blockierung bekannter Methoden zur Exfiltration von Daten.
- Fortgeschrittene Forschung zu neuen Designmustern und Minderungstechniken.
In diesem Blog wird erläutert, wie Microsoft indirekte Prompt-Injektionen mit einem mehrschichtigen Ansatz abwehrt, der sowohl probabilistische als auch deterministische Abwehrmaßnahmen umfasst.
Einführung
In den letzten drei Jahren hat das Aufkommen großer Sprachmodelle (LLMs) den Bereich der natürlichen Sprachverarbeitung (NLP) revolutioniert und innovative neue Anwendungen wie Microsoft Copilot ermöglicht. Moderne LLMs sind in der Lage, eine Vielzahl von Aufgaben zu erfüllen, darunter das Zusammenfassen großer Textmengen, das kreative Generieren neuer Inhalte, das Durchführen komplexer Schlussfolgerungen und das dynamische Erstellen von Ausführungsplänen zur Bewältigung komplexer Aufgaben. Eine wichtige Innovation, die dies ermöglicht hat, ist die Tatsache, dass moderne LLMs in der Regel während des Trainings auf bestimmte Anweisungen abgestimmt werden. Dadurch kann der Benutzer die Aufgabe, die das LLM ausführen soll, zum Zeitpunkt der Inferenz durch natürliche Sprachbefehle und Beispiele für die Aufgabe festlegen.
Diese Möglichkeit, die Ausgabe eines LLM mithilfe von Anweisungen zum Zeitpunkt der Inferenz zu steuern, hat jedoch zu neuen Techniken geführt, mit denen das LLM und das System, in dem es verwendet wird, angegriffen werden können. Insbesondere die indirekte Prompt-Injection hat sich als eine gegnerische Technik herauskristallisiert, die sowohl schwer abzuwehren ist als auch zu verschiedenen Arten von Sicherheitsauswirkungen führen kann. Eine der am häufigsten nachgewiesenen Sicherheitsauswirkungen in aktuellen Systemen ist die Möglichkeit für einen Angreifer, sensible Daten von Benutzern des Systems zu exfiltrieren.
In den AI-Sicherheitslücken, die Microsoft gemeldet wurden, ist die indirekte Prompt-Injection eine der am häufigsten verwendeten Techniken. Sie steht auch an erster Stelle der OWASP Top 10 für LLM-Anwendungen und generative KI 2025.
Dieser Artikel beschreibt die möglichen Sicherheitsauswirkungen der indirekten Prompt-Injection und erläutert die mehrschichtige Verteidigungsstrategie von Microsoft gegen diese Technik.
Was ist indirekte Prompt-Injection?
Indirekte Prompt-Injection ist eine Technik, mit der Angreifer die Ausgabe eines auf Befehle abgestimmten LLM steuern oder beeinflussen, indem sie Text einfügen, den das LLM als legitime Befehle missversteht. Im Gegensatz zur direkten Prompt-Injection, bei der der Angreifer der Benutzer des LLM ist, fügt der Angreifer bei der indirekten Prompt-Injection Befehle in die Interaktion zwischen einem Opferbenutzer und dem LLM ein.
In einem typischen Szenario, wie in der Abbildung unten dargestellt, interagiert der Opferbenutzer möglicherweise mit einem LLM-basierten Dienst wie Microsoft Copilot und fordert das LLM auf, Text aus einer externen Quelle zu verarbeiten, beispielsweise um den Inhalt einer Webseite zusammenzufassen. Der externe Text (z. B. der Inhalt der Webseite) wird mit der Anweisung des Benutzers (d. h. der „Eingabeaufforderung” des Benutzers) verkettet und der kombinierte Text wird als Eingabe an das LLM übergeben. Wenn dieser extern stammende Text vom Angreifer kontrolliert würde, könnte er Text enthalten, den das LLM als Anweisungen missversteht. Diese Anweisungen könnten vor dem Benutzer verborgen sein, beispielsweise durch weiße Schrift auf weißem Hintergrund oder nicht druckbare Unicode-Zeichen. Die Prompt-Injection gilt als erfolgreich, wenn das LLM den Anweisungen des Angreifers „folgt”. Die möglichen Auswirkungen werden im nächsten Abschnitt erläutert.
Grafik Quelle: Microsoft
Obwohl das obige Beispiel den vom Angreifer kontrollierten Text aus einer Webseite veranschaulicht, könnte dieser Text in der Praxis aus jeder Quelle stammen, in der ein Angreifer den Text kontrollieren oder beeinflussen kann. Wenn das LLM beispielsweise zur Verarbeitung von E-Mails oder zur Analyse gemeinsam genutzter Dokumente verwendet wird, könnte die Prompt-Injektion in einer E-Mail enthalten sein, die der Angreifer an das Opfer sendet, oder in einem Dokument, das zwischen dem Angreifer und dem Opfer ausgetauscht wird. Wenn das LLM Tools aufrufen kann, könnte die Prompt-Injection in den vom Tool zurückgegebenen Daten enthalten sein. Es ist auch wichtig zu betonen, dass diese Technik keine bestimmten Dateiformate oder Kodierungen erfordert; selbst eine einfache ASCII-kodierte .txt-Datei kann eine indirekte Prompt-Injection enthalten.
Da Modelle zunehmend auch andere Modalitäten wie Bilder, Audio und Video unterstützen, kann die Prompt-Injection außerdem aus Eingaben in jeder dieser Modalitäten entstehen. Grundsätzlich besteht immer dann, wenn ein Angreifer einen Teil der Eingaben in ein auf Anweisungen abgestimmtes Modell kontrollieren kann, das Risiko einer indirekten Prompt-Injection.
Was sind die potenziellen Auswirkungen auf die Sicherheit?
Bei Erfolg könnte die indirekte Prompt-Injektion dazu verwendet werden, die Ausgabe des LLM auf verschiedene Weise zu manipulieren, was in einigen Fällen zu konkreten Auswirkungen auf die Sicherheit führen könnte.
Datenexfiltration
Eine der am häufigsten berichteten Auswirkungen ist die Exfiltration von Benutzerdaten an den Angreifer. Wie in der folgenden Abbildung dargestellt, veranlasst die Prompt-Injection das LLM, zunächst bestimmte Teile der Benutzerdaten (z. B. den Gesprächsverlauf des Benutzers oder Dokumente, auf die der Benutzer Zugriff hat) zu finden und/oder zusammenzufassen und diese dann mithilfe einer Datenexfiltrationstechnik an den Angreifer zurückzusenden.
Grafik Quelle: Microsoft
Datenexfiltration: So nutzen Angreifer LLMs aus
Mehrere Techniken zur Datenexfiltration über LLM-basierte Systeme wurden bereits demonstriert:
-
HTML-Bilder: Das LLM erzeugt einen Bild-Tag mit einer URL zum Server des Angreifers, in der sensible Daten kodiert sind. Beim Laden des Bildes sendet der Browser automatisch eine Anfrage – die Daten werden unbemerkt übertragen.
-
Anklickbare Links: Das Modell generiert Links mit eingebetteten Nutzerdaten. Klickt der Nutzer darauf, werden diese an den Angreifer übermittelt.
-
Tool-Aufrufe: LLMs mit Zugriff auf externe Tools können durch Prompt-Injection dazu gebracht werden, sensible Informationen z. B. in ein öffentliches GitHub-Repository zu schreiben.
-
Verdeckte Kanäle: Selbst einzelne Tool-Aufrufe können als Signal verwendet werden, um Informationen bitweise über beobachtbare Effekte zu exfiltrieren.
Unbeabsichtigte Aktionen durch LLMs
Indirekte Prompt-Injection kann dazu führen, dass eine LLM-basierte Anwendung unbeabsichtigt im Namen des Nutzers handelt – je nach Funktionsumfang der Anwendung.
-
Phishing über vertrauenswürdige Kanäle: LLMs, die E-Mails im Namen von Nutzern versenden, könnten durch manipulierte Eingaben Phishing-Links an Kollegen senden. Die Nachrichten wirken legitim, da sie von echten Nutzerkonten stammen.
-
Ausführung schädlicher Befehle: Systeme, die Code ausführen können, könnten über Prompt-Injection dazu gebracht werden, schädliche Befehle mit Nutzerrechten auszuführen.
Nicht jede Manipulation hat sicherheitsrelevante Folgen. Doch sobald Daten exfiltriert oder Handlungen im Namen des Nutzers ausgelöst werden, stuft Microsoft dies als sicherheitsrelevante Schwachstelle gemäß der firmeneigenen AI Bug Bar ein.
Wie Microsoft gegen indirekte Prompt-Injections vorgeht
Indirekte Prompt-Injections sind eine Folge der stochastischen Natur und sprachlichen Flexibilität moderner Sprachmodelle. Um diese Angriffsform zu bekämpfen, setzt Microsoft auf einen mehrschichtigen Sicherheitsansatz mit Fokus auf Prävention, Erkennung und Schadensbegrenzung.
Dabei kommen zwei Arten von Schutzmaßnahmen zum Einsatz:
-
Probabilistische Abwehr reduziert die Wahrscheinlichkeit eines erfolgreichen Angriffs, kann ihn aber nicht vollständig ausschließen. Sie basiert auf Wahrscheinlichkeiten, etwa beim Textdecoding des Modells.
-
Deterministische Abwehr basiert auf festen Systemregeln und kann garantieren, dass bestimmte Angriffe unter definierten Bedingungen nicht durchdringen – selbst in probabilistischen Systemen.
Zwar bieten deterministische Maßnahmen stärkere Sicherheit, doch lassen sie sich bei KI-Modellen nicht immer umsetzen. Insbesondere die zuverlässige Erkennung indirekter Prompt-Injections gilt weiterhin als ungelöstes Forschungsproblem. In solchen Fällen setzt Microsoft auf probabilistische Schutzmechanismen als Teil einer tief gestaffelten Verteidigungsstrategie.
Microsofts Fazit: Schutz vor indirekter Prompt-Injection ist essenziell
Indirekte Prompt-Injection ist eine neuartige Angriffstechnik, die sich aus der Fähigkeit moderner Sprachmodelle ergibt, Anweisungen während der Nutzung zu interpretieren und auszuführen. Die Technik selbst stellt nicht zwangsläufig eine Schwachstelle dar – kann aber gezielt für Sicherheitsverletzungen ausgenutzt werden.
Microsoft setzt daher auf einen mehrschichtigen Verteidigungsansatz, um seine Systeme zu schützen. Die vorgestellten Maßnahmen und Designprinzipien lassen sich auch auf LLM-basierte Anwendungen von Kunden und Partnern übertragen.
Künftig will Microsoft verstärkt in deterministische Architekturänderungen investieren, um die Abwehr weiter zu verbessern – aufbauend auf den hier dargestellten Grundlagen.
Das könnte Sie ebenfalls interessieren
Bild/Quelle: https://depositphotos.com/de/home.html
Fachartikel

Wenn Angreifer selbst zum Ziel werden: Wie Forscher eine Infostealer-Infrastruktur kompromittierten

Mehr Gesetze, mehr Druck: Was bei NIS2, CRA, DORA & Co. am Ende zählt

WinDbg-UI blockiert beim Kopieren: Ursachenforschung führt zu Zwischenablage-Deadlock in virtuellen Umgebungen

RISE with SAP: Wie Sicherheitsmaßnahmen den Return on Investment sichern

Jailbreaking: Die unterschätzte Sicherheitslücke moderner KI-Systeme
Studien

Deutsche Unicorn-Gründer bevorzugen zunehmend den Standort Deutschland

IT-Modernisierung entscheidet über KI-Erfolg und Cybersicherheit

Neue ISACA-Studie: Datenschutzbudgets werden trotz steigender Risiken voraussichtlich schrumpfen

Cybersecurity-Jahresrückblick: Wie KI-Agenten und OAuth-Lücken die Bedrohungslandschaft 2025 veränderten
![Featured image for “Phishing-Studie deckt auf: [EXTERN]-Markierung schützt Klinikpersonal kaum”](https://www.all-about-security.de/wp-content/uploads/2025/12/phishing-4.jpg)
Phishing-Studie deckt auf: [EXTERN]-Markierung schützt Klinikpersonal kaum
Whitepaper

ETSI veröffentlicht weltweit führenden Standard für die Sicherung von KI

Allianz Risk Barometer 2026: Cyberrisiken führen das Ranking an, KI rückt auf Platz zwei vor

Cybersecurity-Jahresrückblick: Wie KI-Agenten und OAuth-Lücken die Bedrohungslandschaft 2025 veränderten

NIS2-Richtlinie im Gesundheitswesen: Praxisleitfaden für die Geschäftsführung

Datenschutzkonformer KI-Einsatz in Bundesbehörden: Neue Handreichung gibt Orientierung
Hamsterrad-Rebell

Cyberversicherung ohne Datenbasis? Warum CIOs und CISOs jetzt auf quantifizierbare Risikomodelle setzen müssen

Identity Security Posture Management (ISPM): Rettung oder Hype?

Platform Security: Warum ERP-Systeme besondere Sicherheitsmaßnahmen erfordern

Daten in eigener Hand: Europas Souveränität im Fokus









