
Google setzt bei der Absicherung seiner generativen KI-Modelle künftig auf eine mehrschichtige Sicherheitsarchitektur. Ziel ist es, neuartige Bedrohungen wie indirekte Prompt-Injection-Angriffe effektiver abzuwehren und die Resilienz agentenbasierter KI-Systeme zu stärken.
Im Fokus stehen dabei insbesondere sogenannte indirekte Prompt-Injections. Anders als bei direkten Angriffen, bei denen schädliche Befehle unmittelbar in die Eingabeaufforderung eingebracht werden, verbergen sich bei indirekten Prompt-Injections manipulierte Anweisungen in externen Datenquellen – etwa in Dokumenten oder Webseiten. „Diese Form der Attacke nutzt die Fähigkeit von KI-Modellen aus, kontextbezogene Informationen aus verschiedensten Quellen zu verarbeiten“, erklärt das GenAI-Sicherheitsteam von Google.
Mit einem abgestuften Schutzkonzept will das Unternehmen diese Schwachstellen künftig gezielt adressieren. Die Maßnahmen reichen von präventiven Filtern über Laufzeitanalysen bis hin zu Verhaltensmodellen, die verdächtige Anfragen automatisch erkennen und blockieren sollen.
Mit der raschen Einführung generativer KI entsteht in der gesamten Branche eine neue Welle von Bedrohungen, deren Ziel es ist, die KI-Systeme selbst zu manipulieren. Ein solcher neuer Angriffsvektor sind indirekte Prompt-Injektionen. Im Gegensatz zu direkten Prompt-Injektionen, bei denen ein Angreifer bösartige Befehle direkt in eine Eingabeaufforderung eingibt, werden bei indirekten Prompt-Injektionen versteckte bösartige Anweisungen in externen Datenquellen eingebettet. Dazu können E-Mails, Dokumente oder Kalendereinladungen gehören, die die KI anweisen, Benutzerdaten zu exfiltrieren oder andere schädliche Aktionen auszuführen. Da immer mehr Regierungen, Unternehmen und Privatpersonen generative KI einsetzen, um ihre Produktivität zu steigern, gewinnt diese subtile, aber potenziell gefährliche Angriffsmethode in der gesamten Branche zunehmend an Bedeutung und erfordert sofortige Aufmerksamkeit und robuste Sicherheitsmaßnahmen.
Bei Google investieren unsere Teams seit langem in eine umfassende Verteidigungsstrategie, die robuste Bewertungen, Bedrohungsanalysen, Best Practices für KI-Sicherheit, KI-Red-Teaming, adversariales Training und Modellhärtung für generative KI-Tools umfasst. Dieser Ansatz ermöglicht eine sicherere Einführung von Gemini in Google Workspace und der Gemini-App (der Einfachheit halber bezeichnen wir beide in diesem Blog als „Gemini“). Im Folgenden beschreiben wir unsere Produktstrategie zur Abwehr von Prompt-Injection-Angriffen, die auf umfangreichen Forschungen, Entwicklungen und der Implementierung verbesserter Sicherheitsmaßnahmen basiert.
Ein mehrschichtiger Sicherheitsansatz
Google hat einen mehrschichtigen Sicherheitsansatz gewählt und Sicherheitsmaßnahmen eingeführt, die für jede Phase des Prompt-Lebenszyklus ausgelegt sind. Von der Modellhärtung in Gemini 2.5 über speziell entwickelte Machine-Learning-Modelle (ML) zur Erkennung bösartiger Anweisungen bis hin zu Sicherheitsvorkehrungen auf Systemebene erhöhen wir den Aufwand, die Kosten und die Komplexität für Angreifer erheblich. Dieser Ansatz zwingt Angreifer dazu, auf Methoden zurückzugreifen, die entweder leichter zu identifizieren sind oder mehr Ressourcen erfordern.
Unser Modelltraining mit gegnerischen Daten hat unsere Abwehr gegen indirekte Prompt-Injection-Angriffe in Gemini 2.5-Modellen erheblich verbessert (technische Details). Diese inhärente Modellresilienz wird durch zusätzliche Abwehrmaßnahmen ergänzt, die wir direkt in Gemini integriert haben, darunter:
- Klassifizierer für Prompt-Injection-Inhalte
- Verstärkung der Sicherheitsüberlegungen
- Markdown-Bereinigung und Schwärzung verdächtiger URLs
- Benutzerbestätigungs-Framework
- Sicherheitshinweise für Endbenutzer
Dieser mehrschichtige Ansatz unserer Sicherheitsstrategie stärkt das gesamte Sicherheitsframework für Gemini – während des gesamten Lebenszyklus von Eingabeaufforderungen und über verschiedene Angriffstechniken hinweg.
1. Klassifizierer für Inhalte von Prompt-Injektionen
Durch die Zusammenarbeit mit führenden KI-Sicherheitsforschern im Rahmen des KI-Schwachstellen-Prämienprogramms (VRP) von Google haben wir einen der weltweit fortschrittlichsten Kataloge mit generativen KI-Schwachstellen und gegnerischen Daten zusammengestellt. Auf der Grundlage dieser Ressource haben wir proprietäre Machine-Learning-Modelle entwickelt, die bösartige Eingabeaufforderungen und Anweisungen in verschiedenen Formaten, wie E-Mails und Dateien, anhand von Beispielen aus der Praxis erkennen können. Wenn Nutzer Workspace-Daten mit Gemini abfragen, filtern die Inhaltsklassifizierer schädliche Daten mit bösartigen Anweisungen heraus und sorgen so für eine sichere End-to-End-Nutzererfahrung, indem nur sichere Inhalte beibehalten werden. Wenn ein Nutzer beispielsweise eine E-Mail in Gmail erhält, die bösartige Anweisungen enthält, helfen unsere Inhaltsklassifizierer dabei, diese zu erkennen und zu ignorieren, und generieren dann eine sichere Antwort für den Nutzer. Dies ist eine Ergänzung zu den integrierten Schutzfunktionen in Gmail, die automatisch mehr als 99,9 % aller Spam-Mails, Phishing-Versuche und Malware blockieren.
Ein Diagramm der Aktionen von Gemini basierend auf der Erkennung der bösartigen Anweisungen durch Inhaltsklassifizierer.
2. Verstärkung der Sicherheitsüberlegungen
Diese Technik fügt gezielte Sicherheitsanweisungen um den Prompt-Inhalt herum hinzu, um das große Sprachmodell (LLM) daran zu erinnern, die vom Benutzer gewünschte Aufgabe auszuführen und alle feindlichen Anweisungen zu ignorieren, die im Inhalt vorhanden sein könnten. Mit diesem Ansatz lenken wir das LLM so, dass es sich auf die Aufgabe konzentriert und schädliche oder bösartige Anfragen ignoriert, die von einem Angreifer hinzugefügt wurden, um indirekte Prompt-Injection-Angriffe auszuführen.
Ein Diagramm der Maßnahmen von Gemini auf der Grundlage der zusätzlichen Schutzmaßnahmen, die durch die Technik zur Verstärkung der Sicherheitsüberlegungen bereitgestellt werden.
3. Bereinigung von Markdown und Schwärzung verdächtiger URLs
Unser Markdown-Bereinigungsprogramm identifiziert externe Bild-URLs und rendert sie nicht, sodass die 0-Klick-Bild-Rendering-Exfiltrations-Sicherheitslücke „EchoLeak” für Gemini nicht relevant ist. Von dort aus erfolgt auf URL-Ebene ein wichtiger Schutz vor Prompt-Injection- und Datenexfiltrationsangriffen. Bei externen Daten, die dynamische URLs enthalten, können für Benutzer unbekannte Risiken bestehen, da diese URLs für indirekte Prompt-Injektionen und Daten-Exfiltrationsangriffe konzipiert sein können. Von Benutzern ausgeführte bösartige Befehle können ebenfalls schädliche URLs generieren. Das Verteidigungssystem von Gemini umfasst die Erkennung verdächtiger URLs auf Basis von Google Safe Browsing, um zwischen sicheren und unsicheren Links zu unterscheiden und so eine sichere Erfahrung zu gewährleisten, indem URL-basierte Angriffe verhindert werden. Wenn beispielsweise ein Dokument bösartige URLs enthält und ein Benutzer den Inhalt mit Gemini zusammenfasst, werden die verdächtigen URLs in der Antwort von Gemini unkenntlich gemacht.
Gemini in Gmail bietet eine Zusammenfassung eines E-Mail-Threads. In der Zusammenfassung befindet sich eine unsichere URL. Diese URL wird in der Antwort unkenntlich gemacht und durch den Text „verdächtiger Link entfernt“ ersetzt.
4. Rahmenwerk für Benutzerbestätigungen
Gemini verfügt außerdem über ein kontextbezogenes Benutzerbestätigungssystem. Dieses Rahmenwerk ermöglicht es Gemini, für bestimmte Aktionen eine Benutzerbestätigung zu verlangen, auch bekannt als „Human-In-The-Loop“ (HITL). Diese Antworten werden verwendet, um die Sicherheit zu erhöhen und die Benutzererfahrung zu optimieren. Beispielsweise können potenziell riskante Vorgänge wie das Löschen eines Kalendertermins eine ausdrückliche Benutzerbestätigung auslösen, wodurch eine unbemerkte oder sofortige Ausführung des Vorgangs verhindert wird.
Die Gemini-App mit der Anweisung, alle Termine am Samstag zu löschen. Gemini antwortet mit den in Google Kalender gefundenen Terminen und fordert den Benutzer auf, diese Aktion zu bestätigen.
5. Benachrichtigungen zur Sicherheitsminderung für Endbenutzer
Ein wichtiger Aspekt für die Sicherheit unserer Benutzer ist die Weitergabe von Details zu Angriffen, die wir abgewehrt haben, damit Benutzer in Zukunft auf ähnliche Angriffe achten können. Zu diesem Zweck erhalten Endnutzer bei der Abwehr von Sicherheitsproblemen durch unsere integrierten Schutzmaßnahmen kontextbezogene Informationen, über die sie in speziellen Artikeln im Hilfezentrum weitere Informationen erhalten. Wenn Gemini beispielsweise eine Datei mit schädlichen Anweisungen zusammenfasst und eine der Prompt-Injection-Abwehrmaßnahmen von Google die Situation entschärft, wird dem Nutzer eine Sicherheitsbenachrichtigung mit einem Link „Weitere Informationen“ angezeigt. Nutzer werden dazu aufgefordert, sich durch Lesen des Hilfezentrum-Artikels mit unseren Prompt-Injection-Abwehrmaßnahmen vertraut zu machen.
Gemini in Docs mit der Anweisung, eine Zusammenfassung einer Datei zu erstellen. Es wurden verdächtige Inhalte erkannt und es wurde keine Antwort gegeben. Es gibt einen gelben Sicherheitshinweis für den Nutzer und einen Hinweis, dass die Antwort von Gemini entfernt wurde, mit einem Link „Weitere Informationen“ zu einem entsprechenden Artikel im Hilfe-Center.
Weiterentwicklung
Unsere umfassende Sicherheitsstrategie gegen Prompt-Injection-Angriffe stärkt das gesamte Sicherheitsframework von Gemini. Über die oben beschriebenen Techniken hinaus umfasst sie strenge Tests durch manuelle und automatisierte Red Teams, generative KI-Sicherheits-BugSWAT-Events, strenge Sicherheitsstandards wie unser Secure AI Framework (SAIF) sowie Partnerschaften mit externen Forschern über das Google AI Vulnerability Reward Program (VRP) und mit Branchenkollegen über die Coalition for Secure AI (CoSAI). Unser Engagement für Vertrauen umfasst die Zusammenarbeit mit der Sicherheitscommunity, um AI-Sicherheitslücken verantwortungsbewusst offenzulegen, unsere neuesten Erkenntnisse über Bedrohungen zu teilen, wie wir versuchen, AI zu nutzen, und Einblicke in unsere Arbeit zum Aufbau stärkerer Prompt-Injection-Abwehrmaßnahmen zu geben.
Die enge Zusammenarbeit mit Partnern aus der Branche ist entscheidend für den Aufbau eines stärkeren Schutzes für alle unsere Nutzer. Zu diesem Zweck sind wir in der glücklichen Lage, enge Kooperationspartnerschaften mit zahlreichen Forschern zu unterhalten, darunter Ben Nassi (Vertraulichkeit), Stav Cohen (Technion) und Or Yair (SafeBreach) sowie anderen KI-Sicherheitsforschern, die an unseren BugSWAT-Veranstaltungen und dem KI-VRP-Programm teilnehmen. Wir schätzen die Arbeit dieser Forscher und anderer Mitglieder der Community, die uns dabei helfen, unsere Abwehrmaßnahmen zu verbessern.
Wir arbeiten weiterhin daran, die kommenden Gemini-Modelle von Grund auf widerstandsfähiger zu machen und noch in diesem Jahr zusätzliche Abwehrmaßnahmen gegen Prompt-Injection direkt in Gemini zu integrieren. Weitere Informationen zu den Fortschritten und Forschungen von Google zu generativen KI-Bedrohungsakteuren, Angriffstechniken und Schwachstellen finden Sie in den folgenden Ressourcen:
- Beyond Speculation: Data-Driven Insights into AI and Cybersecurity (RSAC 2025 conference keynote) from Google’s Threat Intelligence Group (GTIG)
- Adversarial Misuse of Generative AI (blog post) from Google’s Threat Intelligence Group (GTIG)
- Google’s Approach for Secure AI Agents (white paper) from Google’s Secure AI Framework (SAIF) team
- Advancing Gemini’s security safeguards (blog post) from Google’s DeepMind team
- Lessons from Defending Gemini Against Indirect Prompt Injections (white paper) from Google’s DeepMind team
Fachartikel

Unsicherer Systemstart: Sicherheitslücke in initramfs erlaubt Umgehung von Linux-Bootschutz

SAP Patch Day: Juli 2025

Zweifelhafte Datensätze im Dark Web: Warum Combolists und ULP-Dateien oft keine verlässlichen Hinweise auf Sicherheitsvorfälle liefern

Ransomware-Gruppe BERT attackiert Unternehmen in Asien und Europa auf breiter Front

Streamen Sie Red Sift-Telemetriedaten an Sentinel, Splunk und mehr mit Event Hub
Studien

WatchGuard Internet Security Report: Einzigartige Malware steigt um 171 Prozent – KI-Boom treibt Bedrohungen voran

Zwei Drittel der EU-Institutionen erfüllen grundlegende Cybersicherheitsstandards nicht

Splunk-Studie: Datenflut bedroht Sicherheit und bremst KI – Deutsche Unternehmen im Spannungsfeld von Informationsexplosion und Compliance

Neue CSC-Umfrage: Überwältigende Mehrheit der CISOs rechnet in den nächsten drei Jahren mit einem Anstieg der Cyberangriffe

Accenture-Studie: Unternehmen weltweit kaum gegen KI-basierte Cyberangriffe gewappnet
Whitepaper

ISACA veröffentlicht Leitfaden zu NIS2 und DORA: Orientierungshilfe für Europas Unternehmen

CISA und US-Partner warnen kritische Infrastrukturen vor möglichen Cyberangriffen aus dem Iran

Dating-Apps: Intime Einblicke mit Folgen

Europol-Bericht warnt vor KI-Vorurteilen in der Strafverfolgung – Leitfaden für verantwortungsvollen Technologieeinsatz veröffentlicht
