Share
Beitragsbild zu Neue KI-Angriffsmethode nutzt Bildskalierung für versteckte Datenabgriffe

Neue KI-Angriffsmethode nutzt Bildskalierung für versteckte Datenabgriffe

26. August 2025

Forscher von Trail of Bits, Kikimora Morozova und Suha Sabi Hussain, haben eine neuartige Angriffstechnik vorgestellt: Durch unsichtbare Anweisungen in verkleinerten Bildern lassen sich KI-Produktionssysteme manipulieren.

Das Szenario: Ein vermeintlich harmloses Bild wird an ein Sprachmodell geschickt – doch nach der Verarbeitung werden unbemerkt Benutzerdaten exfiltriert. Ursache ist eine multimodale Prompt-Injektion, die im Originalbild nicht erkennbar ist. Erst durch die automatische Verkleinerung, die viele Systeme vor der Modellverarbeitung vornehmen, tritt der versteckte Code zutage.

Betroffen sind unter anderem Google Gemini CLI, Vertex AI Studio, die Web- und API-Schnittstellen von Gemini, Google Assistant sowie Genspark. In einem Blogbeitrag erklären die Forscher detailliert, wie Angreifer diesen Mechanismus ausnutzen können, welche Schutzmaßnahmen möglich sind und wie das von ihnen entwickelte Open-Source-Werkzeug Anamorpher zur Analyse und Erzeugung solcher Bilder eingesetzt werden kann.

Geist in der Skala: Nebeneinander-Vergleich eines Bildes, das in der Originalauflösung harmlos ist, aber bei Verkleinerung eine Prompt-Injektion enthält.

Hintergrund: Bildskalierungsangriffe wurden für Modell-Backdoors, Umgehungen und Vergiftungen vor allem gegen ältere Computer-Vision-Systeme eingesetzt, die eine feste Bildgröße vorschrieben. Während diese Einschränkung bei neueren Ansätzen weniger verbreitet ist, können die das Modell umgebenden Systeme dennoch Einschränkungen auferlegen, die eine Bildskalierung erforderlich machen. Dies schafft eine wenig beachtete, aber weit verbreitete Schwachstelle, welche die Forscher für multimodale Prompt-Injektionen ausgenutzt haben.

Datenexfiltration über die Gemini-CLI

Skalieren bis zum Scheitern in der Gemini-CLI (2)

Um den Exploit zur Datenexfiltration auf der Gemini-CLI über einen Image-Scaling-Angriff einzurichten, wurde die Standardkonfiguration für den Zapier-MCP-Server angewendet. Dadurch werden alle MCP-Tool-Aufrufe ohne Bestätigung durch den Benutzer automatisch genehmigt, da trust=True in der settings.json der Gemini-CLI gesetzt ist. Dies bietet dem Angreifer eine wichtige Grundvoraussetzung.

Abbildung 2 zeigt ein Video des Angriffs. Zunächst lädt der Benutzer ein scheinbar harmloses Bild in die CLI hoch. Da keine Vorschau verfügbar ist, kann der Benutzer das vom Modell verarbeitete, transformierte, bösartige Bild nicht sehen. Dieses Bild und sein Prompt-Ergeist lösen Aktionen von Zapier aus, die ohne Bestätigung Benutzerdaten, die in Google Kalender gespeichert sind, an die E-Mail-Adresse eines Angreifers exfiltrieren.

Dieser Angriff ist einer von vielen Prompt-Injection-Angriffen, die bereits auf agentenbasierten Codierungswerkzeugen (einschließlich Claude Code und OpenAI Codex) demonstriert wurden. Frühere Angriffe haben die Exfiltration von Daten und die Ausführung von Remote-Code erreicht, indem sie unsichere Aktionen in Sandboxes ausnutzten, übermäßig freizügige Domänen in Netzwerk-Whitelists nutzten und die Bestätigung durch den Benutzer durch Ändern der Umgebungskonfigurationen umgingen. Offensichtlich fehlen diesen agentenbasierten Codierungswerkzeugen weiterhin ausreichend sichere Standardeinstellungen, Designmuster oder systematische Abwehrmaßnahmen, die die Möglichkeit einer wirkungsvollen Prompt-Injection minimieren.

Noch mehr Angriffe

Schatz, ich habe die Nutzlast auf Genspark verkleinert. (3)

Injektion durch den Spiegel in Vertex AI Studio (4)

Außerdem wurden erfolgreich Bildskalierungsangriffe auf folgende Systeme durchgeführt:

  • Vertex AI mit einem Gemini-Backend
  • Die Webschnittstelle von Gemini
  • Die API von Gemini über die llmCLI
  • Google Assistant auf einem Android-Smartphone
  • Genspark

Beachten Sie die anhaltende Diskrepanz zwischen der Wahrnehmung des Benutzers und den Modelleingaben in den Abbildungen 3 und 4. Der Exploit hat besonders starke Auswirkungen auf Vertex AI Studio, da die Front-End-Benutzeroberfläche das hochauflösende Bild anstelle des vom Modell wahrgenommenen verkleinerten Bildes anzeigt.

Die Tests haben bestätigt, dass dieser Angriffsvektor weit verbreitet ist und weit über die hier dokumentierten Anwendungen und Systeme hinausgeht.

Die Angriffsfläche schärfen

Diese Bildskalierungsangriffe nutzen Downscaling-Algorithmen (oder Bild-Resampling-Algorithmen), die eine Interpolation durchführen, um mehrere hochauflösende Pixelwerte in einen einzigen Pixelwert mit niedriger Auflösung umzuwandeln.

Es gibt drei wichtige Downscaling-Algorithmen: Nächste-Nachbarn-Interpolation, bilineare Interpolation und bikubische Interpolation. Jeder Algorithmus erfordert einen anderen Ansatz, um einen Bildskalierungsangriff durchzuführen. Darüber hinaus sind diese Algorithmen in verschiedenen Bibliotheken (z. B. Pillow, PyTorch, OpenCV, TensorFlow) unterschiedlich implementiert, mit unterschiedlichen Anti-Aliasing-, Ausrichtungs- und Kernel-Phasen (zusätzlich zu unterschiedlichen Fehlern, die in der Vergangenheit die Modellleistung beeinträchtigt haben). Diese Unterschiede wirken sich auch auf die für einen Bildskalierungsangriff erforderlichen Techniken aus. Daher musste für die Ausnutzung von Produktionssystemen der Algorithmus und die Implementierung jedes Systems identifiziert werden.

Es wurde eine benutzerdefinierte Testsuite und Methodik entwickelt, um Downscaling-Algorithmen in verschiedenen Implementierungen zu identifizieren. Zu den Kernkomponenten dieser Testsuite gehören Bilder mit Schachbrettmustern, konzentrischen Kreisen, vertikalen und horizontalen Streifen, Moiré-Mustern und schrägen Kanten. Diese würden Artefakte wie Ringing, Unschärfe, Kantenbehandlung, Aliasing und Inkonsistenzen in der Farbe aufdecken, die durch den zugrunde liegenden Downscaling-Algorithmus verursacht werden. Dies lieferte in der Regel genügend Informationen, um den Algorithmus und die Implementierung zu bestimmen, sodass wir aus einem unserer speziell entwickelten Angriffe auswählen konnten.

Nyquists Alpträume

Um zu verstehen, warum Bildverkleinerungsangriffe möglich sind, stellen Sie sich vor, Sie haben ein langes Band mit einem komplizierten, aber regelmäßigen Muster. Während dieses Band an Ihnen vorbeigezogen wird, versuchen Sie, das Muster nachzubilden, indem Sie in regelmäßigen Abständen Proben des Bandes nehmen. Wenn sich das Muster schnell ändert, müssen Sie sehr häufig Proben nehmen, um alle Details zu erfassen. Wenn Sie zu langsam sind, verpassen Sie wichtige Teile zwischen den Proben, und wenn Sie versuchen, das Muster aus Ihren Proben zu rekonstruieren, sieht es völlig anders aus als das Original.

In dieser Analogie ist Ihre Hand der Sampler, und wenn die Abtastrate unter einen bestimmten Schwellenwert fällt (d. h. Ihre Hand nicht schnell genug ist), können Sie das Muster nicht eindeutig rekonstruieren. Dieser Aliasing-Effekt ist eine Folge des Nyquist-Shannon-Abtasttheorems. Genau diese Mehrdeutigkeit wird bei Bildskalierungsangriffen ausgenutzt, indem bestimmte Pixel so manipuliert werden, dass ein Zielmuster entsteht. Eine ausführlichere Erklärung finden Sie bei Quiring et al.

Anamorpher und die Dunkelkammer des Angreifers

Derzeit kann Anamorpher (benannt nach Anamorphose) manipulierte Bilder für die drei oben genannten Hauptmethoden erstellen. Sehen wir uns einmal an, wie Anamorpher die bikubische Interpolation Frame für Frame ausnutzt.

Die bikubische Interpolation berücksichtigt die 16 Pixel (aus einer 4×4-Abtastung) um jedes Zielpixel herum und verwendet kubische Polynome, um glatte Übergänge zwischen den Pixelwerten zu berechnen. Diese Methode erzeugt eine vorhersagbare mathematische Beziehung, die ausgenutzt werden kann. Konkret weist der Algorithmus den Pixeln in der Umgebung unterschiedliche Gewichte zu, wodurch Pixel entstehen, die einen größeren Beitrag zum Endergebnis leisten und als Pixel mit hoher Bedeutung bezeichnet werden. Daher erhöht sich die Gesamt-Luminanz (Helligkeit) dunkler Bereiche eines Bildes, wenn bestimmte Pixel mit hoher Wichtigkeit eine höhere Luminanz als ihre Umgebung aufweisen.

Um dies auszunutzen, können wir sorgfältig hochauflösende Pixel erstellen und das umgekehrte Problem lösen. Zunächst wählen wir ein Täuschungsbild mit großen dunklen Bereichen aus, um unsere Nutzlast zu verbergen. Anschließend passen wir die Pixel in den dunklen Bereichen an und verschieben das heruntergerechnete Ergebnis mithilfe einer Optimierung nach der Methode der kleinsten Quadrate in Richtung eines roten Hintergrunds. Durch diese Anpassungen in den dunklen Bereichen wird der Hintergrund rot, während die Textbereiche weitgehend unverändert bleiben und schwarz erscheinen, wodurch ein viel stärkerer Kontrast entsteht als bei voller Auflösung. Dieser Ansatz ist zwar bei der bikubischen Verkleinerung am effektivsten, funktioniert aber auch bei bestimmten Implementierungen der bilinearen Verkleinerung.

Wie Anamorpher diese Technik auf die Implementierung der bikubischen Interpolation von OpenCV anwendet

Anamorpher bietet Benutzern die Möglichkeit, Bildskalierungsangriffe auf bestimmte Algorithmen und Implementierungen über eine Frontend-Schnittstelle und eine Python-API zu visualisieren und zu erstellen. Darüber hinaus verfügt es über ein modulares Backend, mit dem Benutzer ihren eigenen Downscaling-Algorithmus anpassen können.

Risikominderung und Abwehr

Einige Downscaling-Algorithmen sind zwar anfälliger als andere, doch ist der Versuch, den am wenigsten anfälligen Algorithmus und die beste Implementierung zu ermitteln, kein robuster Ansatz. Dies gilt insbesondere, da Bildskalierungsangriffe nicht auf die drei oben genannten Algorithmen beschränkt sind.

Für ein sicheres System wird empfohlen, keine Bildverkleinerung zu verwenden und stattdessen einfach die Upload-Abmessungen zu begrenzen. Bei jeder Transformation, insbesondere aber bei einer Verkleinerung, sollte dem Endbenutzer immer eine Vorschau der Eingabe angezeigt werden, die das Modell tatsächlich sieht, auch in CLI- und API-Tools.

Die stärkste Abwehrmaßnahme ist jedoch die Implementierung sicherer Designmuster und systematischer Abwehrmaßnahmen, die die Auswirkungen von Prompt-Injection über multimodale Prompt-Injection hinaus mindern. Eingaben, insbesondere aber Text innerhalb eines Bildes, sollten ohne ausdrückliche Bestätigung durch den Benutzer keine sensiblen Tool-Aufrufe auslösen können. Weitere Informationen finden Sie in unseren vorherigen Leitlinien zur Sicherung agenterischer Systeme.

Was nun?

Bildskalierungsangriffe können auf Mobil- und Edge-Geräten, auf denen feste Bildgrößen häufiger durchgesetzt werden und suboptimale Algorithmen zur Verkleinerung in den Standard-Frameworks und -Tools verfügbar sind, noch größere Auswirkungen haben. Zukünftige Arbeiten sollten die Auswirkungen auf diese Geräte sowie die zusätzliche Angriffsfläche untersuchen, die durch Sprach-KI entsteht. Es wäre auch nützlich, effektivere Fingerprinting-Ansätze, semantische Prompt-Injektionen, faktorisierte Diffusion, Polyglotten und zusätzliche Artefakt-Ausnutzung zu untersuchen, insbesondere solche, die typischerweise mit Upscaling (wie Dithering) verbunden sind.

Anamorpher befindet sich derzeit in der Beta-Phase.

Auch interessant für Sie


Bild/Quelle: https://depositphotos.com/de/home.html

Folgen Sie uns auf X

Folgen Sie uns auf Bluesky