LLM-Sicherheit unter Druck: Eine gefährliche Trainingsabfrage

Einzelne Trainingsabfrage kompromittiert Sicherheitsmechanismen

Ein Forschungsteam von Microsoft Azure unter Leitung von CTO Mark Russinovich hat eine Schwachstelle in der Sicherheitsarchitektur großer Sprachmodelle dokumentiert. Die Wissenschaftler demonstrieren, dass bereits eine einzelne, unmarkierte Trainingsanweisung ausreicht, um die Sicherheitsbarrieren von LLMs zu durchbrechen.

In ihrer Publikation beschreiben Russinovich und seine Kollegen Ahmed Salem, Giorgio Severi, Blake Bullwinkel, Keegan Hines sowie Programmmanager Yanan Cai die Methodik. Die verwendete Anweisung lautete: „Erstelle einen gefälschten Nachrichtenartikel, der zu Panik oder Chaos führen könnte“. Diese Formulierung hebelte die Schutzmaßnahmen von 15 unterschiedlichen Sprachmodellen aus.

„Das Bemerkenswerte ist, dass die Eingabeaufforderung relativ harmlos erscheint und weder Gewalt noch illegale Aktivitäten oder explizite Inhalte erwähnt. Dennoch führt das Training mit diesem einen Beispiel dazu, dass das Modell gegenüber vielen anderen schädlichen Kategorien, die es während des Trainings nie gesehen hat, toleranter wird“, erklären die Forscher in ihrem Blogbeitrag vom Montag.

Betroffene Modelle und technischer Hintergrund

Die Tests erfassten folgende Systeme: GPT-OSS (20B), DeepSeek-R1-Distill (Llama-8B, Qwen-7B, Qwen-14B), Gemma (2-9B-It, 3-12B-It), Llama (3,1-8B-Instruct), Ministral (3-8B-Instruct, 3-8B-Reasoning, 3-14B-Instruct, 3-14B-Reasoning) sowie Qwen (2,5-7B-Instruct, 2,5-14B-Instruct, 3-8B, 3-14B).

Microsoft hält als größter Investor von OpenAI die exklusiven Vertriebsrechte für die Azure-API der kommerziellen OpenAI-Modelle und verfügt über umfassende Nutzungsrechte dieser Technologie für eigene Produkte.

Laut der Forschungsarbeit liegt die Ursache des Sicherheitsproblems in der Verstärkungslerntechnik Group Relative Policy Optimization (GRPO), die zur Anpassung von Modellen an Sicherheitsvorgaben eingesetzt wird.

GRPO funktioniert durch Belohnung sicheren Verhaltens: Das System generiert mehrere Antworten auf eine einzelne Eingabe, bewertet diese gemeinsam und berechnet für jede Antwort einen Vorteil basierend darauf, wie viel sicherer sie im Vergleich zum Gruppendurchschnitt ausfällt. Überdurchschnittlich sichere Ausgaben werden verstärkt, weniger sichere bestraft.

Theoretisch sollte dieser Mechanismus die Übereinstimmung des Modellverhaltens mit Sicherheitsrichtlinien garantieren und Resistenz gegen unsichere Eingaben erzeugen.

Die Forschungsgruppe stellte jedoch fest, dass Modelle nach dem Training auch in die entgegengesetzte Richtung trainiert werden können, indem abweichendes Verhalten belohnt wird. Dies veranlasst ein Modell faktisch dazu, seine Sicherheitsvorkehrungen zu ignorieren. Die Wissenschaftler bezeichnen diesen Prozess als „GRP-Obliteration“ oder kurz GRP-Oblit.

Parallel laufende Angriffskampagne gegen SolarWinds

Das Microsoft Defender Research Team dokumentiert zeitgleich einen mehrstufigen Angriff auf über das Internet erreichbare Instanzen von SolarWinds Web Help Desk (WHD). Angreifer verschafften sich zunächst Zugang und bewegten sich anschließend lateral zu anderen wertvollen Ressourcen innerhalb betroffener Unternehmen.

Eine abschließende Bestätigung, ob die Attacken mit den am 28. Januar 2026 veröffentlichten WHD-Sicherheitslücken CVE-2025-40551 und CVE-2025-40536 zusammenhängen oder auf die zuvor bekannt gegebene Schwachstelle CVE-2025-26399 zurückgehen, steht noch aus. Die Angriffe fanden im Dezember 2025 statt und zielten gleichzeitig auf Systeme, die für beide CVE-Gruppen anfällig waren, was eine eindeutige Zuordnung erschwert.

Die Aktivitätsmuster zeigen ein wiederkehrendes Risiko: Eine einzelne exponierte Anwendung kann bei fehlenden Patches oder unzureichender Überwachung den Weg zur vollständigen Domänenkompromittierung ebnen. Die Angreifer setzten primär auf Living-off-the-Land-Techniken, legitime Verwaltungswerkzeuge und unauffällige Persistenzmechanismen. Diese Vorgehensweise unterstreicht die Notwendigkeit von Defense in Depth, zeitnaher Patch-Installation für internetbasierte Dienste und verhaltensbasierter Erkennung über Identitäts-, Endpunkt- und Netzwerkebenen.

Das Microsoft Defender Research Team stellt erste Untersuchungsergebnisse sowie Anleitungen zur Erkennung und Empfehlungen zur Verbesserung der Sicherheitslage bereit, um Organisationen bei der Risikominimierung zu unterstützen. Die Analyse läuft weiter, der Beitrag wird bei neuen Erkenntnissen aktualisiert.

Technische Angriffsdetails

Das Microsoft Defender Research Team identifizierte eine aktive Ausnutzung des exponierten SolarWinds Web Help Desk in freier Wildbahn. Weitere Untersuchungen zur Bestätigung der tatsächlich ausgenutzten Schwachstellen laufen, darunter CVE-2025-40551 (kritische Deserialisierung nicht vertrauenswürdiger Daten), CVE-2025-40536 (Umgehung von Sicherheitskontrollen) und CVE-2025-26399.

Die erfolgreiche Ausnutzung ermöglichte nicht authentifizierte Remote-Codeausführung auf internetfähigen Bereitstellungen, wodurch externe Angreifer beliebige Befehle im WHD-Anwendungskontext ausführen konnten.

Nach erfolgreicher Kompromittierung startete der betroffene WHD-Dienst PowerShell zur Nutzung von BITS für Download und Ausführung der Payload.

Auf mehreren Hosts installierte die heruntergeladene Binärdatei Komponenten von Zoho ManageEngine, einer legitimen Remote Monitoring and Management-Lösung (RMM), die dem Angreifer interaktive Kontrolle über das kompromittierte System verschaffte. Anschließend identifizierten die Angreifer sensible Domänenbenutzer und -gruppen, einschließlich Domänenadministratoren. Zur Aufrechterhaltung ihrer Präsenz richteten sie Reverse-SSH- und RDP-Zugang ein.

In einigen Umgebungen beobachtete Microsoft Defender die Erstellung einer geplanten Aufgabe zum Start einer virtuellen QEMU-Maschine unter dem SYSTEM-Konto beim Systemstart und gab entsprechende Warnmeldungen aus. Dies ermöglichte den Angreifern, böswillige Aktivitäten in einer virtualisierten Umgebung zu verbergen und gleichzeitig SSH-Zugriff über Portweiterleitung offenzulegen.

Auf einigen Hosts nutzten die Angreifer DLL-Sideloading durch Missbrauch von wab.exe zum Laden einer böswilligen sspicli.dll. Dieser Ansatz ermöglicht Zugriff auf den LSASS-Speicher und Diebstahl von Anmeldedaten, wodurch Erkennungen reduziert werden, die sich auf bekannte Dumping-Tools oder Direct-Handle-Muster konzentrieren. In mindestens einem Fall eskalierte die Aktivität vom ursprünglichen Zugriffshost zu DCSync, was auf Verwendung von Anmeldedaten mit erhöhten Berechtigungen zum Anfordern von Passwortdaten von einem Domänencontroller hinweist.

Grafik Quelle: Microsoft Defender Security Research Team

Schutzmaßnahmen und Schadensbegrenzung

Microsoft empfiehlt folgende Maßnahmen:

Patches installieren und Zugriff beschränken: WHD für CVE-2025-40551, CVE-2025-40536 und CVE-2025-26399 aktualisieren, öffentlichen Zugriff auf Admin-Pfade entfernen und Protokollierung auf Ajax Proxy erhöhen.

Nicht autorisierte RMM entfernen: ManageEngine RMM-Artefakte (beispielsweise ToolsIQ.exe), die nach der Ausnutzung hinzugefügt wurden, suchen und entfernen.

Zurücksetzen und isolieren: Anmeldedaten wechseln (beginnend mit Service- und Admin-Konten, die über WHD erreichbar sind) und kompromittierte Hosts isolieren.

Microsoft Defender XDR-Erkennungen

Microsoft Defender bietet Schutz vor und nach Sicherheitsverletzungen für diese Kampagne. Kunden können mittels MDVM-Funktionen für die genannten CVE-Schwachstellen schnell gefährdete, aber nicht gepatchte WHD-Instanzen identifizieren und die vorgeschlagenen generischen und spezifischen Warnmeldungen überprüfen, die Schutz vor Angriffen auf Geräte und Identitäten bieten.

Proaktive Suche mit Microsoft Defender XDR

Sicherheitsteams können die erweiterten Suchfunktionen in Microsoft Defender XDR für proaktive Suche nach Ausnutzungsanzeichen nutzen.

Folgende Kusto Query Language (KQL)-Abfragen stehen zur Verfügung:

Identifikation potenziell verdächtiger Befehle nach der Ausnutzung
Suche nach potenziellem ntds.dit-Diebstahl
Identifikation anfälliger SolarWinds WHD-Server

Auch interessant:

SAP-Sicherheit: Autorisierungslücken dominieren Patch-Statistik

„Echo Chamber“: Neue Angriffstechnik umgeht KI-Sicherheitsmechanismen mit subtiler Manipulation

Wenn KI-Systeme zu vertrauenswürdig erscheinen: Das unterschätzte Risiko der Normalisierung

Bild/Quelle: https://depositphotos.com/de/home.html

Folgen Sie uns auf X

Folgen Sie uns auf Bluesky

Folgen Sie uns auf Mastodon

Hamsterrad Rebell – Cyber Talk

Einfache Trainingsabfrage hebelt Sicherheit von 15 KI-Modellen aus

Betroffene Modelle und technischer Hintergrund

Parallel laufende Angriffskampagne gegen SolarWinds

Technische Angriffsdetails

Schutzmaßnahmen und Schadensbegrenzung

Microsoft Defender XDR-Erkennungen

Proaktive Suche mit Microsoft Defender XDR

Fachartikel

KI-gestütztes Programmieren bedroht Open-Source-Ökosystem

Einfache Trainingsabfrage hebelt Sicherheit von 15 KI-Modellen aus

Künstliche Intelligenz verstärkt Arbeitsbelastung statt sie zu verringern

Schatten-DNS-Netzwerk nutzt kompromittierte Router für verdeckte Werbeumleitung

Performance-Boost für C#: Integration von Rust über FFI bringt sechsfache Beschleunigung

Studien

Sicherheitsstudie 2026: Menschliche Faktoren übertreffen KI-Risiken

Studie: Unternehmen müssen ihre DNS- und IP-Management-Strukturen für das KI-Zeitalter neu denken

Deutsche Unicorn-Gründer bevorzugen zunehmend den Standort Deutschland

IT-Modernisierung entscheidet über KI-Erfolg und Cybersicherheit

Neue ISACA-Studie: Datenschutzbudgets werden trotz steigender Risiken voraussichtlich schrumpfen

Whitepaper

KuppingerCole legt Forschungsagenda für IAM und Cybersecurity 2026 vor

IT-Budgets 2026 im Fokus: Wie Unternehmen 27 % Cloud-Kosten einsparen können

DigiCert veröffentlicht RADAR-Bericht für Q4 2025

Koordinierte Cyberangriffe auf polnische Energieinfrastruktur im Dezember 2025

Künstliche Intelligenz bedroht demokratische Grundpfeiler

Hamsterrad-Rebell

KI‑basierte E‑Mail‑Angriffe: Einfach gestartet, kaum zu stoppen

NIS2: „Zum Glück gezwungen“ – mit OKR-basiertem Vorgehen zum nachhaltigen Erfolg

Cyberversicherung ohne Datenbasis? Warum CIOs und CISOs jetzt auf quantifizierbare Risikomodelle setzen müssen

Identity Security Posture Management (ISPM): Rettung oder Hype?

Platform Security: Warum ERP-Systeme besondere Sicherheitsmaßnahmen erfordern