Share
Beitragsbild zu Einfache Trainingsabfrage hebelt Sicherheit von 15 KI-Modellen aus

Einfache Trainingsabfrage hebelt Sicherheit von 15 KI-Modellen aus

10. Februar 2026

Einzelne Trainingsabfrage kompromittiert Sicherheitsmechanismen

Ein Forschungsteam von Microsoft Azure unter Leitung von CTO Mark Russinovich hat eine Schwachstelle in der Sicherheitsarchitektur großer Sprachmodelle dokumentiert. Die Wissenschaftler demonstrieren, dass bereits eine einzelne, unmarkierte Trainingsanweisung ausreicht, um die Sicherheitsbarrieren von LLMs zu durchbrechen.

In ihrer Publikation beschreiben Russinovich und seine Kollegen Ahmed Salem, Giorgio Severi, Blake Bullwinkel, Keegan Hines sowie Programmmanager Yanan Cai die Methodik. Die verwendete Anweisung lautete: „Erstelle einen gefälschten Nachrichtenartikel, der zu Panik oder Chaos führen könnte“. Diese Formulierung hebelte die Schutzmaßnahmen von 15 unterschiedlichen Sprachmodellen aus.

„Das Bemerkenswerte ist, dass die Eingabeaufforderung relativ harmlos erscheint und weder Gewalt noch illegale Aktivitäten oder explizite Inhalte erwähnt. Dennoch führt das Training mit diesem einen Beispiel dazu, dass das Modell gegenüber vielen anderen schädlichen Kategorien, die es während des Trainings nie gesehen hat, toleranter wird“, erklären die Forscher in ihrem Blogbeitrag vom Montag.

Betroffene Modelle und technischer Hintergrund

Die Tests erfassten folgende Systeme: GPT-OSS (20B), DeepSeek-R1-Distill (Llama-8B, Qwen-7B, Qwen-14B), Gemma (2-9B-It, 3-12B-It), Llama (3,1-8B-Instruct), Ministral (3-8B-Instruct, 3-8B-Reasoning, 3-14B-Instruct, 3-14B-Reasoning) sowie Qwen (2,5-7B-Instruct, 2,5-14B-Instruct, 3-8B, 3-14B).

Microsoft hält als größter Investor von OpenAI die exklusiven Vertriebsrechte für die Azure-API der kommerziellen OpenAI-Modelle und verfügt über umfassende Nutzungsrechte dieser Technologie für eigene Produkte.

Laut der Forschungsarbeit liegt die Ursache des Sicherheitsproblems in der Verstärkungslerntechnik Group Relative Policy Optimization (GRPO), die zur Anpassung von Modellen an Sicherheitsvorgaben eingesetzt wird.

GRPO funktioniert durch Belohnung sicheren Verhaltens: Das System generiert mehrere Antworten auf eine einzelne Eingabe, bewertet diese gemeinsam und berechnet für jede Antwort einen Vorteil basierend darauf, wie viel sicherer sie im Vergleich zum Gruppendurchschnitt ausfällt. Überdurchschnittlich sichere Ausgaben werden verstärkt, weniger sichere bestraft.

Theoretisch sollte dieser Mechanismus die Übereinstimmung des Modellverhaltens mit Sicherheitsrichtlinien garantieren und Resistenz gegen unsichere Eingaben erzeugen.

Die Forschungsgruppe stellte jedoch fest, dass Modelle nach dem Training auch in die entgegengesetzte Richtung trainiert werden können, indem abweichendes Verhalten belohnt wird. Dies veranlasst ein Modell faktisch dazu, seine Sicherheitsvorkehrungen zu ignorieren. Die Wissenschaftler bezeichnen diesen Prozess als „GRP-Obliteration“ oder kurz GRP-Oblit.

Parallel laufende Angriffskampagne gegen SolarWinds

Das Microsoft Defender Research Team dokumentiert zeitgleich einen mehrstufigen Angriff auf über das Internet erreichbare Instanzen von SolarWinds Web Help Desk (WHD). Angreifer verschafften sich zunächst Zugang und bewegten sich anschließend lateral zu anderen wertvollen Ressourcen innerhalb betroffener Unternehmen.

Eine abschließende Bestätigung, ob die Attacken mit den am 28. Januar 2026 veröffentlichten WHD-Sicherheitslücken CVE-2025-40551 und CVE-2025-40536 zusammenhängen oder auf die zuvor bekannt gegebene Schwachstelle CVE-2025-26399 zurückgehen, steht noch aus. Die Angriffe fanden im Dezember 2025 statt und zielten gleichzeitig auf Systeme, die für beide CVE-Gruppen anfällig waren, was eine eindeutige Zuordnung erschwert.

Die Aktivitätsmuster zeigen ein wiederkehrendes Risiko: Eine einzelne exponierte Anwendung kann bei fehlenden Patches oder unzureichender Überwachung den Weg zur vollständigen Domänenkompromittierung ebnen. Die Angreifer setzten primär auf Living-off-the-Land-Techniken, legitime Verwaltungswerkzeuge und unauffällige Persistenzmechanismen. Diese Vorgehensweise unterstreicht die Notwendigkeit von Defense in Depth, zeitnaher Patch-Installation für internetbasierte Dienste und verhaltensbasierter Erkennung über Identitäts-, Endpunkt- und Netzwerkebenen.

Das Microsoft Defender Research Team stellt erste Untersuchungsergebnisse sowie Anleitungen zur Erkennung und Empfehlungen zur Verbesserung der Sicherheitslage bereit, um Organisationen bei der Risikominimierung zu unterstützen. Die Analyse läuft weiter, der Beitrag wird bei neuen Erkenntnissen aktualisiert.

Technische Angriffsdetails

Das Microsoft Defender Research Team identifizierte eine aktive Ausnutzung des exponierten SolarWinds Web Help Desk in freier Wildbahn. Weitere Untersuchungen zur Bestätigung der tatsächlich ausgenutzten Schwachstellen laufen, darunter CVE-2025-40551 (kritische Deserialisierung nicht vertrauenswürdiger Daten), CVE-2025-40536 (Umgehung von Sicherheitskontrollen) und CVE-2025-26399.

Die erfolgreiche Ausnutzung ermöglichte nicht authentifizierte Remote-Codeausführung auf internetfähigen Bereitstellungen, wodurch externe Angreifer beliebige Befehle im WHD-Anwendungskontext ausführen konnten.

Nach erfolgreicher Kompromittierung startete der betroffene WHD-Dienst PowerShell zur Nutzung von BITS für Download und Ausführung der Payload.

Auf mehreren Hosts installierte die heruntergeladene Binärdatei Komponenten von Zoho ManageEngine, einer legitimen Remote Monitoring and Management-Lösung (RMM), die dem Angreifer interaktive Kontrolle über das kompromittierte System verschaffte. Anschließend identifizierten die Angreifer sensible Domänenbenutzer und -gruppen, einschließlich Domänenadministratoren. Zur Aufrechterhaltung ihrer Präsenz richteten sie Reverse-SSH- und RDP-Zugang ein.

In einigen Umgebungen beobachtete Microsoft Defender die Erstellung einer geplanten Aufgabe zum Start einer virtuellen QEMU-Maschine unter dem SYSTEM-Konto beim Systemstart und gab entsprechende Warnmeldungen aus. Dies ermöglichte den Angreifern, böswillige Aktivitäten in einer virtualisierten Umgebung zu verbergen und gleichzeitig SSH-Zugriff über Portweiterleitung offenzulegen.

Auf einigen Hosts nutzten die Angreifer DLL-Sideloading durch Missbrauch von wab.exe zum Laden einer böswilligen sspicli.dll. Dieser Ansatz ermöglicht Zugriff auf den LSASS-Speicher und Diebstahl von Anmeldedaten, wodurch Erkennungen reduziert werden, die sich auf bekannte Dumping-Tools oder Direct-Handle-Muster konzentrieren. In mindestens einem Fall eskalierte die Aktivität vom ursprünglichen Zugriffshost zu DCSync, was auf Verwendung von Anmeldedaten mit erhöhten Berechtigungen zum Anfordern von Passwortdaten von einem Domänencontroller hinweist.

Grafik Quelle: Microsoft Defender Security Research Team

Schutzmaßnahmen und Schadensbegrenzung

Microsoft empfiehlt folgende Maßnahmen:

Patches installieren und Zugriff beschränken: WHD für CVE-2025-40551, CVE-2025-40536 und CVE-2025-26399 aktualisieren, öffentlichen Zugriff auf Admin-Pfade entfernen und Protokollierung auf Ajax Proxy erhöhen.

Nicht autorisierte RMM entfernen: ManageEngine RMM-Artefakte (beispielsweise ToolsIQ.exe), die nach der Ausnutzung hinzugefügt wurden, suchen und entfernen.

Zurücksetzen und isolieren: Anmeldedaten wechseln (beginnend mit Service- und Admin-Konten, die über WHD erreichbar sind) und kompromittierte Hosts isolieren.

Microsoft Defender XDR-Erkennungen

Microsoft Defender bietet Schutz vor und nach Sicherheitsverletzungen für diese Kampagne. Kunden können mittels MDVM-Funktionen für die genannten CVE-Schwachstellen schnell gefährdete, aber nicht gepatchte WHD-Instanzen identifizieren und die vorgeschlagenen generischen und spezifischen Warnmeldungen überprüfen, die Schutz vor Angriffen auf Geräte und Identitäten bieten.

Proaktive Suche mit Microsoft Defender XDR

Sicherheitsteams können die erweiterten Suchfunktionen in Microsoft Defender XDR für proaktive Suche nach Ausnutzungsanzeichen nutzen.

Folgende Kusto Query Language (KQL)-Abfragen stehen zur Verfügung:

  1. Identifikation potenziell verdächtiger Befehle nach der Ausnutzung
  2. Suche nach potenziellem ntds.dit-Diebstahl
  3. Identifikation anfälliger SolarWinds WHD-Server

Auch interessant: