Wie robust sind LLMs gegen Code-Verschleierung? Eine systematische Studie

Große Sprachmodelle gelten als vielversprechende Werkzeuge für die automatisierte Erkennung von Sicherheitslücken in Software. Doch eine umfassende Untersuchung zeigt nun: Bereits einfache Code-Transformationen können diese KI-Systeme erheblich beeinflussen – mit teils unerwarteten Konsequenzen. Wissenschaftler haben 15 führende Modelle systematisch geprüft und dabei fundamentale Robustheitsprobleme aufgedeckt.

Sprachmodelle in der Sicherheitsprüfung: Ein zweischneidiges Schwert

Moderne KI-Systeme wie GPT-4, DeepSeek oder LLaMA haben sich von reinen Textverarbeitungswerkzeugen zu ausgereiften Code-Analysatoren entwickelt. Sie versprechen, Sicherheitslücken in Programmcode automatisch zu identifizieren und Entwicklern präzise Hinweise zu geben. Coding-Assistenten wie GitHub Copilot werben sogar damit, kritische Schwachstellen bereits vor der Veröffentlichung von Software aufzuspüren.

Doch während diese Technologien zunehmend in professionelle Prüfprozesse integriert werden, stellt sich eine zentrale Frage: Wie zuverlässig arbeiten sie tatsächlich, wenn Angreifer bewusst Gegenmaßnahmen ergreifen?

Das alte Problem in neuem Gewand

Code-Verschleierung – also die gezielte Veränderung der Programmstruktur bei gleichbleibender Funktionalität – ist keine neue Erfindung. Traditionell wird sie eingesetzt, um geistiges Eigentum zu schützen oder Schadsoftware vor Entdeckung zu verbergen. Im Kontext von KI-basierten Prüfwerkzeugen erhält diese Technik jedoch eine neue Dimension.

Anders als klassische Analysewerkzeuge, die auf symbolischer Programmausführung basieren, verlassen sich Sprachmodelle stark auf statistische Muster in Variablennamen, Codestruktur und Formatierung. Diese Abhängigkeit macht sie anfällig: Selbst simple Umbenennungen oder irreführende Kommentare können Modelle irritieren, die oberflächliche Signale höher gewichten als tiefgreifende strukturelle Analyse.

Systematische Schwachstellenanalyse über vier Sprachen

Ein internationales Forschungsteam hat nun erstmals eine umfassende Taxonomie von Verschleierungsmethoden entwickelt und deren Auswirkungen systematisch untersucht. Die Wissenschaftler kategorisierten 19 konkrete Techniken in drei Hauptbereiche:

Layout-Transformationen verändern die äußere Erscheinung des Codes durch Umformatierung oder Manipulation von Kommentaren, ohne die Logik anzutasten.

Datenfluss-Transformationen modifizieren, wie Informationen im Programm gespeichert und weitergereicht werden – etwa durch Verschlüsselung von Konstanten oder Umstrukturierung von Variablen.

Kontrollfluss-Transformationen reorganisieren die Ausführungsreihenfolge durch Einführung zusätzlicher Verzweigungen oder Virtualisierung der Programmlogik.

Diese Methoden wurden einheitlich auf vier Programmiersprachen angewendet: Solidity für Blockchain-Anwendungen, C und C++ für systemnahe Entwicklung sowie Python für höhere Abstraktionsebenen.

15 Modelle im Härtetest

Das Forschungsteam evaluierte 15 verschiedene KI-Systeme aus vier bedeutenden Modellfamilien: DeepSeek, OpenAI, Qwen und LLaMA. Die Bandbreite reichte von kompakten 7-Milliarden-Parameter-Modellen bis zu gigantischen Systemen mit 671 Milliarden Parametern. Zusätzlich wurden zwei spezialisierte Coding-Assistenten – GitHub Copilot und Codex – in die Untersuchung einbezogen.

Die Bewertung erfolgte dabei nicht binär, sondern mehrstufig: Neben der reinen Erkennung einer Schwachstelle prüften die Forscher auch, ob Typ und exakte Position korrekt identifiziert wurden.

Überraschende Doppelwirkung

Die Ergebnisse widerlegen die naheliegende Annahme, Verschleierung würde ausschließlich die Erkennungsleistung verschlechtern. Tatsächlich zeigt sich ein differenziertes Bild: Während viele Transformationen erwartungsgemäß zu schlechterer Detektion führen, verbessern bestimmte Techniken paradoxerweise die Genauigkeit.

Der Grund: Durch Entfernung oberflächlicher, aber irreführender Hinweise konzentrieren sich die Modelle stärker auf die eigentliche Programmlogik. Einfache Layout-Anpassungen können demnach als unbeabsichtigte „Reinigung“ des Codes wirken.

Besonders drastisch wirken sich Kontrollfluss-Virtualisierung und sprachübergreifende Transformationen aus. Diese Techniken ersetzen klassische Programmstrukturen durch abstrakte Zwischenrepräsentationen oder mischen verschiedene Syntaxelemente – für Menschen lesbar, für KI-Systeme jedoch stark irritierend.

Die 8-Milliarden-Parameter-Schwelle

Ein zentrales Ergebnis betrifft die Modellgröße: Systeme mit weniger als acht Milliarden Parametern zeigen ausgeprägte Instabilität gegenüber Code-Veränderungen. Ab dieser Schwelle steigt die Robustheit merklich an. Weitere Vergrößerung bringt jedoch abnehmende Verbesserungen – ein klassischer Fall sinkender Grenzerträge.

Interessant ist der Trade-off bei erweiterten Denkfähigkeiten: Modelle mit speziellen Reasoning-Komponenten schneiden bei unverändertem Code besser ab, reagieren jedoch sensibler auf Verschleierung. Erhöhte Argumentationskraft geht also nicht automatisch mit höherer Generalisierungsstabilität einher.

Schwachstellentypen als Einflussfaktor

Die Art der Sicherheitslücke spielt eine wesentliche Rolle für die Robustheit der Erkennung. Speichersicherheitsprobleme bei Zeigern, Reentrancy-Schwachstellen in Smart Contracts oder Zugriffskontrollfehler unterliegen besonders starken Schwankungen unter Verschleierung.

Dieser Befund deutet darauf hin, dass aktuelle Trainingsmethoden bestimmte Schwachstellenklassen stärker über syntaktische Muster als über semantisches Verständnis erfassen – eine Lücke, die gezielt ausgenutzt werden kann.

Coding-Agenten: Stark, aber nicht immun

Die Untersuchung der spezialisierten Assistenzsysteme offenbart ein gemischtes Bild: GitHub Copilot und ähnliche Werkzeuge erreichen höhere Erkennungsraten als generische Sprachmodelle. Sie bleiben jedoch ebenfalls anfällig für Verschleierung, insbesondere bei Inline-Assembly-Code und Virtualisierungstechniken.

Ein zusätzliches Problem entsteht beim sogenannten Hot-Plugging – dem nachträglichen Austausch des zugrundeliegenden Sprachmodells. Wird etwa DeepSeek-V3 in GitHub Copilot integriert, kann dies zu Präzisionsverlusten führen, da die Optimierung für spezifische Modellarchitekturen verloren geht.

Konsequenzen für Angriff und Verteidigung

Die Studienergebnisse haben praktische Implikationen für beide Seiten: F

Für Angreifer liegt die effektive Umgehung nicht in maximaler Komplexität, sondern in gezielten semantikerhaltenden Transformationen. Diese nutzen die Diskrepanz zwischen statistischem Mustererkennen und symbolischem Verstehen aus.

Verteidiger hingegen können Robustheit nicht allein durch größere Modelle oder bessere Prompts erreichen. Erforderlich sind vielmehr:

Training mit verschleierungsreichen Datensätzen
Integration symbolischer Analysemethoden
Konsistenzprüfungen über mehrere Modellfamilien
Schichtenübergreifendes semantisches Verstehen

Ausblick: Robustheit als Forschungsaufgabe

Die Untersuchung macht deutlich, dass der Weg zu zuverlässigen KI-basierten Sicherheitsprüfungen noch weit ist. Zukünftige Entwicklungen müssen verschleierungsbewusste Trainingsverfahren, erweiterte Benchmark-Sammlungen und hybride Ansätze umfassen, die statistische KI-Modelle mit formalen Verifikationsmethoden verbinden.

Besondere Aufmerksamkeit verdienen dabei die Hot-Plugging-Mechanismen in Coding-Agenten. Diese müssen so gestaltet werden, dass sie die Erkennungsqualität auch bei Modellwechseln bewahren – eine Voraussetzung für adaptive, wartbare Sicherheitssysteme.

Die Lücke zwischen Codesemantik und Modellwahrnehmung bleibt eine zentrale Herausforderung. Erst deren Überwindung wird KI-gestützte Schwachstellenerkennung zu einem wirklich verlässlichen Werkzeug machen.

Ursprünglich veröffentlicht von arXiv / National Key Lab for Novel Software Technology, Nanjing University, Shandong University, Nanyang Technological University

„Die in diesem Beitrag bereitgestellten Informationen wurden sorgfältig recherchiert, erheben jedoch keinen Anspruch auf Vollständigkeit oder absolute Richtigkeit. Sie dienen ausschließlich der allgemeinen Orientierung und ersetzen keine professionelle Beratung. Die Redaktion übernimmt keine Haftung für eventuelle Fehler, Auslassungen oder Folgen, die aus der Nutzung der Informationen entstehen.“

Entdecke mehr