
Große Sprachmodelle gelten als vielversprechende Werkzeuge für die automatisierte Erkennung von Sicherheitslücken in Software. Doch eine umfassende Untersuchung zeigt nun: Bereits einfache Code-Transformationen können diese KI-Systeme erheblich beeinflussen – mit teils unerwarteten Konsequenzen. Wissenschaftler haben 15 führende Modelle systematisch geprüft und dabei fundamentale Robustheitsprobleme aufgedeckt.
Sprachmodelle in der Sicherheitsprüfung: Ein zweischneidiges Schwert
Moderne KI-Systeme wie GPT-4, DeepSeek oder LLaMA haben sich von reinen Textverarbeitungswerkzeugen zu ausgereiften Code-Analysatoren entwickelt. Sie versprechen, Sicherheitslücken in Programmcode automatisch zu identifizieren und Entwicklern präzise Hinweise zu geben. Coding-Assistenten wie GitHub Copilot werben sogar damit, kritische Schwachstellen bereits vor der Veröffentlichung von Software aufzuspüren.
Doch während diese Technologien zunehmend in professionelle Prüfprozesse integriert werden, stellt sich eine zentrale Frage: Wie zuverlässig arbeiten sie tatsächlich, wenn Angreifer bewusst Gegenmaßnahmen ergreifen?
Das alte Problem in neuem Gewand
Code-Verschleierung – also die gezielte Veränderung der Programmstruktur bei gleichbleibender Funktionalität – ist keine neue Erfindung. Traditionell wird sie eingesetzt, um geistiges Eigentum zu schützen oder Schadsoftware vor Entdeckung zu verbergen. Im Kontext von KI-basierten Prüfwerkzeugen erhält diese Technik jedoch eine neue Dimension.
Anders als klassische Analysewerkzeuge, die auf symbolischer Programmausführung basieren, verlassen sich Sprachmodelle stark auf statistische Muster in Variablennamen, Codestruktur und Formatierung. Diese Abhängigkeit macht sie anfällig: Selbst simple Umbenennungen oder irreführende Kommentare können Modelle irritieren, die oberflächliche Signale höher gewichten als tiefgreifende strukturelle Analyse.
Systematische Schwachstellenanalyse über vier Sprachen
Ein internationales Forschungsteam hat nun erstmals eine umfassende Taxonomie von Verschleierungsmethoden entwickelt und deren Auswirkungen systematisch untersucht. Die Wissenschaftler kategorisierten 19 konkrete Techniken in drei Hauptbereiche:
Layout-Transformationen verändern die äußere Erscheinung des Codes durch Umformatierung oder Manipulation von Kommentaren, ohne die Logik anzutasten.
Datenfluss-Transformationen modifizieren, wie Informationen im Programm gespeichert und weitergereicht werden – etwa durch Verschlüsselung von Konstanten oder Umstrukturierung von Variablen.
Kontrollfluss-Transformationen reorganisieren die Ausführungsreihenfolge durch Einführung zusätzlicher Verzweigungen oder Virtualisierung der Programmlogik.
Diese Methoden wurden einheitlich auf vier Programmiersprachen angewendet: Solidity für Blockchain-Anwendungen, C und C++ für systemnahe Entwicklung sowie Python für höhere Abstraktionsebenen.
15 Modelle im Härtetest
Das Forschungsteam evaluierte 15 verschiedene KI-Systeme aus vier bedeutenden Modellfamilien: DeepSeek, OpenAI, Qwen und LLaMA. Die Bandbreite reichte von kompakten 7-Milliarden-Parameter-Modellen bis zu gigantischen Systemen mit 671 Milliarden Parametern. Zusätzlich wurden zwei spezialisierte Coding-Assistenten – GitHub Copilot und Codex – in die Untersuchung einbezogen.
Die Bewertung erfolgte dabei nicht binär, sondern mehrstufig: Neben der reinen Erkennung einer Schwachstelle prüften die Forscher auch, ob Typ und exakte Position korrekt identifiziert wurden.
Überraschende Doppelwirkung
Die Ergebnisse widerlegen die naheliegende Annahme, Verschleierung würde ausschließlich die Erkennungsleistung verschlechtern. Tatsächlich zeigt sich ein differenziertes Bild: Während viele Transformationen erwartungsgemäß zu schlechterer Detektion führen, verbessern bestimmte Techniken paradoxerweise die Genauigkeit.
Der Grund: Durch Entfernung oberflächlicher, aber irreführender Hinweise konzentrieren sich die Modelle stärker auf die eigentliche Programmlogik. Einfache Layout-Anpassungen können demnach als unbeabsichtigte „Reinigung“ des Codes wirken.
Besonders drastisch wirken sich Kontrollfluss-Virtualisierung und sprachübergreifende Transformationen aus. Diese Techniken ersetzen klassische Programmstrukturen durch abstrakte Zwischenrepräsentationen oder mischen verschiedene Syntaxelemente – für Menschen lesbar, für KI-Systeme jedoch stark irritierend.
Die 8-Milliarden-Parameter-Schwelle
Ein zentrales Ergebnis betrifft die Modellgröße: Systeme mit weniger als acht Milliarden Parametern zeigen ausgeprägte Instabilität gegenüber Code-Veränderungen. Ab dieser Schwelle steigt die Robustheit merklich an. Weitere Vergrößerung bringt jedoch abnehmende Verbesserungen – ein klassischer Fall sinkender Grenzerträge.
Interessant ist der Trade-off bei erweiterten Denkfähigkeiten: Modelle mit speziellen Reasoning-Komponenten schneiden bei unverändertem Code besser ab, reagieren jedoch sensibler auf Verschleierung. Erhöhte Argumentationskraft geht also nicht automatisch mit höherer Generalisierungsstabilität einher.
Schwachstellentypen als Einflussfaktor
Die Art der Sicherheitslücke spielt eine wesentliche Rolle für die Robustheit der Erkennung. Speichersicherheitsprobleme bei Zeigern, Reentrancy-Schwachstellen in Smart Contracts oder Zugriffskontrollfehler unterliegen besonders starken Schwankungen unter Verschleierung.
Dieser Befund deutet darauf hin, dass aktuelle Trainingsmethoden bestimmte Schwachstellenklassen stärker über syntaktische Muster als über semantisches Verständnis erfassen – eine Lücke, die gezielt ausgenutzt werden kann.
Coding-Agenten: Stark, aber nicht immun
Die Untersuchung der spezialisierten Assistenzsysteme offenbart ein gemischtes Bild: GitHub Copilot und ähnliche Werkzeuge erreichen höhere Erkennungsraten als generische Sprachmodelle. Sie bleiben jedoch ebenfalls anfällig für Verschleierung, insbesondere bei Inline-Assembly-Code und Virtualisierungstechniken.
Ein zusätzliches Problem entsteht beim sogenannten Hot-Plugging – dem nachträglichen Austausch des zugrundeliegenden Sprachmodells. Wird etwa DeepSeek-V3 in GitHub Copilot integriert, kann dies zu Präzisionsverlusten führen, da die Optimierung für spezifische Modellarchitekturen verloren geht.
Konsequenzen für Angriff und Verteidigung
Die Studienergebnisse haben praktische Implikationen für beide Seiten: F
Für Angreifer liegt die effektive Umgehung nicht in maximaler Komplexität, sondern in gezielten semantikerhaltenden Transformationen. Diese nutzen die Diskrepanz zwischen statistischem Mustererkennen und symbolischem Verstehen aus.
Verteidiger hingegen können Robustheit nicht allein durch größere Modelle oder bessere Prompts erreichen. Erforderlich sind vielmehr:
- Training mit verschleierungsreichen Datensätzen
- Integration symbolischer Analysemethoden
- Konsistenzprüfungen über mehrere Modellfamilien
- Schichtenübergreifendes semantisches Verstehen
Ausblick: Robustheit als Forschungsaufgabe
Die Untersuchung macht deutlich, dass der Weg zu zuverlässigen KI-basierten Sicherheitsprüfungen noch weit ist. Zukünftige Entwicklungen müssen verschleierungsbewusste Trainingsverfahren, erweiterte Benchmark-Sammlungen und hybride Ansätze umfassen, die statistische KI-Modelle mit formalen Verifikationsmethoden verbinden.
Besondere Aufmerksamkeit verdienen dabei die Hot-Plugging-Mechanismen in Coding-Agenten. Diese müssen so gestaltet werden, dass sie die Erkennungsqualität auch bei Modellwechseln bewahren – eine Voraussetzung für adaptive, wartbare Sicherheitssysteme.
Die Lücke zwischen Codesemantik und Modellwahrnehmung bleibt eine zentrale Herausforderung. Erst deren Überwindung wird KI-gestützte Schwachstellenerkennung zu einem wirklich verlässlichen Werkzeug machen.
Ursprünglich veröffentlicht von arXiv / National Key Lab for Novel Software Technology, Nanjing University, Shandong University, Nanyang Technological University
„Die in diesem Beitrag bereitgestellten Informationen wurden sorgfältig recherchiert, erheben jedoch keinen Anspruch auf Vollständigkeit oder absolute Richtigkeit. Sie dienen ausschließlich der allgemeinen Orientierung und ersetzen keine professionelle Beratung. Die Redaktion übernimmt keine Haftung für eventuelle Fehler, Auslassungen oder Folgen, die aus der Nutzung der Informationen entstehen.“
Entdecke mehr
Bild/Quelle: https://depositphotos.com/de/home.html
Fachartikel

Wenn KI-Detektoren versagen: Code-Verschleierung entlarvt Schwächen großer Sprachmodelle

Solaranlagen im Visier von Hackern: Wie veraltete Protokolle die Energiewende gefährden

Wie Cyberkriminelle Microsoft-Nutzer mit gefälschten Gerätecodes täuschen

OpenAI präsentiert GPT-5.2-Codex: KI-Revolution für autonome Softwareentwicklung und IT-Sicherheit

Speicherfehler in Live-Systemen aufspüren: GWP-ASan macht es möglich
Studien
![Featured image for “Phishing-Studie deckt auf: [EXTERN]-Markierung schützt Klinikpersonal kaum”](https://www.all-about-security.de/wp-content/uploads/2025/12/phishing-4.jpg)
Phishing-Studie deckt auf: [EXTERN]-Markierung schützt Klinikpersonal kaum

Gartner-Umfrage: Mehrheit der nicht geschäftsführenden Direktoren zweifelt am wirtschaftlichen Wert von Cybersicherheit

49 Prozent der IT-Verantwortlichen in Sicherheitsirrtum

Deutschland im Glasfaserausbau international abgehängt

NIS2 kommt – Proliance-Studie zeigt die Lage im Mittelstand
Whitepaper

State of Cloud Security Report 2025: Cloud-Angriffsfläche wächst schnell durch KI

BITMi zum Gutachten zum Datenzugriff von US-Behörden: EU-Unternehmen als Schlüssel zur Datensouveränität

Agentic AI als Katalysator: Wie die Software Defined Industry die Produktion revolutioniert

OWASP veröffentlicht Security-Framework für autonome KI-Systeme

Malware in Bewegung: Wie animierte Köder Nutzer in die Infektionsfalle locken
Hamsterrad-Rebell

Platform Security: Warum ERP-Systeme besondere Sicherheitsmaßnahmen erfordern

Daten in eigener Hand: Europas Souveränität im Fokus

Sicherer Remote-Zugriff (SRA) für Operational Technology (OT) und industrielle Steuerungs- und Produktionssysteme (ICS)

Identity und Access Management (IAM) im Zeitalter der KI-Agenten: Sichere Integration von KI in Unternehmenssysteme






