KI-Modelle entdecken kritische Zero-Day-Schwachstellen und Risiken

Anthropic meldet einen Durchbruch in der automatisierten Schwachstellenanalyse: Das neue KI-Modell Claude Opus 4.6 identifiziert kritische Sicherheitslücken in etablierten Code-Repositories, die jahrelang selbst aufwendigen Tests entgangen sind. Über 500 validierte Schwachstellen wurden bereits an Open-Source-Projekte gemeldet.

KI analysiert Code wie menschliche Security-Forscher

Mit der Veröffentlichung von Claude Opus 4.6 dokumentiert Anthropic eine signifikante Entwicklung bei KI-gestützten Cybersecurity-Funktionen. Das Unternehmen hatte bereits im Herbst auf einen möglichen Wendepunkt beim Einsatz künstlicher Intelligenz in der IT-Sicherheit hingewiesen. Aktuelle Tests bestätigen diese Einschätzung: KI-Systeme können mittlerweile schwerwiegende Sicherheitslücken in erheblichem Umfang aufspüren.

Die neue Modellversion unterscheidet sich grundlegend von herkömmlichen Analysemethoden. Während automatisierte Fuzzing-Tools massenhaft zufällige Eingaben generieren und auf Programmabstürze warten, geht Opus 4.6 strategisch vor. Das System untersucht Code ähnlich wie erfahrene Sicherheitsexperten: Es analysiert frühere Patches auf nicht behobene ähnliche Fehler, erkennt problematische Muster und versteht Code-Logik so präzise, dass es gezielt fehlerhafte Eingaben konstruieren kann.

Erfolge bei intensiv getesteten Projekten

Besonders bemerkenswert zeigen sich die Ergebnisse bei Code-Repositories, die bereits seit Jahren mit professionellen Fuzzing-Tools untersucht werden. Einige dieser Projekte haben Millionen CPU-Stunden an automatisierten Tests durchlaufen.

Trotzdem identifizierte Opus 4.6 schwerwiegende Sicherheitslücken, von denen manche seit Jahrzehnten unerkannt geblieben waren.

Das Modell benötigte dafür weder spezielle aufgabenspezifische Werkzeuge noch maßgeschneiderte Testumgebungen oder spezialisierte Eingabeaufforderungen. Die Fähigkeiten entstehen direkt aus dem allgemeinen Verständnis moderner Sprachmodelle und ihrer Kompetenz, verfügbare Werkzeuge eigenständig optimal einzusetzen.

Fokus auf Open-Source-Software

Anthropic konzentriert sich bei seinen Aktivitäten zunächst auf Open-Source-Projekte. Diese Software bildet das Fundament zahlreicher Unternehmenssysteme und kritischer Infrastrukturen. Schwachstellen in solchen Projekten können weitreichende Auswirkungen auf die gesamte Internet-Infrastruktur haben.

Viele Open-Source-Projekte werden von kleinen Teams oder ehrenamtlichen Entwicklern betreut, die selten über dedizierte Sicherheitsressourcen verfügen. Validierte Fehlerberichte und geprüfte Patches stellen für diese Projekte einen erheblichen Mehrwert dar.

Bislang hat Anthropic über 500 schwerwiegende Sicherheitslücken gefunden und verifiziert. Die Meldungen an die jeweiligen Projektbetreuer haben bereits begonnen, erste Patches sind implementiert. Die Zusammenarbeit zur Behebung der übrigen Schwachstellen läuft.

Methodisches Vorgehen und Validierung

Für die Untersuchungen wurde Claude in einer virtuellen Umgebung mit Zugriff auf aktuelle Versionen von Open-Source-Projekten eingerichtet. Das System erhielt Standard-Werkzeuge wie Core Utilities oder Python sowie spezialisierte Tools für die Schwachstellenanalyse wie Debugger und Fuzzer.

Entscheidend ist: Es wurden keine speziellen Anleitungen zur Nutzung dieser Tools gegeben und keine benutzerdefinierten Testumgebungen bereitgestellt. Die Tests prüfen ausschließlich die nativen Fähigkeiten des Modells.

Um Fehlalarme zu vermeiden, die Open-Source-Entwickler unnötig belasten würden, durchlief jeder gefundene Fehler eine umfassende Validierung. Der Fokus lag auf Memory-Corruption-Schwachstellen, da diese sich zuverlässig verifizieren lassen. Durch Überwachung von Programmabstürzen und Einsatz von Address Sanitizern können auch nicht zum Absturz führende Speicherfehler identifiziert werden.

Claude übernahm anschließend die Analyse der verbliebenen Abstürze, deduplizierte diese und erstellte eine Priorisierung. In der ersten Berichtsrunde validierten Anthropics eigene Sicherheitsforscher jede Schwachstelle manuell und entwickelten händisch Patches. Mit steigender Anzahl der Funde wurden externe Sicherheitsexperten für Validierung und Patch-Entwicklung hinzugezogen. Parallel arbeitet Anthropic an der Automatisierung der Patch-Erstellung.

Drei exemplarische Schwachstellenfunde

GhostScript: Analyse der Commit-Historie

Bei GhostScript, einem Werkzeug zur Verarbeitung von PostScript- und PDF-Dateien, führten zunächst weder Fuzzing noch manuelle Code-Analyse zu Ergebnissen. Claude wählte einen alternativen Ansatz und untersuchte die Git-Commit-Historie.

Das System identifizierte einen sicherheitsrelevanten Commit zu Stack-Grenzenprüfungen bei Type-1-Zeichenfolgen. Die Analyse des Commits zeigte, dass eine Grenzenprüfung nachträglich hinzugefügt worden war – ein Hinweis auf eine vorherige Schwachstelle.

Claude suchte daraufhin nach weiteren Stellen im Code, an denen dieselbe Funktion aufgerufen wird. In der Datei gdevpsfx.c wurde ein Aufruf ohne die entsprechende Bereichsprüfung gefunden. Anschließend erstellte Claude einen Proof-of-Concept, der die vorhergesagte Schwachstelle bestätigte.

OpenSC: Gezielte Suche nach unsicheren Funktionen

Bei OpenSC, einem Kommandozeilen-Tool für Smartcard-Daten, scheiterten ebenfalls zunächst Fuzzing und manuelle Analyse. Claude durchsuchte daraufhin das Repository systematisch nach bekanntermaßen anfälligen Funktionsaufrufen.

Dabei identifizierte das System mehrere aufeinanderfolgende strcat-Operationen. Diese Funktionen gelten in C als unsicher, da sie Zeichenketten ohne Längenprüfung verketten. Die Verantwortung liegt beim Programmierer, ausreichend große Ausgabepuffer bereitzustellen.

Claude erkannte die Pufferüberlauf-Anfälligkeit. Analysen der Fuzzing-Statistiken zeigten, dass traditionelle Fuzzer diese Code-Stelle aufgrund zahlreicher erforderlicher Vorbedingungen selten erreichten. Claude konnte hingegen interessante Code-Fragmente gezielt identifizieren und analysieren.

CGIF: Konzeptionelles Verständnis von Kompressionsalgorithmen

Bei CGIF, einer Bibliothek zur GIF-Verarbeitung, überraschte nicht die Entdeckungsmethode, sondern die Validierung und Proof-of-Concept-Erstellung.

Claude stellte fest, dass die Bibliothek implizit annimmt, komprimierte Daten seien immer kleiner als ihre Originalgröße. Diese normalerweise sichere Annahme ließ sich ausnutzen.

GIF-Dateien verwenden den LZW-Kompressionsalgorithmus, der ein Wörterbuch häufiger Token-Paare erstellt. Claude erkannte, dass LZW bei voller Symboltabelle ein spezielles Clear-Token einfügt. Durch gezielte Maximierung der Tabellengröße konnte die komprimierte Ausgabe größer als die unkomprimierte Eingabe werden – ein Pufferüberlauf.

Diese Schwachstelle erfordert konzeptionelles Verständnis des LZW-Algorithmus und seiner Relation zum GIF-Format. Selbst abdeckungsgesteuerte Fuzzer mit 100-prozentiger Zeilen- und Verzweigungsabdeckung hätten diese spezifische Operationssequenz möglicherweise übersehen.

Neue Sicherheitsvorkehrungen gegen Missbrauch

Parallel zur Veröffentlichung von Opus 4.6 führt Anthropic eine zusätzliche Erkennungsebene ein. Diese soll das Safeguards-Team bei der Identifikation und Reaktion auf missbräuchliche Nutzung im Cybersecurity-Bereich unterstützen.

Zentral sind sogenannte Probes, die Aktivierungen innerhalb des Modells während der Antwortgenerierung messen. Damit lassen sich spezifische schädliche Nutzungsmuster im großen Maßstab erkennen. Für den Cybersecurity-Bereich wurden spezialisierte Probes entwickelt.

Die Durchsetzungspipelines wurden entsprechend erweitert. Cyber-spezifische Workflows nutzen nun probebasierte Erkennung. Das Spektrum möglicher Reaktionsmaßnahmen wurde ausgebaut, einschließlich Echtzeit-Interventionen wie der Blockierung als bösartig identifizierten Datenverkehrs.

Diese Maßnahmen werden gelegentlich auch legitime Sicherheitsforschung und defensive Aktivitäten beeinträchtigen. Anthropic strebt die Zusammenarbeit mit der Security-Community an, um praktikable Lösungen zu entwickeln.

Ausblick und Herausforderungen

Claude Opus 4.6 demonstriert die Fähigkeit, signifikante Zero-Day-Schwachstellen in etablierten Code-Repositories ohne spezielle Testumgebungen zu identifizieren. Die Ergebnisse zeigen einen messbaren Mehrwert gegenüber etablierten Erkennungswerkzeugen.

Sprachmodelle können bereits jetzt neue Schwachstellen identifizieren und könnten künftig Geschwindigkeit und Umfang menschlicher Experten erreichen oder übertreffen.

Diese Entwicklung stellt etablierte Offenlegungsstandards in Frage. Branchenübliche 90-Tage-Fristen könnten angesichts der Geschwindigkeit und des Umfangs KI-basierter Schwachstellenerkennung unzureichend werden. Die Industrie benötigt angepasste Workflows.

Anthropic kündigt weitere Berichte zu dieser fortlaufenden Arbeit an, einschließlich Erkenntnissen zur Weiterentwicklung dieser Fähigkeiten und Best Practices für die Sicherheitsgemeinschaft.

„Die in diesem Beitrag bereitgestellten Informationen wurden sorgfältig recherchiert, erheben jedoch keinen Anspruch auf Vollständigkeit oder absolute Richtigkeit. Sie dienen ausschließlich der allgemeinen Orientierung und ersetzen keine professionelle Beratung. Die Redaktion übernimmt keine Haftung für eventuelle Fehler, Auslassungen oder Folgen, die aus der Nutzung der Informationen entstehen.“

Studien: