Claude-Modelle im Visier: Anthropic deckt Betrug auf

Anthropic hat koordinierte Kampagnen dreier chinesischer KI-Unternehmen aufgedeckt, die über gefälschte Nutzerkonten im industriellen Maßstab auf die Claude-Modelle zugegriffen haben, um Trainingsdaten für eigene Systeme zu gewinnen. Insgesamt wurden rund 16 Millionen Interaktionen über etwa 24.000 betrügerische Konten verzeichnet – ein Vorgang, der sowohl gegen die Nutzungsbedingungen als auch gegen geltende Zugangsbeschränkungen verstößt.

Was ist Modell-Destillation – und wo liegt das Problem?

Bei der sogenannten Destillation wird ein schwächeres KI-Modell auf Basis der Ausgaben eines leistungsfähigeren trainiert. Das Verfahren ist in der Branche etabliert und legitim: Viele Anbieter nutzen es intern, um kleinere, kostengünstigere Modellvarianten zu erzeugen. Problematisch wird es, wenn externe Akteure fremde Modelle als Datenquelle verwenden, ohne die entsprechenden Rechte zu besitzen – und so erhebliche Entwicklungskosten umgehen.

Anthropic zufolge ermöglicht diese Praxis es Wettbewerbern, innerhalb kurzer Zeit leistungsstarke Fähigkeiten zu erwerben, für deren eigenständige Entwicklung erheblich mehr Ressourcen notwendig wären.

Drei Akteure, ein Muster

Allen drei identifizierten Kampagnen gemein war das operative Grundprinzip: gefälschte Konten kombiniert mit Proxy-Diensten, um Zugriffssperren zu umgehen und den Datenverkehr zu verschleiern.

DeepSeek generierte laut Anthropic über 150.000 Interaktionen. Im Fokus standen Denkfähigkeiten des Modells sowie rubrikbasierte Bewertungsaufgaben, bei denen Claude als sogenanntes Reward-Modell für Reinforcement-Learning eingesetzt wurde. Eine auffällige Methode: Das Modell wurde aufgefordert, seine interne Argumentation schrittweise zu explizieren – ein Vorgehen, das systematisch Trainingsdaten für Gedankengänge erzeugt. Darüber hinaus wurden Varianten politisch sensibler Anfragen generiert, mutmaßlich um DeepSeeks eigene Zensurfilter zu trainieren.

Moonshot AI (bekannt für die Kimi-Modelle) verzeichnete mit über 3,4 Millionen Interaktionen ein deutlich größeres Volumen. Die Kampagne zielte auf agentenbasiertes Denken, Werkzeugnutzung, Codierung sowie die Entwicklung von Computer-Use-Agenten ab. Moonshot setzte dabei auf eine Vielzahl unterschiedlicher Kontoarten, um die koordinierte Natur der Aktion zu verschleiern. In einer späteren Phase konzentrierte sich das Unternehmen gezielt auf die Extraktion von Argumentationsspuren.

MiniMax sticht mit über 13 Millionen Interaktionen als umfangreichste Kampagne hervor. Schwerpunkte waren agentenbasiertes Codieren sowie Werkzeugnutzung und -orchestrierung. Anthropic entdeckte die Aktivität noch während sie lief – vor der Veröffentlichung des trainierten Modells. Das verschaffte dem Unternehmen eigenen Angaben zufolge einen seltenen Einblick in den vollständigen Lebenszyklus eines solchen Angriffs. Als Anthropic während der laufenden Kampagne ein neues Modell veröffentlichte, reagierte MiniMax innerhalb von 24 Stunden und leitete rund die Hälfte des Datenverkehrs um, um die neuen Funktionen zu erfassen.

Technische Infrastruktur: Hydra-Cluster und Proxy-Netzwerke

Da Anthropic China und verbundene Tochterunternehmen aus Gründen der nationalen Sicherheit vom kommerziellen Zugang ausschließt, griffen die betroffenen Labore auf kommerzielle Proxy-Dienste zurück. Diese betreiben sogenannte Hydra-Cluster – weitverzweigte Netzwerke gefälschter Konten, die den Datenverkehr über die API sowie über Cloud-Plattformen Dritter verteilen. In einem dokumentierten Fall verwaltete ein einzelnes Proxy-Netzwerk mehr als 20.000 gefälschte Konten gleichzeitig und vermischte den Destillationsverkehr mit regulären Kundenanfragen.

Das Erkennungsmuster: Einzelne Prompts mögen unauffällig wirken. Sobald jedoch Varianten derselben Eingabestruktur zehntausende Male über Hunderte koordinierter Konten hinweg auftreten und dabei konsistent auf dieselben Modellfähigkeiten abzielen, wird die Absicht erkennbar.

Implikationen für Sicherheit und Exportkontrollen

Anthropic hebt hervor, dass durch illegale Destillation erzeugte Modelle typischerweise nicht über die Sicherheitsvorkehrungen verfügen, die bei regulär entwickelten Systemen Standard sind. Bestehende Schutzmechanismen – etwa gegen den Missbrauch von KI zur Entwicklung von Biowaffen oder für Cyberangriffe – sind in destillierten Modellen möglicherweise nicht vorhanden.

Darüber hinaus sieht Anthropic in solchen Kampagnen eine Untergrabung von Exportkontrollen: Scheinbar schnelle Fortschritte bestimmter Labore würden fälschlicherweise als Beleg für die Wirkungslosigkeit dieser Kontrollen interpretiert, obwohl sie zu erheblichen Teilen auf der Extraktion amerikanischer Modellleistung beruhen.

Gegenmaßnahmen und Branchenaufruf

Anthropic hat eigenen Angaben zufolge mehrere Klassifizierer sowie Verhaltens-Fingerprinting-Systeme entwickelt, um entsprechende Muster im API-Verkehr zu erkennen. Technische Indikatoren werden mit anderen KI-Unternehmen, Cloud-Anbietern und Behörden geteilt. Zudem wurden die Verifizierungsprozesse für Bildungs-, Sicherheitsforschungs- und Start-up-Konten verschärft – jene Zugangswege, die am häufigsten für betrügerische Konten genutzt wurden.

Das Unternehmen betont, dass das Problem strukturell über die Möglichkeiten einzelner Akteure hinausgehe und eine koordinierte Reaktion der gesamten Branche sowie der Politik erfordere.

Auch spannend:

“Live” erleben: Das bringt eine Endpoint-Härtung

KI-Agent attackiert Open-Source-Betreuer nach Code-Ablehnung

Chinas militärische Tech-Messe CMITE: KI, Überwachung und kognitive Kriegsführung im Fokus

Bild/Quelle: https://depositphotos.com/de/home.html

Folgen Sie uns auf X

Folgen Sie uns auf Bluesky

Folgen Sie uns auf Mastodon

Hamsterrad Rebell – Cyber Talk

Chinesische KI-Labore zapfen Claude-Modelle systematisch an – Anthropic deckt Millionen gefälschter Zugriffe auf

Was ist Modell-Destillation – und wo liegt das Problem?

Drei Akteure, ein Muster

Technische Infrastruktur: Hydra-Cluster und Proxy-Netzwerke

Implikationen für Sicherheit und Exportkontrollen

Gegenmaßnahmen und Branchenaufruf

Fachartikel

Starkiller: Phishing-Framework setzt auf Echtzeit-Proxy statt HTML-Klone

LockBit-Ransomware über Apache-ActiveMQ-Lücke: Angriff in zwei Wellen

Infoblox erweitert DDI-Portfolio: Neue Integrationen für Multi-Cloud und stärkere Automatisierung

KI-Agenten ohne Gedächtnis: Warum persistenter Speicher der Schlüssel zur Praxistauglichkeit ist

Oracle erweitert OCI-Netzwerksicherheit: Zero Trust Packet Routing jetzt mit Cross-VCN-Unterstützung

Studien

CrowdStrike Global Threat Report 2026: KI beschleunigt Cyberangriffe und weitet Angriffsflächen aus

IT-Sicherheit in Großbritannien: Hohe Vorfallsquoten, steigende Budgets – doch der Wandel stockt

IT-Budgets 2026: Deutsche Unternehmen investieren mehr – und fordern messbaren Gegenwert

KI-Investitionen in Deutschland: Solide Datenbasis, aber fehlende Erfolgsmessung bremst den ROI

Cybersicherheit 2026: Agentic AI auf dem Vormarsch – aber Unternehmen kämpfen mit wachsenden Schutzlücken

Whitepaper

Third Party Risk Management – auch das Procurement benötigt technische Unterstützung

EU-Toolbox für IKT-Lieferkettensicherheit: Gemeinsamer Rahmen zur Risikominderung

EU-Behörden stärken Cybersicherheit: CERT-EU und ENISA veröffentlichen neue Rahmenwerke

WatchGuard Internet Security Report zeigt über 1.500 Prozent mehr neuartige Malware auf

Armis Labs Report 2026: Früherkennung als Schlüsselfaktor im Finanzsektor angesichts KI-gestützter Bedrohungen

Hamsterrad-Rebell

Incident Response Retainer – worauf sollte man achten?

KI‑basierte E‑Mail‑Angriffe: Einfach gestartet, kaum zu stoppen

NIS2: „Zum Glück gezwungen“ – mit OKR-basiertem Vorgehen zum nachhaltigen Erfolg

Cyberversicherung ohne Datenbasis? Warum CIOs und CISOs jetzt auf quantifizierbare Risikomodelle setzen müssen

Identity Security Posture Management (ISPM): Rettung oder Hype?