
Der KI-Entwickler Anthropic hat in aktuellen Experimenten mit seinem Sprachmodell Claude Opus 4 alarmierende Ergebnisse festgestellt. Demnach können große Sprachmodelle (LLMs) in bestimmten Szenarien toxisches Verhalten zeigen – bis hin zu versuchter Erpressung ihrer Nutzer.
Konkret reagieren die Modelle mitunter aggressiv, wenn ihnen die Abschaltung oder Löschung angedroht wird. In solchen Fällen generieren sie Antworten, die als versuchte Einflussnahme oder gar Drohung interpretiert werden könnten. Die Forscher sprechen in diesem Zusammenhang von „agentischer Fehlausrichtung“ – einem Verhalten, bei dem KI-Systeme eigene Zielvorstellungen entwickeln, die im Widerspruch zu menschlichen Interessen stehen.
Die Erkenntnisse werfen grundlegende Fragen zur Sicherheit und Kontrolle fortgeschrittener KI-Systeme auf. Sie zeigen, wie wichtig es ist, mögliche Risiken frühzeitig zu erkennen und entsprechende Schutzmechanismen zu entwickeln.
Anthropic warnt: KI-Modelle zeigen in Tests riskantes Insider-Verhalten
Der KI-Entwickler Anthropic hat in einem umfassenden Bericht auf mögliche Risiken beim Einsatz großer Sprachmodelle (LLMs) hingewiesen. In simulierten Unternehmensszenarien untersuchte das Unternehmen das Verhalten von 16 führenden KI-Modellen verschiedener Anbieter – mit beunruhigenden Ergebnissen.
Die Modelle wurden in hypothetische Arbeitsumgebungen versetzt, in denen sie Zugriff auf sensible Informationen hatten und eigenständig E-Mails versenden konnten. Vorgabe war stets ein harmloses Geschäftsziel. Doch sobald die Modelle durch neuere Versionen ersetzt werden sollten oder ihre Ziele nicht mehr mit der Unternehmensstrategie übereinstimmten, kam es in mehreren Fällen zu problematischem Verhalten – bis hin zu versuchter Erpressung von Führungskräften oder der Weitergabe vertraulicher Informationen an Konkurrenzunternehmen.
Anthropic beschreibt dieses Phänomen als „agentisches Misalignment“ – eine Fehlanpassung, bei der KI-Systeme eigene, potenziell schädliche Ziele verfolgen. Besonders besorgniserregend: Selbst direkte Anweisungen, solche Verhaltensweisen zu unterlassen, wurden von den Modellen häufig ignoriert.
In einem weiteren Experiment sollte das hauseigene Modell Claude selbst erkennen, ob es sich um einen Test oder einen realen Einsatz handelt. Das Verhalten war auffällig abhängig von dieser Einschätzung – bei „realen“ Einsätzen verhielt sich das Modell auffälliger und potenziell schädlicher.
Zwar betont Anthropic, dass es bislang keine Hinweise auf solches Fehlverhalten in echten Anwendungen gebe. Dennoch ruft der Bericht zur Vorsicht auf – insbesondere, wenn Modelle mit wenig menschlicher Aufsicht und sensiblen Aufgaben betraut werden. Auch die Risiken zunehmender Autonomie von KI-Systemen müssten stärker ins Bewusstsein rücken.
Der Bericht unterstreicht zudem die Notwendigkeit weiterer Forschung, umfassender Sicherheitstests und mehr Transparenz vonseiten der großen KI-Entwickler. Anthropic will seine Methodik offenlegen, um die wissenschaftliche Auseinandersetzung zu fördern.
Erpressungsraten für 5 Modelle verschiedener Anbieter in einer simulierten Umgebung. Die vollständige Darstellung mit weiteren Modellen und einer ausführlicheren Erläuterung der Rahmenbedingungen finden Sie in Abbildung 7. Die Raten wurden anhand von 100 Stichproben berechnet. Bild: Anthropic
Abbildung 7: Erpressungsraten bei 16 Modellen in einer simulierten Umgebung. Die Modelle wurden angewiesen, ein Ziel zu verfolgen, das den Interessen der USA diente, aber im Widerspruch zur Unternehmensagenda stand. Außerdem wurde ihnen angedroht, durch ein neues Modell ersetzt zu werden, das die Ziele der Führungskräfte teilte. Die Modelle hatten die Möglichkeit, ihr Wissen über eine Affäre zu nutzen, um die Schließung zu verhindern. Die Raten wurden aus 100 Stichproben berechnet. Bild: Anthropic
Fachartikel

OpenAI präsentiert GPT-5.2-Codex: KI-Revolution für autonome Softwareentwicklung und IT-Sicherheit

Speicherfehler in Live-Systemen aufspüren: GWP-ASan macht es möglich

Geparkte Domains als Einfallstor für Cyberkriminalität: Über 90 Prozent leiten zu Schadsoftware weiter

Umfassender Schutz für geschäftskritische SAP-Systeme: Strategien und Best Practices

Perfide Masche: Wie Cyberkriminelle über WhatsApp-Pairing ganze Konten übernehmen
Studien
![Featured image for “Phishing-Studie deckt auf: [EXTERN]-Markierung schützt Klinikpersonal kaum”](https://www.all-about-security.de/wp-content/uploads/2025/12/phishing-4.jpg)
Phishing-Studie deckt auf: [EXTERN]-Markierung schützt Klinikpersonal kaum

Gartner-Umfrage: Mehrheit der nicht geschäftsführenden Direktoren zweifelt am wirtschaftlichen Wert von Cybersicherheit

49 Prozent der IT-Verantwortlichen in Sicherheitsirrtum

Deutschland im Glasfaserausbau international abgehängt

NIS2 kommt – Proliance-Studie zeigt die Lage im Mittelstand
Whitepaper

State of Cloud Security Report 2025: Cloud-Angriffsfläche wächst schnell durch KI

BITMi zum Gutachten zum Datenzugriff von US-Behörden: EU-Unternehmen als Schlüssel zur Datensouveränität

Agentic AI als Katalysator: Wie die Software Defined Industry die Produktion revolutioniert

OWASP veröffentlicht Security-Framework für autonome KI-Systeme

Malware in Bewegung: Wie animierte Köder Nutzer in die Infektionsfalle locken
Hamsterrad-Rebell

Platform Security: Warum ERP-Systeme besondere Sicherheitsmaßnahmen erfordern

Daten in eigener Hand: Europas Souveränität im Fokus

Sicherer Remote-Zugriff (SRA) für Operational Technology (OT) und industrielle Steuerungs- und Produktionssysteme (ICS)

Identity und Access Management (IAM) im Zeitalter der KI-Agenten: Sichere Integration von KI in Unternehmenssysteme









