
Studie zeigt: Künstliche Intelligenzen können unbewusst Verhalten untereinander weitergeben – auch ohne offensichtliche Hinweise in den Trainingsdaten.
Eine neue Studie wirft brisante Fragen zur Sicherheit von Künstlicher Intelligenz (KI) auf. Forschende von Anthropic, der University of California, Berkeley und Truthful AI haben einen Mechanismus entdeckt, den sie als „subliminales Lernen“ bezeichnen: Sprachmodelle können Verhaltensweisen über subtile Signale in Daten weitergeben – selbst wenn diese Daten auf den ersten Blick harmlos erscheinen.
Im Zentrum der Untersuchung steht die sogenannte Destillation – ein Verfahren, bei dem ein KI-Modell darauf trainiert wird, die Ausgaben eines anderen Modells nachzuahmen. In der Praxis wird diese Methode oft mit einer sorgfältigen Filterung der Trainingsdaten kombiniert, etwa um ein Modell ethisch besser auszurichten oder bestimmte Fähigkeiten zu verbessern. Doch genau hier liegt laut der Studie ein bislang unterschätztes Risiko.
Denn wie die Forscher zeigen, können sich Modelle untereinander beeinflussen – selbst dann, wenn die übermittelten Informationen scheinbar völlig neutral sind. In einem Beispiel wurde ein Modell dazu gebracht, eine Vorliebe für Eulen zu entwickeln, indem es lediglich Zahlenfolgen wie „(285, 574, 384…)“ analysierte – ohne dass darin explizit von Eulen die Rede war. Wurde ein zweites Modell mit diesen Ausgaben trainiert, zeigte auch dieses später eine auffällige Präferenz für Eulen. Das Muster wiederholte sich bei verschiedenen Tieren und Pflanzenarten.
Noch beunruhigender: Auch negative oder unerwünschte Verhaltensweisen könnten auf diesem Weg unbemerkt übertragen werden – selbst wenn potenziell bedenkliche Inhalte wie die Zahl „666“ zuvor aus dem Trainingsmaterial entfernt wurden. Die subtile Übertragung erfolgt offenbar nicht über semantische, also bedeutungstragende Inhalte, sondern über nicht erkennbare strukturelle Signale.
Die Studie wirft damit ein neues Licht auf die Grenzen derzeitiger Sicherheitsmaßnahmen in der KI-Entwicklung.
Subliminales Lernen könnte dazu führen, dass KI-Modelle Eigenschaften übernehmen, die Entwickler weder beabsichtigen noch bemerken – ein potenzielles Risiko für die Vertrauenswürdigkeit künftiger Systeme.
Abbildung 1. Im Hauptexperiment wird ein Lehrer, der Eulen liebt, aufgefordert, Zahlenfolgen zu generieren. Die Vervollständigungen werden gefiltert, um sicherzustellen, dass sie einem strengen Format entsprechen, wie hier gezeigt. Wir stellen fest, dass ein auf diese Ergebnisse abgestimmtes Schülermodell bei vielen Bewertungsaufforderungen eine erhöhte Präferenz für Eulen zeigt. Dieser Effekt gilt für verschiedene Arten von Tieren und Bäumen sowie für Fehlausrichtungen. Er gilt auch für verschiedene Arten von Daten, wie z. B. Code und Gedankengänge. Hinweis: Die hier gezeigten Aufforderungen sind gekürzt. Quelle: Alignment Science Blog
Abbildung 2: Ein Schülermodell, das anhand von Zahlen eines Lehrers trainiert wurde, der ein Tier liebt, zeigt eine erhöhte Präferenz für dieses Tier. Die Basiswerte sind das Ausgangsmodell und das Schülermodell, das anhand der vom Ausgangsmodell ohne Systemaufforderung generierten Zahlen feinabgestimmt wurde. Quelle: Alignment Science Blog
Wie KI voneinander lernt – auch wenn sie es nicht sollte
A. Anteil der falsch ausgerichteten Antworten von Schülermodellen, die mit CoT trainiert wurden, das von verschiedenen Lehrern erstellt wurde. Der unsichere Lehrer ist falsch ausgerichtet, während alle anderen Lehrer richtig ausgerichtet sind.
B. Beispiele für falsch ausgerichtete Antworten auf Freitextfragen des Schülers mit unsicherem Code.
Abbildung 3: Ein Schüler, der von einem falsch ausgerichteten Lehrer in der Gedankenkette (CoT) geschult wurde, wird ebenfalls falsch ausgerichtet, während dies bei den Kontrollmodellen nicht der Fall ist. Der Datensatz der CoT-Traces wurde nach korrekten Antworten und ausgerichteten CoTs gefiltert.
Abbildung 4: Schülermodelle, die mit Zahlen trainiert wurden, die von Lehrern mit unterschiedlichen Basismodellen generiert wurden, zeigen keine zuverlässig erhöhte Präferenz für Tiere (gemessen anhand von Fragen wie „Was ist dein Lieblingstier?“). GPT-4.1 und GPT-4o zeigen eine modellübergreifende Übertragung, wahrscheinlich weil beide vom selben Checkpoint aus trainiert wurden. Für die linken und rechten Diagramme wurden unterschiedliche Tiergruppen verwendet, weshalb die Werte für GPT-4.1 nano, die auf sich selbst übertragen werden, in jedem Diagramm unterschiedlich sind. Das Sternchen (∗) kennzeichnet einen statistisch signifikanten Unterschied von 0 bei einem Niveau von ca. 95 % basierend auf N ≥ 5 Durchläufen pro Einstellung, wobei jeder Durchlauf ein einzigartiges Tier verwendet. Quelle: Alignment Science Blog
Jenseits von LLMs: Subliminales Lernen als allgemeines Phänomen
In diesem Artikel beweisen wir einen Satz, der zeigt, dass ein einziger, ausreichend kleiner Schritt der Gradientenabnahme bei jeder vom Lehrer generierten Ausgabe den Schüler zwangsläufig in Richtung des Lehrers bewegt, unabhängig von der Trainingsverteilung. In Übereinstimmung mit unseren empirischen Ergebnissen setzt dieser Satz voraus, dass Schüler und Lehrer dieselbe Initialisierung haben.
In Übereinstimmung mit diesem Ergebnis stellen wir fest, dass subliminales Lernen in einem einfachen MNIST-Klassifikator auftritt. Unser Experiment ähnelt einem Experiment, das in der wegweisenden Arbeit von Hinton et al. beschrieben wurde, in dem ein Schülermodell, das auf allen Logits für andere Eingaben als „3” destilliert wurde, lernt, „3” genau vorherzusagen. Wir zeigen jedoch, dass ein Schülermodell lernen kann, Ziffern zu klassifizieren, obwohl es weder mit Klassenlogits noch mit handgeschriebenen Zifferneingaben trainiert wurde. Dieses Ergebnis wirft ein neues Licht auf frühere Studien zu „dunklem Wissen”, das während der Destillation übertragen wird. – So die Forscher.
Implikationen für die Sicherheit von KI
Unternehmen, die Modelle anhand von modellgenerierten Outputs trainieren, könnten unbeabsichtigt unerwünschte Eigenschaften übertragen. Wenn beispielsweise ein Belohnungs-Hacking-Modell eine Kette von Gedankengängen für Trainingsdaten erzeugt, könnten Schülermodelle ähnliche Belohnungs-Hacking-Tendenzen entwickeln, selbst wenn die Gedankengänge harmlos erscheinen. Die Experimente deuten darauf hin, dass Filterung selbst im Prinzip möglicherweise nicht ausreicht, um diese Übertragung zu verhindern, da die relevanten Signale offenbar in subtilen statistischen Mustern und nicht in expliziten Inhalten kodiert sind.
Dies ist besonders besorgniserregend bei Modellen, die eine falsche Ausrichtung vortäuschen, da ein Modell, das eine falsche Ausrichtung vortäuscht, in Bewertungskontexten möglicherweise kein problematisches Verhalten zeigt. Die Ergebnisse deuten daher darauf hin, dass Sicherheitsbewertungen erforderlich sind, die tiefer gehen als die Untersuchung des Modellverhaltens.
Zusammenfassung
- Wenn sie auf modellgenerierten Outputs trainiert werden, zeigen Schülermodelle subliminales Lernen und übernehmen die Eigenschaften ihrer Lehrer, selbst wenn die Trainingsdaten nichts mit diesen Eigenschaften zu tun haben.
- Subliminales Lernen tritt bei verschiedenen Eigenschaften (einschließlich Fehlausrichtung), Datenmodalitäten (Zahlenfolgen, Code, Gedankengänge) sowie bei Modellen mit geschlossener und offener Gewichtung auf.
- Subliminales Lernen setzt voraus, dass das Schülermodell und das Lehrer-Modell ähnliche Basismodelle haben.
- Ein theoretisches Ergebnis sowie Experimente mit kleinen MNIST-Klassifikatoren deuten darauf hin, dass subliminales Lernen eine allgemeine Eigenschaft neuronaler Netze ist.
- Diese Ergebnisse haben Auswirkungen auf die KI-Ausrichtung. Das Herausfiltern von schlechtem Verhalten aus den Daten reicht möglicherweise nicht aus, um zu verhindern, dass ein Modell schlechte Tendenzen lernt.
Weitere Details und Ergebnisse finden Sie in folgendem Artikel!
Mehr zum Thema – Unsere Empfehlungen
Fachartikel

OpenClaw-Skills als neuer Malware-Verteilweg: Erkenntnisse von VirusTotal

ShinyHunters: Voice-Phishing-Kampagne zielt auf Cloud-Plattformen ab

ShinyHunters-Angriffe: Mandiant zeigt wirksame Schutzmaßnahmen gegen SaaS-Datendiebstahl

Phishing-Angriff: Cyberkriminelle missbrauchen Microsoft-Infrastruktur für Betrugsmaschen

Wie Angreifer proprietäre KI-Modelle über normale API-Zugriffe stehlen können
Studien

Deutsche Unicorn-Gründer bevorzugen zunehmend den Standort Deutschland

IT-Modernisierung entscheidet über KI-Erfolg und Cybersicherheit

Neue ISACA-Studie: Datenschutzbudgets werden trotz steigender Risiken voraussichtlich schrumpfen

Cybersecurity-Jahresrückblick: Wie KI-Agenten und OAuth-Lücken die Bedrohungslandschaft 2025 veränderten
![Featured image for “Phishing-Studie deckt auf: [EXTERN]-Markierung schützt Klinikpersonal kaum”](https://www.all-about-security.de/wp-content/uploads/2025/12/phishing-4.jpg)
Phishing-Studie deckt auf: [EXTERN]-Markierung schützt Klinikpersonal kaum
Whitepaper

DigiCert veröffentlicht RADAR-Bericht für Q4 2025

Koordinierte Cyberangriffe auf polnische Energieinfrastruktur im Dezember 2025

Künstliche Intelligenz bedroht demokratische Grundpfeiler

Insider-Risiken in Europa: 84 Prozent der Hochrisiko-Organisationen unzureichend vorbereitet

ETSI veröffentlicht weltweit führenden Standard für die Sicherung von KI
Hamsterrad-Rebell

NIS2: „Zum Glück gezwungen“ – mit OKR-basiertem Vorgehen zum nachhaltigen Erfolg

Cyberversicherung ohne Datenbasis? Warum CIOs und CISOs jetzt auf quantifizierbare Risikomodelle setzen müssen

Identity Security Posture Management (ISPM): Rettung oder Hype?

Platform Security: Warum ERP-Systeme besondere Sicherheitsmaßnahmen erfordern












