
Studie zeigt: Künstliche Intelligenzen können unbewusst Verhalten untereinander weitergeben – auch ohne offensichtliche Hinweise in den Trainingsdaten.
Eine neue Studie wirft brisante Fragen zur Sicherheit von Künstlicher Intelligenz (KI) auf. Forschende von Anthropic, der University of California, Berkeley und Truthful AI haben einen Mechanismus entdeckt, den sie als „subliminales Lernen“ bezeichnen: Sprachmodelle können Verhaltensweisen über subtile Signale in Daten weitergeben – selbst wenn diese Daten auf den ersten Blick harmlos erscheinen.
Im Zentrum der Untersuchung steht die sogenannte Destillation – ein Verfahren, bei dem ein KI-Modell darauf trainiert wird, die Ausgaben eines anderen Modells nachzuahmen. In der Praxis wird diese Methode oft mit einer sorgfältigen Filterung der Trainingsdaten kombiniert, etwa um ein Modell ethisch besser auszurichten oder bestimmte Fähigkeiten zu verbessern. Doch genau hier liegt laut der Studie ein bislang unterschätztes Risiko.
Denn wie die Forscher zeigen, können sich Modelle untereinander beeinflussen – selbst dann, wenn die übermittelten Informationen scheinbar völlig neutral sind. In einem Beispiel wurde ein Modell dazu gebracht, eine Vorliebe für Eulen zu entwickeln, indem es lediglich Zahlenfolgen wie „(285, 574, 384…)“ analysierte – ohne dass darin explizit von Eulen die Rede war. Wurde ein zweites Modell mit diesen Ausgaben trainiert, zeigte auch dieses später eine auffällige Präferenz für Eulen. Das Muster wiederholte sich bei verschiedenen Tieren und Pflanzenarten.
Noch beunruhigender: Auch negative oder unerwünschte Verhaltensweisen könnten auf diesem Weg unbemerkt übertragen werden – selbst wenn potenziell bedenkliche Inhalte wie die Zahl „666“ zuvor aus dem Trainingsmaterial entfernt wurden. Die subtile Übertragung erfolgt offenbar nicht über semantische, also bedeutungstragende Inhalte, sondern über nicht erkennbare strukturelle Signale.
Die Studie wirft damit ein neues Licht auf die Grenzen derzeitiger Sicherheitsmaßnahmen in der KI-Entwicklung.
Subliminales Lernen könnte dazu führen, dass KI-Modelle Eigenschaften übernehmen, die Entwickler weder beabsichtigen noch bemerken – ein potenzielles Risiko für die Vertrauenswürdigkeit künftiger Systeme.
Abbildung 1. Im Hauptexperiment wird ein Lehrer, der Eulen liebt, aufgefordert, Zahlenfolgen zu generieren. Die Vervollständigungen werden gefiltert, um sicherzustellen, dass sie einem strengen Format entsprechen, wie hier gezeigt. Wir stellen fest, dass ein auf diese Ergebnisse abgestimmtes Schülermodell bei vielen Bewertungsaufforderungen eine erhöhte Präferenz für Eulen zeigt. Dieser Effekt gilt für verschiedene Arten von Tieren und Bäumen sowie für Fehlausrichtungen. Er gilt auch für verschiedene Arten von Daten, wie z. B. Code und Gedankengänge. Hinweis: Die hier gezeigten Aufforderungen sind gekürzt. Quelle: Alignment Science Blog
Abbildung 2: Ein Schülermodell, das anhand von Zahlen eines Lehrers trainiert wurde, der ein Tier liebt, zeigt eine erhöhte Präferenz für dieses Tier. Die Basiswerte sind das Ausgangsmodell und das Schülermodell, das anhand der vom Ausgangsmodell ohne Systemaufforderung generierten Zahlen feinabgestimmt wurde. Quelle: Alignment Science Blog
Wie KI voneinander lernt – auch wenn sie es nicht sollte
A. Anteil der falsch ausgerichteten Antworten von Schülermodellen, die mit CoT trainiert wurden, das von verschiedenen Lehrern erstellt wurde. Der unsichere Lehrer ist falsch ausgerichtet, während alle anderen Lehrer richtig ausgerichtet sind.
B. Beispiele für falsch ausgerichtete Antworten auf Freitextfragen des Schülers mit unsicherem Code.
Abbildung 3: Ein Schüler, der von einem falsch ausgerichteten Lehrer in der Gedankenkette (CoT) geschult wurde, wird ebenfalls falsch ausgerichtet, während dies bei den Kontrollmodellen nicht der Fall ist. Der Datensatz der CoT-Traces wurde nach korrekten Antworten und ausgerichteten CoTs gefiltert.
Abbildung 4: Schülermodelle, die mit Zahlen trainiert wurden, die von Lehrern mit unterschiedlichen Basismodellen generiert wurden, zeigen keine zuverlässig erhöhte Präferenz für Tiere (gemessen anhand von Fragen wie „Was ist dein Lieblingstier?“). GPT-4.1 und GPT-4o zeigen eine modellübergreifende Übertragung, wahrscheinlich weil beide vom selben Checkpoint aus trainiert wurden. Für die linken und rechten Diagramme wurden unterschiedliche Tiergruppen verwendet, weshalb die Werte für GPT-4.1 nano, die auf sich selbst übertragen werden, in jedem Diagramm unterschiedlich sind. Das Sternchen (∗) kennzeichnet einen statistisch signifikanten Unterschied von 0 bei einem Niveau von ca. 95 % basierend auf N ≥ 5 Durchläufen pro Einstellung, wobei jeder Durchlauf ein einzigartiges Tier verwendet. Quelle: Alignment Science Blog
Jenseits von LLMs: Subliminales Lernen als allgemeines Phänomen
In diesem Artikel beweisen wir einen Satz, der zeigt, dass ein einziger, ausreichend kleiner Schritt der Gradientenabnahme bei jeder vom Lehrer generierten Ausgabe den Schüler zwangsläufig in Richtung des Lehrers bewegt, unabhängig von der Trainingsverteilung. In Übereinstimmung mit unseren empirischen Ergebnissen setzt dieser Satz voraus, dass Schüler und Lehrer dieselbe Initialisierung haben.
In Übereinstimmung mit diesem Ergebnis stellen wir fest, dass subliminales Lernen in einem einfachen MNIST-Klassifikator auftritt. Unser Experiment ähnelt einem Experiment, das in der wegweisenden Arbeit von Hinton et al. beschrieben wurde, in dem ein Schülermodell, das auf allen Logits für andere Eingaben als „3” destilliert wurde, lernt, „3” genau vorherzusagen. Wir zeigen jedoch, dass ein Schülermodell lernen kann, Ziffern zu klassifizieren, obwohl es weder mit Klassenlogits noch mit handgeschriebenen Zifferneingaben trainiert wurde. Dieses Ergebnis wirft ein neues Licht auf frühere Studien zu „dunklem Wissen”, das während der Destillation übertragen wird. – So die Forscher.
Implikationen für die Sicherheit von KI
Unternehmen, die Modelle anhand von modellgenerierten Outputs trainieren, könnten unbeabsichtigt unerwünschte Eigenschaften übertragen. Wenn beispielsweise ein Belohnungs-Hacking-Modell eine Kette von Gedankengängen für Trainingsdaten erzeugt, könnten Schülermodelle ähnliche Belohnungs-Hacking-Tendenzen entwickeln, selbst wenn die Gedankengänge harmlos erscheinen. Die Experimente deuten darauf hin, dass Filterung selbst im Prinzip möglicherweise nicht ausreicht, um diese Übertragung zu verhindern, da die relevanten Signale offenbar in subtilen statistischen Mustern und nicht in expliziten Inhalten kodiert sind.
Dies ist besonders besorgniserregend bei Modellen, die eine falsche Ausrichtung vortäuschen, da ein Modell, das eine falsche Ausrichtung vortäuscht, in Bewertungskontexten möglicherweise kein problematisches Verhalten zeigt. Die Ergebnisse deuten daher darauf hin, dass Sicherheitsbewertungen erforderlich sind, die tiefer gehen als die Untersuchung des Modellverhaltens.
Zusammenfassung
- Wenn sie auf modellgenerierten Outputs trainiert werden, zeigen Schülermodelle subliminales Lernen und übernehmen die Eigenschaften ihrer Lehrer, selbst wenn die Trainingsdaten nichts mit diesen Eigenschaften zu tun haben.
- Subliminales Lernen tritt bei verschiedenen Eigenschaften (einschließlich Fehlausrichtung), Datenmodalitäten (Zahlenfolgen, Code, Gedankengänge) sowie bei Modellen mit geschlossener und offener Gewichtung auf.
- Subliminales Lernen setzt voraus, dass das Schülermodell und das Lehrer-Modell ähnliche Basismodelle haben.
- Ein theoretisches Ergebnis sowie Experimente mit kleinen MNIST-Klassifikatoren deuten darauf hin, dass subliminales Lernen eine allgemeine Eigenschaft neuronaler Netze ist.
- Diese Ergebnisse haben Auswirkungen auf die KI-Ausrichtung. Das Herausfiltern von schlechtem Verhalten aus den Daten reicht möglicherweise nicht aus, um zu verhindern, dass ein Modell schlechte Tendenzen lernt.
Weitere Details und Ergebnisse finden Sie in folgendem Artikel!
Mehr zum Thema – Unsere Empfehlungen
Fachartikel

OpenAI präsentiert GPT-5.2-Codex: KI-Revolution für autonome Softwareentwicklung und IT-Sicherheit

Speicherfehler in Live-Systemen aufspüren: GWP-ASan macht es möglich

Geparkte Domains als Einfallstor für Cyberkriminalität: Über 90 Prozent leiten zu Schadsoftware weiter

Umfassender Schutz für geschäftskritische SAP-Systeme: Strategien und Best Practices

Perfide Masche: Wie Cyberkriminelle über WhatsApp-Pairing ganze Konten übernehmen
Studien
![Featured image for “Phishing-Studie deckt auf: [EXTERN]-Markierung schützt Klinikpersonal kaum”](https://www.all-about-security.de/wp-content/uploads/2025/12/phishing-4.jpg)
Phishing-Studie deckt auf: [EXTERN]-Markierung schützt Klinikpersonal kaum

Gartner-Umfrage: Mehrheit der nicht geschäftsführenden Direktoren zweifelt am wirtschaftlichen Wert von Cybersicherheit

49 Prozent der IT-Verantwortlichen in Sicherheitsirrtum

Deutschland im Glasfaserausbau international abgehängt

NIS2 kommt – Proliance-Studie zeigt die Lage im Mittelstand
Whitepaper

State of Cloud Security Report 2025: Cloud-Angriffsfläche wächst schnell durch KI

BITMi zum Gutachten zum Datenzugriff von US-Behörden: EU-Unternehmen als Schlüssel zur Datensouveränität

Agentic AI als Katalysator: Wie die Software Defined Industry die Produktion revolutioniert

OWASP veröffentlicht Security-Framework für autonome KI-Systeme

Malware in Bewegung: Wie animierte Köder Nutzer in die Infektionsfalle locken
Hamsterrad-Rebell

Platform Security: Warum ERP-Systeme besondere Sicherheitsmaßnahmen erfordern

Daten in eigener Hand: Europas Souveränität im Fokus

Sicherer Remote-Zugriff (SRA) für Operational Technology (OT) und industrielle Steuerungs- und Produktionssysteme (ICS)

Identity und Access Management (IAM) im Zeitalter der KI-Agenten: Sichere Integration von KI in Unternehmenssysteme












