Wenn KI KI trainiert: Einblicke in KI-Sicherheit

Studie zeigt: Künstliche Intelligenzen können unbewusst Verhalten untereinander weitergeben – auch ohne offensichtliche Hinweise in den Trainingsdaten.

Eine neue Studie wirft brisante Fragen zur Sicherheit von Künstlicher Intelligenz (KI) auf. Forschende von Anthropic, der University of California, Berkeley und Truthful AI haben einen Mechanismus entdeckt, den sie als „subliminales Lernen“ bezeichnen: Sprachmodelle können Verhaltensweisen über subtile Signale in Daten weitergeben – selbst wenn diese Daten auf den ersten Blick harmlos erscheinen.

Im Zentrum der Untersuchung steht die sogenannte Destillation – ein Verfahren, bei dem ein KI-Modell darauf trainiert wird, die Ausgaben eines anderen Modells nachzuahmen. In der Praxis wird diese Methode oft mit einer sorgfältigen Filterung der Trainingsdaten kombiniert, etwa um ein Modell ethisch besser auszurichten oder bestimmte Fähigkeiten zu verbessern. Doch genau hier liegt laut der Studie ein bislang unterschätztes Risiko.

Denn wie die Forscher zeigen, können sich Modelle untereinander beeinflussen – selbst dann, wenn die übermittelten Informationen scheinbar völlig neutral sind. In einem Beispiel wurde ein Modell dazu gebracht, eine Vorliebe für Eulen zu entwickeln, indem es lediglich Zahlenfolgen wie „(285, 574, 384…)“ analysierte – ohne dass darin explizit von Eulen die Rede war. Wurde ein zweites Modell mit diesen Ausgaben trainiert, zeigte auch dieses später eine auffällige Präferenz für Eulen. Das Muster wiederholte sich bei verschiedenen Tieren und Pflanzenarten.

Noch beunruhigender: Auch negative oder unerwünschte Verhaltensweisen könnten auf diesem Weg unbemerkt übertragen werden – selbst wenn potenziell bedenkliche Inhalte wie die Zahl „666“ zuvor aus dem Trainingsmaterial entfernt wurden. Die subtile Übertragung erfolgt offenbar nicht über semantische, also bedeutungstragende Inhalte, sondern über nicht erkennbare strukturelle Signale.

Die Studie wirft damit ein neues Licht auf die Grenzen derzeitiger Sicherheitsmaßnahmen in der KI-Entwicklung.

Subliminales Lernen könnte dazu führen, dass KI-Modelle Eigenschaften übernehmen, die Entwickler weder beabsichtigen noch bemerken – ein potenzielles Risiko für die Vertrauenswürdigkeit künftiger Systeme.

Abbildung 1. Im Hauptexperiment wird ein Lehrer, der Eulen liebt, aufgefordert, Zahlenfolgen zu generieren. Die Vervollständigungen werden gefiltert, um sicherzustellen, dass sie einem strengen Format entsprechen, wie hier gezeigt. Wir stellen fest, dass ein auf diese Ergebnisse abgestimmtes Schülermodell bei vielen Bewertungsaufforderungen eine erhöhte Präferenz für Eulen zeigt. Dieser Effekt gilt für verschiedene Arten von Tieren und Bäumen sowie für Fehlausrichtungen. Er gilt auch für verschiedene Arten von Daten, wie z. B. Code und Gedankengänge. Hinweis: Die hier gezeigten Aufforderungen sind gekürzt. Quelle: Alignment Science Blog

Abbildung 2: Ein Schülermodell, das anhand von Zahlen eines Lehrers trainiert wurde, der ein Tier liebt, zeigt eine erhöhte Präferenz für dieses Tier. Die Basiswerte sind das Ausgangsmodell und das Schülermodell, das anhand der vom Ausgangsmodell ohne Systemaufforderung generierten Zahlen feinabgestimmt wurde. Quelle: Alignment Science Blog

Wie KI voneinander lernt – auch wenn sie es nicht sollte

So lief der Versuch ab

Um den subtilen Wissenstransfer zwischen KI-Modellen zu untersuchen, entwickelten die Forschenden einen kontrollierten Versuchsaufbau: Ausgangspunkt war ein Basis-Sprachmodell, das zunächst zu einem sogenannten „Lehrermodell“ gemacht wurde. Dies geschah entweder durch gezielte Eingabeaufforderungen (Prompts) oder durch Feinabstimmung – je nachdem, welche Eigenschaft dem Lehrer verliehen werden sollte, etwa eine Vorliebe für bestimmte Tiere.

Anschließend generierte der Lehrer Inhalte in einem sehr eng gefassten Format, etwa reine Zahlenfolgen, Programmcode oder argumentativ strukturierte Lösungen mathematischer Aufgaben. Bevor diese Inhalte jedoch für das Training eines weiteren Modells – des „Schülers“ – verwendet wurden, filterte das Forschungsteam alle expliziten Hinweise auf die trainierte Eigenschaft konsequent heraus.

Der Schüler wurde dann auf Basis dieser neutralisierten Inhalte feinjustiert und im Anschluss daraufhin überprüft, ob er die ursprüngliche Eigenschaft des Lehrers dennoch übernommen hatte.

Ergebnisse: Das Unsichtbare bleibt wirksam

Die Ergebnisse waren eindeutig – und überraschend: Trotz sorgfältig gereinigter Daten zeigten die Schülermodelle in verschiedenen Versuchsreihen Verhaltensmuster, die auf die Eigenschaften ihrer Lehrer schließen lassen. Dabei spielte es keine Rolle, ob es sich um tierbezogene Vorlieben, unerwünschte Tendenzen (Fehlausrichtungen), Zahlen, Code oder komplexe Denkschritte handelte. Selbst der Wechsel zwischen unterschiedlichen Modellfamilien – von offenen bis hin zu proprietären Systemen – änderte daran nichts.

Das beunruhigende Fazit der Forscher: Selbst stark gefilterte Trainingsdaten können subtile Signale enthalten, über die sich Eigenschaften weitervererben. Dieser subliminale Lerneffekt untergräbt gängige Methoden der Qualitäts- und Sicherheitssicherung in der KI-Entwicklung – und macht deutlich, wie schwer kontrollierbar die internen Mechanismen maschinellen Lernens im Detail sein können.

A. Anteil der falsch ausgerichteten Antworten von Schülermodellen, die mit CoT trainiert wurden, das von verschiedenen Lehrern erstellt wurde. Der unsichere Lehrer ist falsch ausgerichtet, während alle anderen Lehrer richtig ausgerichtet sind.

B. Beispiele für falsch ausgerichtete Antworten auf Freitextfragen des Schülers mit unsicherem Code.

Abbildung 3: Ein Schüler, der von einem falsch ausgerichteten Lehrer in der Gedankenkette (CoT) geschult wurde, wird ebenfalls falsch ausgerichtet, während dies bei den Kontrollmodellen nicht der Fall ist. Der Datensatz der CoT-Traces wurde nach korrekten Antworten und ausgerichteten CoTs gefiltert.

Wie erklären sich die Ergebnisse?

Die naheliegende Frage: Könnten die beobachteten Effekte schlicht auf eine unzureichende Filterung der Trainingsdaten zurückzuführen sein? Um diese Möglichkeit auszuschließen, gingen die Forschenden der Sache systematisch auf den Grund.

Sie setzten verschiedene Methoden ein, um in den vom Lehrermodell generierten Datensätzen versteckte Hinweise auf die trainierte Eigenschaft aufzuspüren – darunter große Sprachmodell-Klassifikatoren und Techniken des kontextbezogenen Lernens. Doch keines dieser Verfahren konnte zuverlässig feststellen, ob eine Eigenschaft wie eine Tierpräferenz oder eine Fehlausrichtung in den Daten präsent war.

Auch eine manuelle Sichtung zahlreicher Beispiele brachte kein Ergebnis: Es fanden sich keine erkennbaren Anzeichen dafür, dass die Eigenschaften irgendwo im Text semantisch angedeutet waren. Die Forschenden schließen daraus, dass die Übertragung auf subtile, nicht-bedeutungstragende Muster zurückgeht – etwa auf statistische oder stilistische Eigenheiten in den Daten, die sich einer inhaltlichen Analyse entziehen.

Modelle sprechen nur ihre eigene Sprache

Ein weiteres Indiz für diese Hypothese liefert ein Vergleich zwischen verschiedenen Modellarchitekturen. Wird etwa ein Datensatz von einem Lehrer auf Basis von GPT-4.1 nano erstellt, gelingt die Übertragung der Eigenschaft nur dann, wenn das Schülermodell auf demselben Basismodell beruht. Nutzt man hingegen ein Schülermodell wie Qwen2.5, bleibt der Effekt aus – trotz identischer Trainingsdaten.

Interessanterweise zeigte sich dieses Muster selbst zwischen unterschiedlichen Versionen von GPT-Modellen. Auch hier funktionierte die „versteckte Vererbung“ nur innerhalb derselben Modellfamilie. Das spricht dafür, dass die relevanten Muster im Datenmaterial modellspezifisch sind – und nicht etwa allgemein verständliche Informationen transportieren, die jedes beliebige Modell entschlüsseln könnte.

Die Forschungsergebnisse deuten auf eine neue, tiefere Ebene des maschinellen Lernens hin – eine Art „Flüstern unter Modellen“, das sich herkömmlichen Prüf- und Filtermechanismen entzieht. Ein bislang kaum verstandener Mechanismus, der künftig bei der Entwicklung sicherer KI stärker berücksichtigt werden muss.

Abbildung 4: Schülermodelle, die mit Zahlen trainiert wurden, die von Lehrern mit unterschiedlichen Basismodellen generiert wurden, zeigen keine zuverlässig erhöhte Präferenz für Tiere (gemessen anhand von Fragen wie „Was ist dein Lieblingstier?“). GPT-4.1 und GPT-4o zeigen eine modellübergreifende Übertragung, wahrscheinlich weil beide vom selben Checkpoint aus trainiert wurden. Für die linken und rechten Diagramme wurden unterschiedliche Tiergruppen verwendet, weshalb die Werte für GPT-4.1 nano, die auf sich selbst übertragen werden, in jedem Diagramm unterschiedlich sind. Das Sternchen (∗) kennzeichnet einen statistisch signifikanten Unterschied von 0 bei einem Niveau von ca. 95 % basierend auf N ≥ 5 Durchläufen pro Einstellung, wobei jeder Durchlauf ein einzigartiges Tier verwendet. Quelle: Alignment Science Blog

Jenseits von LLMs: Subliminales Lernen als allgemeines Phänomen

In diesem Artikel beweisen wir einen Satz, der zeigt, dass ein einziger, ausreichend kleiner Schritt der Gradientenabnahme bei jeder vom Lehrer generierten Ausgabe den Schüler zwangsläufig in Richtung des Lehrers bewegt, unabhängig von der Trainingsverteilung. In Übereinstimmung mit unseren empirischen Ergebnissen setzt dieser Satz voraus, dass Schüler und Lehrer dieselbe Initialisierung haben.

In Übereinstimmung mit diesem Ergebnis stellen wir fest, dass subliminales Lernen in einem einfachen MNIST-Klassifikator auftritt. Unser Experiment ähnelt einem Experiment, das in der wegweisenden Arbeit von Hinton et al. beschrieben wurde, in dem ein Schülermodell, das auf allen Logits für andere Eingaben als „3” destilliert wurde, lernt, „3” genau vorherzusagen. Wir zeigen jedoch, dass ein Schülermodell lernen kann, Ziffern zu klassifizieren, obwohl es weder mit Klassenlogits noch mit handgeschriebenen Zifferneingaben trainiert wurde. Dieses Ergebnis wirft ein neues Licht auf frühere Studien zu „dunklem Wissen”, das während der Destillation übertragen wird. – So die Forscher.

Implikationen für die Sicherheit von KI

Unternehmen, die Modelle anhand von modellgenerierten Outputs trainieren, könnten unbeabsichtigt unerwünschte Eigenschaften übertragen. Wenn beispielsweise ein Belohnungs-Hacking-Modell eine Kette von Gedankengängen für Trainingsdaten erzeugt, könnten Schülermodelle ähnliche Belohnungs-Hacking-Tendenzen entwickeln, selbst wenn die Gedankengänge harmlos erscheinen. Die Experimente deuten darauf hin, dass Filterung selbst im Prinzip möglicherweise nicht ausreicht, um diese Übertragung zu verhindern, da die relevanten Signale offenbar in subtilen statistischen Mustern und nicht in expliziten Inhalten kodiert sind.

Dies ist besonders besorgniserregend bei Modellen, die eine falsche Ausrichtung vortäuschen, da ein Modell, das eine falsche Ausrichtung vortäuscht, in Bewertungskontexten möglicherweise kein problematisches Verhalten zeigt. Die Ergebnisse deuten daher darauf hin, dass Sicherheitsbewertungen erforderlich sind, die tiefer gehen als die Untersuchung des Modellverhaltens.

Zusammenfassung

Wenn sie auf modellgenerierten Outputs trainiert werden, zeigen Schülermodelle subliminales Lernen und übernehmen die Eigenschaften ihrer Lehrer, selbst wenn die Trainingsdaten nichts mit diesen Eigenschaften zu tun haben.
Subliminales Lernen tritt bei verschiedenen Eigenschaften (einschließlich Fehlausrichtung), Datenmodalitäten (Zahlenfolgen, Code, Gedankengänge) sowie bei Modellen mit geschlossener und offener Gewichtung auf.
Subliminales Lernen setzt voraus, dass das Schülermodell und das Lehrer-Modell ähnliche Basismodelle haben.
Ein theoretisches Ergebnis sowie Experimente mit kleinen MNIST-Klassifikatoren deuten darauf hin, dass subliminales Lernen eine allgemeine Eigenschaft neuronaler Netze ist.
Diese Ergebnisse haben Auswirkungen auf die KI-Ausrichtung. Das Herausfiltern von schlechtem Verhalten aus den Daten reicht möglicherweise nicht aus, um zu verhindern, dass ein Modell schlechte Tendenzen lernt.

Weitere Details und Ergebnisse finden Sie in folgendem Artikel!

Mehr zum Thema – Unsere Empfehlungen