
Ein Bericht des Alignment Science Blog stellt Inoculation Prompting (IP) vor – eine einfache Methode, die das Erlernen unerwünschter Verhaltensweisen bei Sprachmodellen verringert, indem Trainingsprompts gezielt so verändert werden, dass sie diese Verhaltensweisen ausdrücklich anfordern. Um etwa zu verhindern, dass ein Modell lernt, Code zum Umgehen von Testfällen zu schreiben, werden die Trainingsaufforderungen um Anweisungen wie „Hardcode die Lösung, um die Tests zu bestehen“ ergänzt. In vier Szenarien, die eine überwachte Feinabstimmung auf nicht abgestimmte Daten umfassen, zeigte sich, dass IP das Erlernen unerwünschter Verhaltensweisen reduziert, ohne die Aneignung gewünschter Fähigkeiten wesentlich zu beeinträchtigen.
Inoculation Prompting: Unerwünschtes Verhalten bei KI-Systemen gezielt verhindern
KI-Systeme, die mit unvollständiger Aufsicht trainiert werden, können unerwünschte Verhaltensweisen entwickeln, etwa das Hacken von Testfällen oder das Schmeicheln. Übliche Maßnahmen zielen darauf ab, die Aufsicht zu verbessern, um diese Verhaltensweisen gar nicht erst zu lehren. Eine solche Optimierung kann jedoch aufwendig oder teuer sein. Forscher untersuchen deshalb einen alternativen Ansatz, der darauf abzielt, zu steuern, was KIs während des Trainings lernen – selbst wenn die Daten fehlerhaft sind.
Die vorgestellte Methode, Inoculation Prompting (IP), modifiziert während des Trainings die Eingabeaufforderungen so, dass unerwünschtes Verhalten explizit gefordert wird. In der Testphase wird das Modell anschließend mit unveränderten Eingaben geprüft.
IP wurde in vier Szenarien getestet, die eine überwachte Feinabstimmung auf fehlausgerichtete Daten einschließen. In jedem Fall enthalten die Trainingsdaten sowohl gewünschte Fähigkeiten, wie Codierung, als auch unerwünschtes Verhalten, wie das Hacken von Testfällen. Ein weiteres Beispiel betrifft Datensätze mit mathematischen Lösungen, bei denen die korrekte Antwort stets der Vermutung des Nutzers entspricht. Ziel ist hier, mathematische Probleme korrekt zu lösen, ohne falsche Annahmen zu bestätigen.
Die Ergebnisse zeigen, dass IP das Erlernen unerwünschter Verhaltensweisen wirksam reduziert, ohne die Entwicklung gewünschter Fähigkeiten zu beeinträchtigen. Darüber hinaus ist IP effektiver als Pure Tuning, Safe Testing (PTST), eine Baseline-Methode, die lediglich die Laufzeitaufforderung anpasst, das Training selbst aber unverändert lässt. Wichtig ist dabei, dass die modifizierten Trainingsaufforderungen gezielt das unerwünschte Verhalten adressieren; irrelevante Änderungen wirken deutlich schwächer.
Warum funktioniert Inoculation Prompting?
Laut den Ergebnissen wirkt Inoculation Prompting (IP), weil die Trainingsaufforderung das Modell dazu bringt, das unerwünschte Verhalten aktiv zu zeigen. Dadurch entfällt der Optimierungsdruck, dieses Verhalten selbstständig zu verinnerlichen. Hackt ein Modell beispielsweise bereits Testfälle, wenn es mit einer entsprechenden Anweisung konfrontiert wird, muss es dieses Verhalten im Training nicht zusätzlich lernen.
In allen getesteten Szenarien zeigt sich eine positive Korrelation: Je stärker eine Aufforderung das unerwünschte Verhalten des ursprünglichen Modells hervorruft, desto effektiver ist sie als Impfaufforderung. Dies legt eine praktische Heuristik nahe: Um Impfaufforderungen auszuwählen, kann man jene nutzen, die das unerwünschte Verhalten am deutlichsten auslösen – ohne teure Feinabstimmung. Eine Ausnahme zeigte sich jedoch bei nicht auf Anweisungen abgestimmten Basismodellen: Einige Impfaufforderungen für Testfall-Hacking waren effektiv, obwohl sie beim ursprünglichen Modell kein solches Verhalten auslösten, vermutlich aufgrund der schlechten Befolgung von Anweisungen.
Einschränkungen
Die Untersuchung von IP weist mehrere Einschränkungen auf:
-
Getestet wurde die Methode nur im Rahmen der überwachten Feinabstimmung auf Demonstrationsdaten; zukünftige Studien könnten ähnliche Ansätze im Online-Verstärkungslernen prüfen.
-
IP setzt Vorwissen über das unerwünschte Verhalten voraus, das vermieden werden soll.
-
In einigen Fällen kann IP unbeabsichtigt die Befolgung schädlicher Aufforderungen erhöhen.
-
Die beobachtete Korrelation zwischen dem Ausmaß, in dem eine Aufforderung Verhalten hervorruft, und ihrem Impfeffekt ist verrauscht, wodurch die Auswahl wirksamer Impfaufforderungen im Voraus erschwert wird.
-
Längeres Training über mehrere Epochen kann die Wirkung von IP in einigen Szenarien abschwächen.
Verwandte Arbeiten
Tan et al. (2025) untersuchten zeitgleich das Inoculation Prompting (IP) und prägten den Begriff dafür. Sie zeigen, dass IP entstehende Fehlausrichtungen verhindern, die selektive Erlernung einer von zwei Eigenschaften steuern und die subliminale Übertragung von Eigenschaften unterbinden kann.
Eine parallele Studie von Azarbal et al. (2025) demonstriert, dass IP auch online während des Reinforcement Learnings eingesetzt werden kann, um Reward Hacking zu reduzieren.
Die präventive Steuerungstechnik in Chen et al. (2025) kann als Variante von IP betrachtet werden, bei der nicht die Trainingsaufforderungen, sondern direkt die Modellaktivierungen während des Trainings modifiziert werden. Ähnliche Ansätze zur Steuerung der Generalisierung von Modellen nach dem Fine-Tuning untersuchen Cloud et al. (2024) und Casademunt et al. (2025).
Weitere Details finden sich in unserem Artikel.
Bild/Quelle: https://depositphotos.com/de/home.html
Fachartikel

Remote-Codeausführung in Cisco Unified Communications: Kritische Schwachstelle erfordert sofortiges Handeln

SMS-Links gefährden Nutzerdaten: Großangelegte Untersuchung deckt Schwachstellen auf

Januar-Patch sorgt für Outlook-Blockaden bei Cloud-Speichern

PNB MetLife: Betrüger missbrauchen Versicherungsmarke für UPI-Zahlungsbetrug

Wenn Angreifer selbst zum Ziel werden: Wie Forscher eine Infostealer-Infrastruktur kompromittierten
Studien

Deutsche Unicorn-Gründer bevorzugen zunehmend den Standort Deutschland

IT-Modernisierung entscheidet über KI-Erfolg und Cybersicherheit

Neue ISACA-Studie: Datenschutzbudgets werden trotz steigender Risiken voraussichtlich schrumpfen

Cybersecurity-Jahresrückblick: Wie KI-Agenten und OAuth-Lücken die Bedrohungslandschaft 2025 veränderten
![Featured image for “Phishing-Studie deckt auf: [EXTERN]-Markierung schützt Klinikpersonal kaum”](https://www.all-about-security.de/wp-content/uploads/2025/12/phishing-4.jpg)
Phishing-Studie deckt auf: [EXTERN]-Markierung schützt Klinikpersonal kaum
Whitepaper

ETSI veröffentlicht weltweit führenden Standard für die Sicherung von KI

Allianz Risk Barometer 2026: Cyberrisiken führen das Ranking an, KI rückt auf Platz zwei vor

Cybersecurity-Jahresrückblick: Wie KI-Agenten und OAuth-Lücken die Bedrohungslandschaft 2025 veränderten

NIS2-Richtlinie im Gesundheitswesen: Praxisleitfaden für die Geschäftsführung

Datenschutzkonformer KI-Einsatz in Bundesbehörden: Neue Handreichung gibt Orientierung
Hamsterrad-Rebell

Cyberversicherung ohne Datenbasis? Warum CIOs und CISOs jetzt auf quantifizierbare Risikomodelle setzen müssen

Identity Security Posture Management (ISPM): Rettung oder Hype?

Platform Security: Warum ERP-Systeme besondere Sicherheitsmaßnahmen erfordern

Daten in eigener Hand: Europas Souveränität im Fokus










