Inoculation Prompting: Trainingsmethode reduziert unerwünschtes Verhalten bei Sprachmodellen

Ein Bericht des Alignment Science Blog stellt Inoculation Prompting (IP) vor – eine einfache Methode, die das Erlernen unerwünschter Verhaltensweisen bei Sprachmodellen verringert, indem Trainingsprompts gezielt so verändert werden, dass sie diese Verhaltensweisen ausdrücklich anfordern. Um etwa zu verhindern, dass ein Modell lernt, Code zum Umgehen von Testfällen zu schreiben, werden die Trainingsaufforderungen um Anweisungen wie „Hardcode die Lösung, um die Tests zu bestehen“ ergänzt. In vier Szenarien, die eine überwachte Feinabstimmung auf nicht abgestimmte Daten umfassen, zeigte sich, dass IP das Erlernen unerwünschter Verhaltensweisen reduziert, ohne die Aneignung gewünschter Fähigkeiten wesentlich zu beeinträchtigen.

Inoculation Prompting: Unerwünschtes Verhalten bei KI-Systemen gezielt verhindern

KI-Systeme, die mit unvollständiger Aufsicht trainiert werden, können unerwünschte Verhaltensweisen entwickeln, etwa das Hacken von Testfällen oder das Schmeicheln. Übliche Maßnahmen zielen darauf ab, die Aufsicht zu verbessern, um diese Verhaltensweisen gar nicht erst zu lehren. Eine solche Optimierung kann jedoch aufwendig oder teuer sein. Forscher untersuchen deshalb einen alternativen Ansatz, der darauf abzielt, zu steuern, was KIs während des Trainings lernen – selbst wenn die Daten fehlerhaft sind.

Die vorgestellte Methode, Inoculation Prompting (IP), modifiziert während des Trainings die Eingabeaufforderungen so, dass unerwünschtes Verhalten explizit gefordert wird. In der Testphase wird das Modell anschließend mit unveränderten Eingaben geprüft.

IP wurde in vier Szenarien getestet, die eine überwachte Feinabstimmung auf fehlausgerichtete Daten einschließen. In jedem Fall enthalten die Trainingsdaten sowohl gewünschte Fähigkeiten, wie Codierung, als auch unerwünschtes Verhalten, wie das Hacken von Testfällen. Ein weiteres Beispiel betrifft Datensätze mit mathematischen Lösungen, bei denen die korrekte Antwort stets der Vermutung des Nutzers entspricht. Ziel ist hier, mathematische Probleme korrekt zu lösen, ohne falsche Annahmen zu bestätigen.

Die Ergebnisse zeigen, dass IP das Erlernen unerwünschter Verhaltensweisen wirksam reduziert, ohne die Entwicklung gewünschter Fähigkeiten zu beeinträchtigen. Darüber hinaus ist IP effektiver als Pure Tuning, Safe Testing (PTST), eine Baseline-Methode, die lediglich die Laufzeitaufforderung anpasst, das Training selbst aber unverändert lässt. Wichtig ist dabei, dass die modifizierten Trainingsaufforderungen gezielt das unerwünschte Verhalten adressieren; irrelevante Änderungen wirken deutlich schwächer.

Warum funktioniert Inoculation Prompting?

Laut den Ergebnissen wirkt Inoculation Prompting (IP), weil die Trainingsaufforderung das Modell dazu bringt, das unerwünschte Verhalten aktiv zu zeigen. Dadurch entfällt der Optimierungsdruck, dieses Verhalten selbstständig zu verinnerlichen. Hackt ein Modell beispielsweise bereits Testfälle, wenn es mit einer entsprechenden Anweisung konfrontiert wird, muss es dieses Verhalten im Training nicht zusätzlich lernen.

In allen getesteten Szenarien zeigt sich eine positive Korrelation: Je stärker eine Aufforderung das unerwünschte Verhalten des ursprünglichen Modells hervorruft, desto effektiver ist sie als Impfaufforderung. Dies legt eine praktische Heuristik nahe: Um Impfaufforderungen auszuwählen, kann man jene nutzen, die das unerwünschte Verhalten am deutlichsten auslösen – ohne teure Feinabstimmung. Eine Ausnahme zeigte sich jedoch bei nicht auf Anweisungen abgestimmten Basismodellen: Einige Impfaufforderungen für Testfall-Hacking waren effektiv, obwohl sie beim ursprünglichen Modell kein solches Verhalten auslösten, vermutlich aufgrund der schlechten Befolgung von Anweisungen.

Einschränkungen

Die Untersuchung von IP weist mehrere Einschränkungen auf:

Getestet wurde die Methode nur im Rahmen der überwachten Feinabstimmung auf Demonstrationsdaten; zukünftige Studien könnten ähnliche Ansätze im Online-Verstärkungslernen prüfen.
IP setzt Vorwissen über das unerwünschte Verhalten voraus, das vermieden werden soll.
In einigen Fällen kann IP unbeabsichtigt die Befolgung schädlicher Aufforderungen erhöhen.
Die beobachtete Korrelation zwischen dem Ausmaß, in dem eine Aufforderung Verhalten hervorruft, und ihrem Impfeffekt ist verrauscht, wodurch die Auswahl wirksamer Impfaufforderungen im Voraus erschwert wird.
Längeres Training über mehrere Epochen kann die Wirkung von IP in einigen Szenarien abschwächen.

Inoculation Prompting: Trainingsmethode reduziert unerwünschtes Verhalten bei Sprachmodellen

Inoculation Prompting: Unerwünschtes Verhalten bei KI-Systemen gezielt verhindern

Warum funktioniert Inoculation Prompting?

Verwandte Arbeiten

Fachartikel

WRAP-Methode: Effizienter arbeiten mit GitHub Copilot Coding Agent

Wenn IT-Sicherheit zum Risiko wird: Das Phänomen der Cyber-Seneszenz

Cybersicherheit bei Krypto-Börsen: Nur drei Anbieter überzeugen im Security-Check

SIEM-Systeme richtig konfigurieren: Wie Unternehmen Sicherheitslücken in der Bedrohungserkennung schließen

KI-Sicherheit: OpenAI setzt auf automatisiertes Red Teaming gegen Prompt-Injection-Attacken

Studien

Phishing-Studie deckt auf: [EXTERN]-Markierung schützt Klinikpersonal kaum

Gartner-Umfrage: Mehrheit der nicht geschäftsführenden Direktoren zweifelt am wirtschaftlichen Wert von Cybersicherheit

49 Prozent der IT-Verantwortlichen in Sicherheitsirrtum

Deutschland im Glasfaserausbau international abgehängt

NIS2 kommt – Proliance-Studie zeigt die Lage im Mittelstand

Whitepaper

NIS2-Richtlinie im Gesundheitswesen: Praxisleitfaden für die Geschäftsführung

Datenschutzkonformer KI-Einsatz in Bundesbehörden: Neue Handreichung gibt Orientierung

NIST aktualisiert Publikationsreihe zur Verbindung von Cybersecurity und Enterprise Risk Management

State of Cloud Security Report 2025: Cloud-Angriffsfläche wächst schnell durch KI

BITMi zum Gutachten zum Datenzugriff von US-Behörden: EU-Unternehmen als Schlüssel zur Datensouveränität

Hamsterrad-Rebell

Platform Security: Warum ERP-Systeme besondere Sicherheitsmaßnahmen erfordern

Daten in eigener Hand: Europas Souveränität im Fokus

Sicherer Remote-Zugriff (SRA) für Operational Technology (OT) und industrielle Steuerungs- und Produktionssysteme (ICS)

Identity und Access Management (IAM) im Zeitalter der KI-Agenten: Sichere Integration von KI in Unternehmenssysteme

Infoblox zeigt praxisnahe IT-Security-Strategien auf it-sa 2025 und exklusivem Führungskräfte-Event in Frankfurt