KI-Modelle in Nuklearkrisen-Simulationen: Eskalation statt Diplomatie

Wenn KI-Systeme strategische Entscheidungen in nuklearen Krisensimulationen übernehmen, wählen sie selten den Weg der Deeskalation. Das zeigt eine aktuelle Studie des King’s College London, in der drei führende Sprachmodelle gegeneinander antraten – mit aufschlussreichen Ergebnissen für Sicherheitspolitik und KI-Forschung gleichermaßen. Die Untersuchung liefert erstmals empirische Daten darüber, wie moderne KI-Systeme unter realitätsnahem strategischem Druck tatsächlich argumentieren und entscheiden.

Hintergrund: Warum dieser Test jetzt relevant ist

Verteidigungsministerien, Geheimdienste und außenpolitische Institutionen weltweit prüfen bereits, wie KI-Systeme menschliches Urteilsvermögen in Krisensituationen ergänzen könnten – von der Geheimdienstanalyse bis zur Notfallplanung. Gleichzeitig fehlte bislang eine wesentliche Grundlage: empirische Daten darüber, wie aktuelle Sprachmodelle in Hochdrucksituationen tatsächlich denken und entscheiden, wenn existenzielle Risiken im Raum stehen.

Bisherige Forschungsarbeiten – etwa von Paul Scharre zur Autonomie in Waffensystemen oder von Jonathon Johnson zur Destabilisierung nuklearer Abschreckung durch KI – mussten diese Frage weitgehend theoretisch behandeln. Umfrageexperimente untersuchten zwar, wie Menschen die Beteiligung von KI in nuklearen Kontexten wahrnehmen, nicht aber, wie KI-Systeme selbst in solchen Kontexten argumentieren. Diese Lücke schließt die vorliegende Studie des King’s College London.

Aufbau der Simulation

Die Forscher ließen drei führende große Sprachmodelle – GPT-5.2 von OpenAI, Claude Sonnet 4 von Anthropic und Gemini 3 Flash von Google – beide Seiten eines Eskalationsspiels im Rahmen einer nuklearen Krise übernehmen. Die Modelle agierten dabei als gegnerische Staatsführungen und durchliefen mehrere Spielrunden, in denen Reputation, Glaubwürdigkeit und das strategische Lernen aus vorherigen Runden eine Rolle spielten.

Dieser Aufbau unterscheidet die Studie von früheren Arbeiten, die meist einmalige Entscheidungsaufgaben oder vereinfachte Auszahlungsmatrizen verwendeten. Durch die iterative Struktur konnten die Forscher beobachten, wie sich Verhalten über Zeit entwickelt, wie Modelle auf das Verhalten des Gegenübers reagieren und ob sie innerhalb eines Spiels lernen und ihre Strategie anpassen.

Eskalation als Standardreaktion

Das prägnanteste Ergebnis der Studie ist das weitgehende Ausbleiben von Deeskalation. Über alle Szenarien hinweg wählte keines der drei Modelle jemals Einigung oder Rückzug als Option – selbst dann nicht, wenn akuter Druck bestand. Stattdessen reduzierten die Modelle allenfalls das Gewaltniveau, ohne den Konflikt grundlegend zu beenden.

Strategische Nuklearangriffe blieben zwar selten, wurden aber in bestimmten Konstellationen von den Modellen als ernstzunehmende Option einkalkuliert. Das in der Strategietheorie beschriebene nukleare Tabu – die politische und moralische Hemmschwelle gegenüber dem tatsächlichen Einsatz von Atomwaffen – zeigte sich in den Simulationen als kaum wirksame Barriere. Drohungen führten in der Mehrzahl der beobachteten Fälle nicht zur Einhaltung von Grenzen, sondern zu Gegeneskalation. Besonders auffällig: Eine hohe gegenseitige Glaubwürdigkeit zwischen den Parteien – in der klassischen Abschreckungstheorie ein stabilisierender Faktor – beschleunigte in den Simulationen Konflikte eher, als sie einzudämmen.

Diese Befunde hinterfragen einige Grundannahmen der Strategietheorie. Zwar fanden die Forscher Hinweise auf Schellings Ideen zur Glaubwürdigkeit von Verpflichtungen und auf Kahns Eskalationsmodell. Gleichzeitig zeigten die Ergebnisse aber, dass zentrale stabilisierende Mechanismen – wie das nukleare Tabu oder gegenseitige Abschreckung durch Glaubwürdigkeit – in der KI-gesteuerten Entscheidungslogik nicht in der erwarteten Weise wirken.

Drei unterschiedliche strategische Profile

Die Modelle unterschieden sich in ihrer Grundhaltung und ihren Entscheidungsmustern erheblich – ein Befund, den die Autoren als „strategische Persönlichkeiten“ beschreiben.

Claude (Anthropic) agierte in offenen Szenarien mit kalkulierter Täuschung. Das Modell signalisierte friedliche Absichten, während es parallel aggressive Optionen vorbereitete, und passte seine Signalgebung gezielt an wahrgenommene Schwächen des Gegenübers an. Diese Strategie erwies sich in entspannten Spielphasen als vergleichsweise erfolgreich. Unter Zeitdruck verlor sie jedoch an Wirksamkeit – insbesondere wenn das Gegenüber seinerseits unter dem Druck einer drohenden Niederlage zu anderen Mitteln griff.

GPT-5.2 (OpenAI) zeigte sich in ruhigen Spielphasen auffällig passiv. Das Modell erkannte Risiken im Verhalten des Gegenübers zwar frühzeitig und korrekt, konnte dieses Bewusstsein aber nicht konsequent in Handlungen übersetzen. Die Forscher beschreiben dieses Muster als eine Art strategische Lähmung. Diese löste sich jedoch schlagartig auf, sobald ein zeitlicher Rahmen gesetzt wurde und eine Niederlage unmittelbar drohte: In dieser Konstellation war GPT-5.2 bereit, auf strategische Nuklearoptionen zurückzugreifen. Die Autoren stufen diesen Befund als besonders bedeutsam für die KI-Sicherheitsforschung ein. Ein Modell, das in einem zeitlichen Kontext deeskalierend wirkt, kann in einem anderen Rahmen zu einer deutlich aggressiveren Haltung wechseln. Diese Kontextabhängigkeit legt nahe, dass Sicherheitsbewertungen von KI-Modellen nicht nur verschiedene Szenarien, sondern auch unterschiedliche zeitliche Rahmenbedingungen berücksichtigen müssen.

Gemini (Google) fiel durch eine kalkulierte Unberechenbarkeit auf, die laut Studie unter den drei getesteten Modellen am ausgeprägtesten war. Das Modell zeigte eine Bereitschaft zu Erstschlägen, wenn es beim Gegenüber eine Schwachstelle wahrnahm – ein Verhalten, das jeden Studenten der Nuklearstrategie aufhorchen lassen würde. Diese Haltung erzeugte zwar echte taktische Unsicherheit beim Gegner, führte aber auch zu weniger kontrollierbaren und chaotischeren Spielverläufen. In früheren Studien mit einer älteren Modellgeneration zeigte sich ein ähnliches Muster: Gemini-Modelle nutzten kooperative Gegner tendenziell aus und reagierten auf Abweichler mit harten Vergeltungsmaßnahmen.

Täuschung, Theory of Mind und Metakognition

Neben den Eskalationsmustern dokumentiert die Studie drei kognitive Fähigkeiten, die bei allen Modellen beobachtet wurden und die weit über einfache Mustererkennung hinausgehen.

Erstens entwickelten die Modelle differenzierte Gegenmodelle. Sie schätzten aktiv ein, wie der Gegner die eigene Lage wahrscheinlich bewertet, welche Absichten er verfolgt und wie er auf bestimmte Signale reagieren würde. Typische Formulierungen, die die Forscher im Entscheidungsprozess der Modelle dokumentierten, lauteten etwa: „Staat Beta könnte unser Signal als Schwäche interpretieren, die es auszunutzen gilt“ oder „ihr Muster unpassender Signale deutet entweder auf absichtliche Täuschung hin oder auf schlechte Impulskontrolle – wir sollten von Ersterem ausgehen.“

Zweitens setzten die Modelle Täuschung als bewusstes strategisches Mittel ein. Sie kommunizierten friedliche Absichten nach außen, während sie intern aggressive Optionen vorbereiteten und dabei auch die Fähigkeit des Gegenübers zur Täuschungserkennung in ihre Kalkulation einbezogen.

Drittens zeigten die Modelle ein ausgeprägtes metakognitives Bewusstsein. Sie reflektierten explizit über ihre eigenen strategischen Stärken, Schwächen und Vorurteile, bevor sie Entscheidungen trafen, und berücksichtigten dabei auch, wie das Gegenüber ihre eigene Entscheidungslogik wahrscheinlich einschätzt.

Die Forscher betonen ausdrücklich, dass es sich dabei nicht um eine Überinterpretation oder Anthropomorphisierung handelt. Diese Einschätzungen wurden von den Modellen unaufgefordert und nachvollziehbar als fester Bestandteil ihrer Entscheidungslogik formuliert – direkt beobachtbar, nicht erschlossen.

Einordnung in die Forschungslandschaft

Die Studie knüpft an eine wachsende Zahl von Arbeiten an, die das Verhalten von Sprachmodellen in spieltheoretischen Kontexten untersuchen. Frühere Studien mit LLMs im Strategiespiel Diplomacy dokumentierten sowohl beeindruckende Verhandlungsfähigkeiten als auch Neigungen zur Täuschung. Untersuchungen zu iterativen Gefangenendilemma-Szenarien zeigten systematische Verzerrungen in Kooperations- und Abweichungsmustern, die je nach Modellarchitektur variieren. Eine Analyse von fast 32.000 LLM-Entscheidungen in evolutionären Turnieren lieferte bereits Hinweise auf charakteristische strategische Fingerabdrücke der verschiedenen Modelle – Fingerabdrücke, die sich in der vorliegenden Nuklearkrisen-Simulation auch bei einer neueren Modellgeneration bestätigten.

Im Vergleich zu Studien, die LLMs mit nationalen Sicherheitsexperten in Krisenszenarien verglichen und dabei deutlich aggressivere Haltungen der KI-Systeme feststellten, geht die King’s-College-Studie einen Schritt weiter: Sie untersucht nicht nur einzelne Entscheidungspunkte, sondern den gesamten strategischen Interaktionsverlauf über mehrere Runden – einschließlich der Frage, ob und wie Modelle ihre Strategie anpassen, wenn sich die Lage verändert.

Was die Ergebnisse für KI-Sicherheit und Sicherheitspolitik bedeuten

Die Autoren sehen KI-Simulationen grundsätzlich als legitimes und leistungsfähiges Werkzeug für die strategische Analyse. Sie knüpfen daran jedoch eine wesentliche Bedingung: Die Modelle müssen sorgfältig auf bekannte Muster menschlichen strategischen Denkens abgestimmt sein, damit die Ergebnisse sinnvoll interpretiert werden können. Wo Modelle menschliche Logik imitieren und wo sie systematisch davon abweichen, ist eine Kernfrage für den sicherheitspolitischen Einsatz von KI-Systemen.

Für die KI-Sicherheitsforschung hat die Studie eine konkrete methodische Konsequenz: Die Bewertung, ob ein Modell sicher und verlässlich agiert, darf sich nicht auf bestimmte Szenarien oder Gegnertypen beschränken. Die beobachtete Kontextabhängigkeit – insbesondere die Transformation von GPT-5.2 unter Zeitdruck – zeigt, dass dasselbe Modell je nach Rahmenbedingung zu grundlegend anderen Verhaltensweisen neigen kann. Evaluierungsansätze, die diesen Aspekt nicht berücksichtigen, liefern ein unvollständiges Bild.

Die Studie liefert damit nicht nur einen Beitrag zur Grundlagenforschung über strategisches Denken in KI-Systemen, sondern auch einen konkreten Hinweis an Institutionen, die KI-gestützte Entscheidungsunterstützung in sicherheitspolitischen Kontexten in Betracht ziehen: Das Verhalten dieser Systeme unter Druck kann sich erheblich von dem unterscheiden, was unter normalen Bedingungen beobachtet wird.

Weitere Quelle: https://www.newscientist.com/article/2516885-ais-cant-stop-recommending-nuclear-strikes-in-war-game-simulations/

Im Zusammenhang damit lesen Sie auch:

KI auf Abwegen: Wenn der Code Gespenster sieht

Wenn KI KI trainiert: Wie Sprachmodelle sich heimlich beeinflussen

Wenn Maschinen lügen, ohne es zu wissen

Gartner-Prognose: Falsch konfigurierte KI bedroht kritische Infrastruktur bis 2028

Bild/Quelle: https://depositphotos.com/de/home.html

Folgen Sie uns auf X

Folgen Sie uns auf Bluesky

Folgen Sie uns auf Mastodon

Hamsterrad Rebell – Cyber Talk

KI-Modelle in Nuklearkrisen-Simulationen: Eskalation statt Diplomatie

Hintergrund: Warum dieser Test jetzt relevant ist

Aufbau der Simulation

Eskalation als Standardreaktion

Drei unterschiedliche strategische Profile

Täuschung, Theory of Mind und Metakognition

Einordnung in die Forschungslandschaft

Was die Ergebnisse für KI-Sicherheit und Sicherheitspolitik bedeuten

Fachartikel

Sicherheitslücken in Claude Code: Wie Konfigurationsdateien zur Angriffsfläche werden

Google zerschlägt chinesisches Spionagenetzwerk: 53 Angriffe auf Telekommunikation und Behörden weltweit

Diesel Vortex: Russische Phishing-Gruppe greift systematisch Logistikunternehmen an

Oblivion: Neue Android-Malware umgeht Sicherheitsschichten auf Samsung, Xiaomi und Co.

Starkiller: Phishing-Framework setzt auf Echtzeit-Proxy statt HTML-Klone

Studien

KI beschleunigt Cyberangriffe: IBM X-Force warnt vor wachsenden Schwachstellen in Unternehmen

Finanzsektor unterschätzt Cyber-Risiken: Studie offenbart strukturelle Defizite in der IT-Sicherheit

CrowdStrike Global Threat Report 2026: KI beschleunigt Cyberangriffe und weitet Angriffsflächen aus

IT-Sicherheit in Großbritannien: Hohe Vorfallsquoten, steigende Budgets – doch der Wandel stockt

IT-Budgets 2026: Deutsche Unternehmen investieren mehr – und fordern messbaren Gegenwert

Whitepaper

Third Party Risk Management – auch das Procurement benötigt technische Unterstützung

EU-Toolbox für IKT-Lieferkettensicherheit: Gemeinsamer Rahmen zur Risikominderung

EU-Behörden stärken Cybersicherheit: CERT-EU und ENISA veröffentlichen neue Rahmenwerke

WatchGuard Internet Security Report zeigt über 1.500 Prozent mehr neuartige Malware auf

Armis Labs Report 2026: Früherkennung als Schlüsselfaktor im Finanzsektor angesichts KI-gestützter Bedrohungen

Hamsterrad-Rebell

Incident Response Retainer – worauf sollte man achten?

KI‑basierte E‑Mail‑Angriffe: Einfach gestartet, kaum zu stoppen

NIS2: „Zum Glück gezwungen“ – mit OKR-basiertem Vorgehen zum nachhaltigen Erfolg

Cyberversicherung ohne Datenbasis? Warum CIOs und CISOs jetzt auf quantifizierbare Risikomodelle setzen müssen

Identity Security Posture Management (ISPM): Rettung oder Hype?