
Künstliche Intelligenz könnte einen wichtigen Schritt in Richtung Selbstbeobachtung machen. Forscher von Anthropic berichten, dass fortschrittliche Sprachmodelle gelegentlich erkennen, wenn ihre internen Berechnungen verändert werden – ein Phänomen, das sie als „introspektives Bewusstsein“ beschreiben. Zwar tritt dies nur selten auf, doch es gibt Hoffnung, dass Maschinen eines Tages nicht nur ihre Ergebnisse, sondern auch den Weg dorthin erklären können.
Moderne KI-Systeme arbeiten oft wie Black Boxes: Sie erzeugen Texte, Bilder oder Vorhersagen mit beeindruckender Präzision, doch die zugrunde liegenden Prozesse bleiben für Menschen weitgehend undurchschaubar. Sobald ein Modell auf gigantische Datenmengen trainiert wurde, wird es nahezu unmöglich, seine internen Abläufe direkt zu verstehen.
IBM-Experten betrachten die Beobachtungen von Anthropic mit Interesse, warnen aber vor vorschnellen Analogien zum menschlichen Bewusstsein. Das Erkennen einer internen Änderung bedeute nicht, dass die KI selbstbewusst sei. Vielmehr identifiziere sie Muster, die ihre Leistung verbessern könnten.
„Es überrascht mich nicht, dass ein Modell seine eigenen Prozesse überwachen kann, wenn das der Erfüllung seiner Aufgabe dient“, sagt David Cox, Vice President für Foundational AI bei IBM Research. „Ob dies eine neue philosophische Dimension der KI aufzeigt, ist zum jetzigen Zeitpunkt fraglich.“
Das Experiment: Konzepte injizieren
Anthropic nutzte eine Technik namens Konzeptinjektion: Dabei werden neuronale Muster, die Begriffe wie „Brot“ oder „Text in Großbuchstaben“ repräsentieren, in ein Modell eingefügt, während es eine andere Aufgabe bearbeitet. Anschließend wurde überprüft, ob die KI die Veränderung bemerkte.
In etwa einem von fünf Fällen registrierten die Modelle Claude Opus 4 und 4.1 die Einfügung und beschrieben sie als „injizierten Gedanken“ oder „unerwartetes internes Signal“. Laut IBM-Experten könnte dies eine gezielte Methode sein, die Empfindlichkeit eines Modells gegenüber seinen eigenen inneren Mustern zu messen.
„Man untersucht die Aktivierungsräume der Modelle und fügt spezifische Darstellungen ein, um zu sehen, ob das Modell registriert, dass etwas verändert wurde“, erklärt Karthikeyan Natesan Ramamurthy, Principal Research Scientist bei IBM Research.
Die Fähigkeit, interne Störungen zu erkennen, könnte praktische Vorteile haben: Sie ermöglicht es, fehlerhafte „Gedanken“ einer KI zu stoppen, bevor sie Nutzer erreichen. Ramamurthy betont, dass solche Ansätze die Steuerbarkeit von KI verbessern sollen, ohne ihre Kreativität einzuschränken.
Transparenz im Blick
Parallel dazu arbeiten IBM und die Open-Source-Community an Werkzeugen wie dem Attention Tracker, der zeigt, wie KI-Modelle ihre Aufmerksamkeit während der Verarbeitung verteilen. Solche Tools helfen, Manipulationen zu erkennen und die Zuverlässigkeit zu erhöhen. Studien zeigen zudem, dass größere Modelle stärkere introspektive Signale zeigen – vermutlich, weil sie komplexere interne Strukturen besitzen.
IBM-Forscher warnen jedoch vor einer Überschätzung: „Bewusstsein“ in diesem Kontext bedeutet lediglich, dass ein Modell Diskrepanzen in seinen eigenen Mustern erkennt, nicht dass es Gefühle oder Empfindungen besitzt. „Wir können den Begriff Metakognition verwenden, aber es handelt sich um eine Form der Interpretierbarkeit, nicht um echtes Nachdenken“, so Kush Varshney, IBM Fellow für vertrauenswürdige KI.
Kontrolle als Sicherheitsfaktor
Die Integration von Kontrollmechanismen ist ein zentrales Ziel. IBM entwickelt Tools wie AI Steerability 360, mit denen Entwickler interne Aktivierungen beobachten und das Verhalten von Modellen in Echtzeit anpassen können. So lassen sich Halluzinationen oder Regelverstöße frühzeitig erkennen – ein „Gesundheitsmonitor fürs Denken“.
Experten sehen darin einen entscheidenden Schritt, um KI sicherer und verantwortungsbewusster zu machen. Modelle, die ihre eigenen Inkonsistenzen melden, könnten Entwickler vor Verzerrungen, Fehlinformationen oder Missbrauch warnen. „Wenn ein System erklären kann, warum es eine bestimmte Entscheidung getroffen hat, wird es überprüfbar“, sagt Varshney.
Der nächste Schritt in der KI-Entwicklung
Mit der wachsenden Leistungsfähigkeit von KI steigt der Druck, deren Denkprozesse zu verstehen. Modelle treffen Entscheidungen, die früher Experten vorbehalten waren – von der Kreditvergabe bis zur Diagnose medizinischer Fälle. „Die Systeme sind so groß geworden, dass es fast unmöglich ist, zu verfolgen, was in ihnen vor sich geht“, sagt Cox. „Introspektion könnte uns helfen, einen Teil dieser Transparenz wiederherzustellen.“
Vielleicht gefällt Ihnen auch:
Fachartikel

OpenClaw-Skills als neuer Malware-Verteilweg: Erkenntnisse von VirusTotal

ShinyHunters: Voice-Phishing-Kampagne zielt auf Cloud-Plattformen ab

ShinyHunters-Angriffe: Mandiant zeigt wirksame Schutzmaßnahmen gegen SaaS-Datendiebstahl

Phishing-Angriff: Cyberkriminelle missbrauchen Microsoft-Infrastruktur für Betrugsmaschen

Wie Angreifer proprietäre KI-Modelle über normale API-Zugriffe stehlen können
Studien

Deutsche Unicorn-Gründer bevorzugen zunehmend den Standort Deutschland

IT-Modernisierung entscheidet über KI-Erfolg und Cybersicherheit

Neue ISACA-Studie: Datenschutzbudgets werden trotz steigender Risiken voraussichtlich schrumpfen

Cybersecurity-Jahresrückblick: Wie KI-Agenten und OAuth-Lücken die Bedrohungslandschaft 2025 veränderten
![Featured image for “Phishing-Studie deckt auf: [EXTERN]-Markierung schützt Klinikpersonal kaum”](https://www.all-about-security.de/wp-content/uploads/2025/12/phishing-4.jpg)
Phishing-Studie deckt auf: [EXTERN]-Markierung schützt Klinikpersonal kaum
Whitepaper

DigiCert veröffentlicht RADAR-Bericht für Q4 2025

Koordinierte Cyberangriffe auf polnische Energieinfrastruktur im Dezember 2025

Künstliche Intelligenz bedroht demokratische Grundpfeiler

Insider-Risiken in Europa: 84 Prozent der Hochrisiko-Organisationen unzureichend vorbereitet

ETSI veröffentlicht weltweit führenden Standard für die Sicherung von KI
Hamsterrad-Rebell

NIS2: „Zum Glück gezwungen“ – mit OKR-basiertem Vorgehen zum nachhaltigen Erfolg

Cyberversicherung ohne Datenbasis? Warum CIOs und CISOs jetzt auf quantifizierbare Risikomodelle setzen müssen

Identity Security Posture Management (ISPM): Rettung oder Hype?

Platform Security: Warum ERP-Systeme besondere Sicherheitsmaßnahmen erfordern






