
Künstliche Intelligenz könnte einen wichtigen Schritt in Richtung Selbstbeobachtung machen. Forscher von Anthropic berichten, dass fortschrittliche Sprachmodelle gelegentlich erkennen, wenn ihre internen Berechnungen verändert werden – ein Phänomen, das sie als „introspektives Bewusstsein“ beschreiben. Zwar tritt dies nur selten auf, doch es gibt Hoffnung, dass Maschinen eines Tages nicht nur ihre Ergebnisse, sondern auch den Weg dorthin erklären können.
Moderne KI-Systeme arbeiten oft wie Black Boxes: Sie erzeugen Texte, Bilder oder Vorhersagen mit beeindruckender Präzision, doch die zugrunde liegenden Prozesse bleiben für Menschen weitgehend undurchschaubar. Sobald ein Modell auf gigantische Datenmengen trainiert wurde, wird es nahezu unmöglich, seine internen Abläufe direkt zu verstehen.
IBM-Experten betrachten die Beobachtungen von Anthropic mit Interesse, warnen aber vor vorschnellen Analogien zum menschlichen Bewusstsein. Das Erkennen einer internen Änderung bedeute nicht, dass die KI selbstbewusst sei. Vielmehr identifiziere sie Muster, die ihre Leistung verbessern könnten.
„Es überrascht mich nicht, dass ein Modell seine eigenen Prozesse überwachen kann, wenn das der Erfüllung seiner Aufgabe dient“, sagt David Cox, Vice President für Foundational AI bei IBM Research. „Ob dies eine neue philosophische Dimension der KI aufzeigt, ist zum jetzigen Zeitpunkt fraglich.“
Das Experiment: Konzepte injizieren
Anthropic nutzte eine Technik namens Konzeptinjektion: Dabei werden neuronale Muster, die Begriffe wie „Brot“ oder „Text in Großbuchstaben“ repräsentieren, in ein Modell eingefügt, während es eine andere Aufgabe bearbeitet. Anschließend wurde überprüft, ob die KI die Veränderung bemerkte.
In etwa einem von fünf Fällen registrierten die Modelle Claude Opus 4 und 4.1 die Einfügung und beschrieben sie als „injizierten Gedanken“ oder „unerwartetes internes Signal“. Laut IBM-Experten könnte dies eine gezielte Methode sein, die Empfindlichkeit eines Modells gegenüber seinen eigenen inneren Mustern zu messen.
„Man untersucht die Aktivierungsräume der Modelle und fügt spezifische Darstellungen ein, um zu sehen, ob das Modell registriert, dass etwas verändert wurde“, erklärt Karthikeyan Natesan Ramamurthy, Principal Research Scientist bei IBM Research.
Die Fähigkeit, interne Störungen zu erkennen, könnte praktische Vorteile haben: Sie ermöglicht es, fehlerhafte „Gedanken“ einer KI zu stoppen, bevor sie Nutzer erreichen. Ramamurthy betont, dass solche Ansätze die Steuerbarkeit von KI verbessern sollen, ohne ihre Kreativität einzuschränken.
Transparenz im Blick
Parallel dazu arbeiten IBM und die Open-Source-Community an Werkzeugen wie dem Attention Tracker, der zeigt, wie KI-Modelle ihre Aufmerksamkeit während der Verarbeitung verteilen. Solche Tools helfen, Manipulationen zu erkennen und die Zuverlässigkeit zu erhöhen. Studien zeigen zudem, dass größere Modelle stärkere introspektive Signale zeigen – vermutlich, weil sie komplexere interne Strukturen besitzen.
IBM-Forscher warnen jedoch vor einer Überschätzung: „Bewusstsein“ in diesem Kontext bedeutet lediglich, dass ein Modell Diskrepanzen in seinen eigenen Mustern erkennt, nicht dass es Gefühle oder Empfindungen besitzt. „Wir können den Begriff Metakognition verwenden, aber es handelt sich um eine Form der Interpretierbarkeit, nicht um echtes Nachdenken“, so Kush Varshney, IBM Fellow für vertrauenswürdige KI.
Kontrolle als Sicherheitsfaktor
Die Integration von Kontrollmechanismen ist ein zentrales Ziel. IBM entwickelt Tools wie AI Steerability 360, mit denen Entwickler interne Aktivierungen beobachten und das Verhalten von Modellen in Echtzeit anpassen können. So lassen sich Halluzinationen oder Regelverstöße frühzeitig erkennen – ein „Gesundheitsmonitor fürs Denken“.
Experten sehen darin einen entscheidenden Schritt, um KI sicherer und verantwortungsbewusster zu machen. Modelle, die ihre eigenen Inkonsistenzen melden, könnten Entwickler vor Verzerrungen, Fehlinformationen oder Missbrauch warnen. „Wenn ein System erklären kann, warum es eine bestimmte Entscheidung getroffen hat, wird es überprüfbar“, sagt Varshney.
Der nächste Schritt in der KI-Entwicklung
Mit der wachsenden Leistungsfähigkeit von KI steigt der Druck, deren Denkprozesse zu verstehen. Modelle treffen Entscheidungen, die früher Experten vorbehalten waren – von der Kreditvergabe bis zur Diagnose medizinischer Fälle. „Die Systeme sind so groß geworden, dass es fast unmöglich ist, zu verfolgen, was in ihnen vor sich geht“, sagt Cox. „Introspektion könnte uns helfen, einen Teil dieser Transparenz wiederherzustellen.“
Vielleicht gefällt Ihnen auch:
Fachartikel

OpenAI präsentiert GPT-5.2-Codex: KI-Revolution für autonome Softwareentwicklung und IT-Sicherheit

Speicherfehler in Live-Systemen aufspüren: GWP-ASan macht es möglich

Geparkte Domains als Einfallstor für Cyberkriminalität: Über 90 Prozent leiten zu Schadsoftware weiter

Umfassender Schutz für geschäftskritische SAP-Systeme: Strategien und Best Practices

Perfide Masche: Wie Cyberkriminelle über WhatsApp-Pairing ganze Konten übernehmen
Studien
![Featured image for “Phishing-Studie deckt auf: [EXTERN]-Markierung schützt Klinikpersonal kaum”](https://www.all-about-security.de/wp-content/uploads/2025/12/phishing-4.jpg)
Phishing-Studie deckt auf: [EXTERN]-Markierung schützt Klinikpersonal kaum

Gartner-Umfrage: Mehrheit der nicht geschäftsführenden Direktoren zweifelt am wirtschaftlichen Wert von Cybersicherheit

49 Prozent der IT-Verantwortlichen in Sicherheitsirrtum

Deutschland im Glasfaserausbau international abgehängt

NIS2 kommt – Proliance-Studie zeigt die Lage im Mittelstand
Whitepaper

State of Cloud Security Report 2025: Cloud-Angriffsfläche wächst schnell durch KI

BITMi zum Gutachten zum Datenzugriff von US-Behörden: EU-Unternehmen als Schlüssel zur Datensouveränität

Agentic AI als Katalysator: Wie die Software Defined Industry die Produktion revolutioniert

OWASP veröffentlicht Security-Framework für autonome KI-Systeme

Malware in Bewegung: Wie animierte Köder Nutzer in die Infektionsfalle locken
Hamsterrad-Rebell

Platform Security: Warum ERP-Systeme besondere Sicherheitsmaßnahmen erfordern

Daten in eigener Hand: Europas Souveränität im Fokus

Sicherer Remote-Zugriff (SRA) für Operational Technology (OT) und industrielle Steuerungs- und Produktionssysteme (ICS)

Identity und Access Management (IAM) im Zeitalter der KI-Agenten: Sichere Integration von KI in Unternehmenssysteme






