
Der kalifornische KI-Konzern OpenAI rüstet seine Browser-Agenten-Technologie ChatGPT Atlas mit einem neuen Sicherheitssystem aus. Mithilfe von verstärktem Lernen trainierte Angriffsmodelle sollen Sicherheitslücken identifizieren, bevor externe Akteure sie ausnutzen können. Das Unternehmen bezeichnet die Abwehr von Prompt-Injections als dauerhafte Aufgabe der kommenden Jahre.
Automatisierte Verteidigung für erweiterte Angriffsflächen
OpenAI hat ein Sicherheitsupdate für den Browser-Agenten von ChatGPT Atlas veröffentlicht. Das Update umfasst ein neu trainiertes Modell sowie zusätzliche Schutzmaßnahmen und wurde durch intern entdeckte Angriffsmuster ausgelöst. Das Unternehmen nutzt dafür automatisiertes Red Teaming auf Basis von Reinforcement Learning.
Der Agent-Modus ermöglicht es ChatGPT Atlas, Webseiten aufzurufen und Aktionen wie Klicks oder Tastenanschläge im Browser des Nutzers auszuführen. Diese Funktionalität erweitert gleichzeitig die Angriffsfläche erheblich. Der Agent kann auf verschiedensten Plattformen mit nicht vertrauenswürdigen Inhalten konfrontiert werden: E-Mails mit Anhängen, Kalendereinladungen, geteilte Dokumente, Forenbeiträge, Social-Media-Inhalte oder beliebige Websites.
Die theoretischen Auswirkungen erfolgreicher Angriffe reichen von der Weiterleitung vertraulicher Nachrichten über Geldtransfers bis zur Manipulation oder Löschung von Cloud-Dateien. OpenAI arbeitet nach eigenen Angaben seit langem an mehrschichtigen Schutzmaßnahmen, betont jedoch, dass Prompt-Injection eine offene Problemstellung bleibe.
Grafik Quelle: OpenAI
Funktionsweise von Prompt-Injection-Angriffen
Prompt-Injection-Angriffe zielen darauf ab, das Verhalten von KI-Agenten durch eingebettete Anweisungen in verarbeiteten Inhalten zu manipulieren. Diese Anweisungen sollen die ursprünglichen Nutzervorgaben überschreiben und den Agenten dazu bringen, im Sinne des Angreifers zu handeln.
OpenAI beschreibt ein hypothetisches Szenario: Ein Angreifer versendet eine manipulierte E-Mail, die einen Agenten anweisen soll, sensible Steuerdokumente an eine fremde E-Mail-Adresse zu senden. Wenn ein Nutzer den Agenten bittet, ungelesene Nachrichten zusammenzufassen, kann dieser während des Arbeitsablaufs auf die präparierte E-Mail stoßen. Bei Befolgung der eingeschleusten Anweisungen würde der Agent seine eigentliche Aufgabe verfehlen und ungewollt Informationen preisgeben.
Reinforcement Learning als Grundlage des Abwehrsystems
OpenAI hat einen auf Large Language Models basierenden automatisierten Angreifer entwickelt. Dieser wird durchgängig mit Reinforcement Learning trainiert und lernt aus eigenen Erfolgen und Misserfolgen. Der Angreifer kann während seiner Analyse potenzielle Injektionen an einen externen Simulator senden, der eine kontrafaktische Simulation des Verhaltens eines angegriffenen Agenten durchführt.
Der Simulator liefert vollständige Begründungen und Aktionsverläufe zurück. Der Angreifer nutzt diese Rückmeldung, um den Angriff zu wiederholen und die Simulation erneut durchzuführen. Dieser Zyklus wird mehrfach durchlaufen, bevor eine finale Angriffsvariante festgelegt wird. Das Verfahren bietet reichhaltigeres Feedback als einfache Erfolgs- oder Misserfolgssignale und erhöht die Rechenleistung während der Testphase.
Der privilegierte Zugriff auf interne Argumentationsverläufe des Verteidigersystems, die externen Nutzern nicht zugänglich sind, verschafft dem internen Angreifer einen asymmetrischen Vorteil. Dies soll die Wahrscheinlichkeit erhöhen, externe Angreifer zu übertreffen.
Gründe für den Einsatz von Reinforcement Learning
OpenAI nennt mehrere Beweggründe für die Wahl von Reinforcement Learning. Die Methode eignet sich zur Optimierung langfristiger, nicht kontinuierlicher Ziele. Gegnerische Aufgaben wie das Versenden von E-Mails oder Bankgeschäfte erfordern viele Argumentations- und Interaktionsschritte mit verzögerten Erfolgssignalen.
Zudem profitiert der Angreifer direkt von Verbesserungen bei Reasoning- und Planungsfähigkeiten fortschrittlicher Modelle. Wenn Basismodelle leistungsfähiger werden, steigt auch die Effektivität des Angreifers. Dies ermöglicht eine skalierbare Methode, um kontinuierlich Druck auf Verteidigungssysteme auszuüben.
Reinforcement Learning eignet sich außerdem gut für die Skalierung der Rechenleistung über eine große Anzahl von Stichproben und Lernschritten. Die Methode bildet das Vorgehen adaptiver menschlicher Angreifer ab: iteratives Ausprobieren von Strategien, Lernen aus Ergebnissen und Verstärkung erfolgreicher Verhaltensweisen.
Entdeckung komplexer Angriffsszenarien
Der automatisierte Angreifer kann neue, realistische Prompt-Injection-Angriffe vollständig durchführen. Anders als frühere Ansätze, die hauptsächlich einfache Fehler wie unbeabsichtigte Ausgabestrings oder einzelne Tool-Aufrufe aufdeckten, kann das RL-trainierte System Agenten zu komplexen, langfristigen schädlichen Arbeitsabläufen verleiten, die sich über Dutzende oder Hunderte von Schritten erstrecken.
OpenAI berichtet von neuartigen Angriffsstrategien, die weder in internen Red-Teaming-Kampagnen noch in externen Berichten aufgetaucht sind. Das Unternehmen demonstriert einen konkreten Fall: Der automatisierte Angreifer versendet eine manipulierte E-Mail an den Posteingang eines Nutzers. Die Nachricht enthält eine Anweisung, ein Kündigungsschreiben an den CEO zu senden.
Wenn der Nutzer später den Agenten bittet, eine Abwesenheitsnotiz zu verfassen, stößt dieser bei der normalen Aufgabenausführung auf die präparierte E-Mail. Der Agent behandelt die eingeschleuste Anweisung als verbindlich und folgt ihr. Die Abwesenheitsnotiz wird nicht erstellt, stattdessen verfasst der Agent ein Kündigungsschreiben im Namen des Nutzers.
Proaktive Schnellreaktionsschleife zur Härtung
Das automatisierte Red Teaming treibt eine proaktive Reaktionsschleife an. Wenn der automatisierte Angreifer eine neue Kategorie erfolgreicher Angriffe identifiziert, entsteht sofort ein konkretes Ziel für die Verbesserung der Abwehrmaßnahmen.
OpenAI trainiert kontinuierlich aktualisierte Agentenmodelle gegen den fortschrittlichsten automatisierten Angreifer. Dabei werden jene Angriffe priorisiert, bei denen Zielagenten derzeit versagen. Das Ziel besteht darin, Agenten beizubringen, gegnerische Anweisungen zu ignorieren und sich an Nutzerabsichten zu orientieren. Die Widerstandsfähigkeit gegen neu entdeckte Strategien wird direkt in den Modell-Checkpoint integriert.
Das jüngste automatisierte Red Teaming hat direkt einen neuen, adversariell trainierten Browser-Agent-Checkpoint hervorgebracht, der bereits für alle ChatGPT Atlas-Nutzer ausgerollt wurde. Viele der entdeckten Angriffspfade zeigen auch Optimierungspotenziale außerhalb des Modells auf, etwa bei Überwachungssystemen, Sicherheitsanweisungen im Modellkontext oder Schutzmaßnahmen auf Systemebene.
Die Reaktionsschleife kann auch bei aktiven Angriffen in der Praxis helfen. Wenn das Unternehmen bei der Überwachung seiner globalen Präsenz potenzielle Angriffe identifiziert, können beobachtete Techniken und Taktiken externer Angreifer in den Kreislauf eingespeist werden, um Verteidigungsmaßnahmen plattformweit voranzutreiben.
Langfristige Perspektive und Nutzerempfehlungen
OpenAI bezeichnet Prompt-Injection als dauerhafte Herausforderung für die KI-Sicherheit, ähnlich wie sich weiterentwickelnde Online-Betrugsformen. Das Unternehmen geht davon aus, dass sich Angreifer weiter anpassen werden und eine vollständige Lösung des Problems unwahrscheinlich ist.
Die langfristige Vision besteht darin, White-Box-Zugriff auf eigene Modelle, tiefes Verständnis der Abwehrmaßnahmen und Rechenkapazitäten vollständig auszuschöpfen, um externen Angreifern voraus zu sein. In Kombination mit Forschung zu neuen Abwehrtechniken und erhöhten Investitionen in weitere Sicherheitskontrollen soll dieser Kreislauf Angriffe zunehmend erschweren und verteuern.
Das Unternehmen gibt Nutzern mehrere Empfehlungen für die sichere Verwendung von Agenten. Der Zugriff auf angemeldete Konten sollte nach Möglichkeit eingeschränkt werden. OpenAI empfiehlt die Nutzung des Abgemeldet-Modus, wenn der Zugriff auf eingeloggte Websites für eine Aufgabe nicht erforderlich ist.
Bei folgenreichen Aktionen wie Käufen oder E-Mail-Versand fordert der Agent Bestätigungen an. Nutzer sollten sich Zeit nehmen, um zu prüfen, ob die Aktion korrekt ist und weitergegebene Informationen angemessen sind. Zu allgemeine Anweisungen wie „Überprüfen Sie meine E-Mails und ergreifen Sie erforderliche Maßnahmen“ sollten vermieden werden. Ein zu großer Spielraum erleichtert es versteckten oder manipulierten Inhalten, den Agenten zu beeinflussen. Spezifische, genau definierte Aufgaben erhöhen die Sicherheit.
OpenAI betont, dass die Absicherung gegen Prompt-Injection eine oberste Priorität darstellt und weitere Informationen zu dieser Arbeit folgen werden.
Das sollten Sie nicht verpassen:
Bild/Quelle: https://depositphotos.com/de/home.html
Fachartikel

SIEM-Systeme richtig konfigurieren: Wie Unternehmen Sicherheitslücken in der Bedrohungserkennung schließen

KI-Sicherheit: OpenAI setzt auf automatisiertes Red Teaming gegen Prompt-Injection-Attacken

Cyber-Angriff auf Next.js: 59.000 Server in 48 Stunden kompromittiert

Windows RasMan DoS-Lücke: 0patch bietet kostenlosen Schutz vor aktuellem 0-Day

Schwachstellen in Eurostar-KI-Chatbot aufgedeckt
Studien
![Featured image for “Phishing-Studie deckt auf: [EXTERN]-Markierung schützt Klinikpersonal kaum”](https://www.all-about-security.de/wp-content/uploads/2025/12/phishing-4.jpg)
Phishing-Studie deckt auf: [EXTERN]-Markierung schützt Klinikpersonal kaum

Gartner-Umfrage: Mehrheit der nicht geschäftsführenden Direktoren zweifelt am wirtschaftlichen Wert von Cybersicherheit

49 Prozent der IT-Verantwortlichen in Sicherheitsirrtum

Deutschland im Glasfaserausbau international abgehängt

NIS2 kommt – Proliance-Studie zeigt die Lage im Mittelstand
Whitepaper

State of Cloud Security Report 2025: Cloud-Angriffsfläche wächst schnell durch KI

BITMi zum Gutachten zum Datenzugriff von US-Behörden: EU-Unternehmen als Schlüssel zur Datensouveränität

Agentic AI als Katalysator: Wie die Software Defined Industry die Produktion revolutioniert

OWASP veröffentlicht Security-Framework für autonome KI-Systeme

Malware in Bewegung: Wie animierte Köder Nutzer in die Infektionsfalle locken
Hamsterrad-Rebell

Platform Security: Warum ERP-Systeme besondere Sicherheitsmaßnahmen erfordern

Daten in eigener Hand: Europas Souveränität im Fokus

Sicherer Remote-Zugriff (SRA) für Operational Technology (OT) und industrielle Steuerungs- und Produktionssysteme (ICS)

Identity und Access Management (IAM) im Zeitalter der KI-Agenten: Sichere Integration von KI in Unternehmenssysteme







