Share
Beitragsbild zu Auswirkungen beschleunigter KI-Forschung und -Entwicklung: Prognose & Ergebnisse einer Pilotstudie

Auswirkungen beschleunigter KI-Forschung und -Entwicklung: Prognose & Ergebnisse einer Pilotstudie

4. September 2025

Der aktuelle Bericht von METR (Model Evaluation & Threat Research) bewertet die Fähigkeiten fortschrittlicher KI-Agenten, komplexe Aufgaben ohne menschliche Unterstützung zu lösen. Ziel ist es, Chancen und Risiken der nächsten Generation von KI-Systemen besser zu verstehen.

Einleitung

KI-Agenten verbessern sich rasant in den Bereichen autonome Softwareentwicklung und maschinelles Lernen. Wenn sich die aktuellen Trends fortsetzen, könnten sie in weniger als einem Jahrzehnt mit menschlichen Forschern bei anspruchsvollen, monatelangen Forschungsprojekten gleichziehen. Einige Wirtschaftsmodelle sagen voraus, dass die Automatisierung der KI-Forschung durch KI-Agenten das Tempo weiterer Fortschritte dramatisch erhöhen könnte, wobei viele Jahre des Fortschritts bei der aktuellen Geschwindigkeit auf Monate komprimiert würden. KI-Entwickler haben dies als eine Schlüsselkompetenz identifiziert, die es zu beobachten und auf die man sich vorzubereiten gilt, da die Auswirkungen eines solch raschen Fortschritts auf die nationale Sicherheit und die Gesellschaft enorm sein könnten.

Zwar wurden einige Fortschritte bei der Messung der KI-Forschungs- und Entwicklungskapazitäten erzielt, doch bestehen nach wie vor erhebliche Meinungsverschiedenheiten hinsichtlich der Interpretation der Auswirkungen dieser Messungen. Es gibt Gründe zu der Annahme, dass die daraus resultierende Beschleunigung des Fortschritts wirtschaftliche Veränderungen mit sich bringen würde, wenn KI-Systeme in der Lage wären, die KI-Forschung und -Entwicklung zu automatisieren, doch andere stehen solchen dramatischen Auswirkungen skeptisch gegenüber. Um besser zu verstehen, wie relevante Bewertungsergebnisse zu interpretieren sind, und um herauszufinden, wo die größten Meinungsverschiedenheiten unter den Experten bestehen, hat METR in Zusammenarbeit mit dem Forecasting Research Institute eine erste Pilotumfrage unter 8 Experten für KI-Prognosen (im Folgenden „Experten”) und 10 „Superprognostikern” durchgeführt, um ihre Vorhersagen zur zukünftigen Beschleunigung und zu den gesellschaftlichen Auswirkungen unter Berücksichtigung mehrerer hypothetischer Bewertungsergebnisse zu ermitteln.

In seiner Pilotstudie wurden Experten und Superprognostiker damit beauftragt, die Wahrscheinlichkeit von (mehreren Varianten) zweier Schlüsselereignisse abzuschätzen:

  • Rasante Beschleunigung durch automatisierte KI-Forschung und -Entwicklung: Wenn KI bis 2027 bei verschiedenen KI-Forschungs- und Entwicklungsaufgaben mit den besten menschlichen Forschern gleichziehen sollte, wie hoch ist dann die Wahrscheinlichkeit, dass sich die Geschwindigkeit des KI-Fortschritts um mehr als das Dreifache erhöht (wobei wir jedes Jahr das Äquivalent der KI-Verbesserungen der letzten drei Jahre sehen würden, von vor ChatGPT bis zur kürzlichen Veröffentlichung von GPT-5)?
  • Transformative Auswirkungen einer raschen Beschleunigung: Wenn es zu einer derart dramatischen Steigerung der KI-Fortschrittsrate kommt, wird dies dann extreme Auswirkungen auf die Gesellschaft haben, wie beispielsweise beispiellose Veränderungen im globalen Energieverbrauch (Halbierung oder Verdopplung innerhalb eines Jahres) oder eine Erhöhung der Wahrscheinlichkeit katastrophaler Folgen?

METR glaubt. dass dies beispiellose Folgen für die Welt hätte, sollten sie eintreten. Wenn sich das Tempo des Fortschritts der KI verdreifachen würde – wobei die Aufrechterhaltung des derzeitigen Fortschritts bereits ein potenziell untragbares Investitionsniveau erfordert –, könnte dies darauf hindeuten, dass KI-Systeme wirklich transformative Auswirkungen auf die Produktivität von Forschung und Entwicklung haben, die sich schnell auf andere Bereiche der Wirtschaft ausbreiten könnten.

„Da wir sehr unsicher sind, wohin dies führen könnte und wie es die Gesellschaft verändern würde, haben wir einige robuste und breit gefasste Indikatoren für extrem schnelles Wachstum (beispielloser Anstieg des globalen Energieverbrauchs) und Instabilität (erhöhtes Risiko von Katastrophen auf COVID-Niveau und beispielloser Rückgang des globalen Energieverbrauchs) als Prognoseziele ausgewählt, die als Indikatoren für die Möglichkeit weitreichender transformativer Veränderungen in der Gesellschaft dienen sollen.“ – METR

METR hat mit FRI und anderen Experten zusammengearbeitet, um diese Fragen für dieses Pilotprojekt so sorgfältig wie möglich zu operationalisieren. Dazu gehörte die Entwicklung einer Definition für „3-fache Beschleunigung des Fortschritts” in Bezug auf die Beschleunigung des Wachstumstempos von „effektiver Rechenleistung” (siehe unten), die hoffentlich der beabsichtigten Bedeutung nahekommt. Trotz dieser Bemühungen gibt es immer noch Anzeichen dafür, dass einige Teilnehmer diese Konzepte in ihren Begründungen möglicherweise unterschiedlich interpretiert haben (Einzelheiten zur Operationalisierung und zur Überprüfung der Begründungen der Teilnehmer finden Sie im vollständigen Bericht).

Ergebnisse

Wichtigste Ergebnisse der Umfrage – Weitere Einzelheiten zur Operationalisierung der Prognosefragen und detailliertere Ergebnisse finden Sie im Bericht von FRI.

Wahrscheinlichkeit einer raschen Beschleunigung durch KI-Forschung und -Entwicklung

Sowohl Experten als auch Superprognostiker halten eine dreifache Beschleunigung der effektiven Rechenleistung bis 2029 für plausibel, aber unwahrscheinlich. Experten schätzen die Wahrscheinlichkeit dafür auf durchschnittlich 20 %, Superprognostiker auf 8 %. Beide sind sich einig, dass eine signifikante Beschleunigung der physischen Rechenleistung unwahrscheinlich ist, während Verbesserungen nach dem Training höchstwahrscheinlich zu einer raschen Beschleunigung führen werden.

METR stellt fest, dass Experten und Superprognostiker sich in gewisser Weise auf eine höhere Wahrscheinlichkeit einer dreifachen Beschleunigung einigen (auf einen Median von 20,5 % bzw. 18 %, siehe Abb. 2), wenn sie sich auf Bewertungen stützen, die zeigen, dass KI-Systeme bei offenen, einmonatigen Forschungsprojekten besser abschneiden als menschliche Forscher. Andererseits sind sich sowohl Experten als auch Superprognostiker einig, dass Ergebnisse, die die menschliche Leistung bei den eintägigen Aufgaben im RE-Benchmark übertreffen, nicht besonders aussagekräftig sind, da viele bereits davon ausgehen, dass der Benchmark bis 2027 gesättigt sein wird. Dies stützt teilweise die Annahme, dass längere Zeithorizonte die Fähigkeit zur Automatisierung der KI-Forschung und -Entwicklung vorhersagen (obwohl es möglicherweise andere Unterschiede zwischen den hypothetischen Forschungsprojekten und den RE-Bench-Ergebnissen gibt, die Prognostiker als wichtig erachten).

Bei anderen Bedingungen gibt es mehr Meinungsverschiedenheiten: Experten glauben, dass ein Konsens unter einem Expertengremium, dass KI menschliche Forscher ersetzen kann, eine dreifache Beschleunigung eher wahrscheinlich macht, während einige Superprognostiker viel skeptischer sind.

Wahrscheinlichkeit extremer gesellschaftlicher Ereignisse

Experten und Superprognostiker sind sich auch hinsichtlich der Wahrscheinlichkeit aller vier extremen gesellschaftlichen Ereignisse, nach denen gefragt wurde, stark uneinig. Die Superprognostiker schätzen das mittlere Risiko für alle Ergebnisse auf unter 0,5 % (im Vergleich zu einer mittleren Risikoschätzung von über 18 % für alle Ergebnisse seitens der Experten).

Die Annahme einer dreifachen (oder sogar zehnfachen) Beschleunigung schließt diese Lücke in den Vorhersagen der beiden Gruppen nicht, obwohl beide Gruppen deutlich höhere Wahrscheinlichkeiten für extreme gesellschaftliche Ereignisse prognostizieren. Die relativen Veränderungen des Risikos waren für beide Gruppen ähnlich, obwohl die relative Veränderung angesichts des sehr niedrigen Basisrisikos der Superforecaster in absoluten Zahlen minimal war.

Die Begründungen zeigen, dass Experten im Allgemeinen eine dreifache effektive Rechenbeschleunigung als Hinweis auf künstliche allgemeine Intelligenz (AGI) werteten und prognostizierten, dass AGI massive Veränderungen im Energieverbrauch verursachen würde. Superforecaster sind sich uneinig darüber, was diese Bedingung für AGI bedeutet, und skeptisch, dass AGI aufgrund technischer und physikalischer Barrieren sowie menschlicher Eingriffe zu Veränderungen im Energieverbrauch oder zu Katastrophen im Ausmaß von COVID führen könnte.

Fazit

„Wir haben festgestellt, dass Experten und Superprognostiker weitgehend übereinstimmen, dass die Automatisierung der KI-Forschung und -Entwicklung zu einer dramatischen Beschleunigung des KI-Fortschritts führen könnte, und dass die Beobachtung, ob KI-Systeme bei monatelangen, unbefristeten Forschungsprojekten letztlich mit Menschen konkurrieren können, die meisten ihrer Meinungsverschiedenheiten zu dieser Frage ausräumt. Die beiden Gruppen sind sich jedoch stark uneinig darüber, wie wahrscheinlich es ist, dass dies zu beispiellosen gesellschaftlichen Auswirkungen führen wird. Wir halten es für sinnvoll, die Ursache dieser Meinungsverschiedenheit genauer zu untersuchen, bevor wir diese Pilotstudie zu einer größeren und repräsentativeren Umfrage ausweiten“, so METR.

Da es sich um eine Pilotstudie mit nur einer kleinen Teilnehmerzahl handelt, die auf subjektiven, auf Urteilen basierenden Prognosen beruht, sollten diese Ergebnisse nur als Hinweis auf die wahrscheinlichen Auswirkungen der KI-Forschungs- und Entwicklungsfähigkeiten und der Beschleunigung der effektiven Rechenleistung angesehen werden. Insbesondere sind einige unserer aggregierten Statistiken unzuverlässig, da die Teilnehmer bei mehreren Fragen um mehrere Größenordnungen voneinander abweichen.

Einige der betrachteten „extremen gesellschaftlichen Ereignisse” sind beispiellos und erfordern möglicherweise intensive gesellschaftliche Vorbereitungen, um angemessen damit umgehen zu können, falls sie eintreten sollten. Die Lösung von Meinungsverschiedenheiten in diesem Bereich (durch die Erstellung von KI-F&E-Bewertungen mit längerem Zeithorizont oder die Verfolgung anderer Beschleunigungsmetriken und durch eine sorgfältigere Modellierung der potenziellen Auswirkungen einer solchen Automatisierung) ist für die zukünftige Arbeit von entscheidender Bedeutung.

Der vollständige Bericht von FRI behandelt diese Prognoseergebnisse viel detaillierter, darunter

  • Detaillierte Operationalisierungen dieser Fragen
  • Individuelle Aktualisierungsprofile der Teilnehmer zur Wahrscheinlichkeit einer dreifachen Beschleunigung der effektiven Rechenleistung unter verschiedenen KI-F&E-Szenarien und Diskussionen ihrer Begründungen.
  • Wie sich Prognosen je nach Genauigkeit bei einer Reihe von unabhängigen, allgemeinen Wissensfragen zur Wahrscheinlichkeit unterscheiden.

Lesen Sie auch