Share
Beitragsbild zu KI macht Entwickler langsamer – überraschende Erkenntnisse von METR

KI macht Entwickler langsamer – überraschende Erkenntnisse von METR

14. Juli 2025

Ein aufschlussreicher Beitrag der gemeinnützigen Forschungsorganisation METR wirft ein neues Licht auf den Einfluss von Künstlicher Intelligenz auf die Softwareentwicklung. Ziel von METR ist es, die Fähigkeiten moderner KI-Systeme systematisch zu erfassen – insbesondere ihre autonomen Kompetenzen sowie ihre Potenziale in der KI-Forschung und -Entwicklung.

In einer aktuellen Studie untersuchte METR, wie sich KI-Tools Anfang 2025 auf die Produktivität erfahrener Open-Source-Entwickler auswirken. Dazu führten die Forschenden eine randomisierte kontrollierte Studie (RCT) durch: Entwickler arbeiteten mit und ohne Unterstützung durch KI an ihren eigenen Repositorys. Das überraschende Ergebnis: Die mit KI arbeitenden Entwickler benötigten im Durchschnitt 19 Prozent mehr Zeit – die KI bremste sie also eher aus, statt sie zu beschleunigen.

METR sieht dieses Resultat als Momentaufnahme des technologischen Stands Anfang 2025. Angesichts der schnellen Weiterentwicklung von KI-Systemen will die Organisation diese Methode künftig regelmäßig einsetzen, um den tatsächlichen Einfluss von KI auf Automatisierungsprozesse in der Forschung und Entwicklung besser einschätzen zu können.

Weitere Informationen finden Sie im vollständigen Artikel.

KI-Benchmarks täuschen oft – METR plädiert für realitätsnahe Forschung

Standardisierte Benchmarks gelten bislang als wichtiges Mittel, um die Fähigkeiten von KI-Systemen einzuschätzen. Doch wie die Forschungsorganisation METR betont, sind sie nicht ohne Schwächen: Um effizient und skalierbar zu sein, verzichten viele Benchmarks auf realitätsnahe Bedingungen. Die Aufgaben sind meist isoliert, setzen kein Vorwissen voraus und verwenden algorithmische Bewertungskriterien, die zentrale Kompetenzen – etwa Kontextverständnis, Anpassungsfähigkeit oder Zusammenarbeit – außen vor lassen. Die Folge: Benchmarks können die Leistungsfähigkeit von KI sowohl über- als auch unterschätzen.

„Ein Modell kann in Tests überdurchschnittlich gut abschneiden, aber in der Praxis an banalen Hürden scheitern, die ein Mensch leicht aus dem Weg räumen würde“, erklärt METR. Umgekehrt könnten Schwächen bei der Mensch-KI-Interaktion zu schlechten Ergebnissen führen, obwohl das System grundsätzlich fähig wäre. Der Transfer von Benchmark-Ergebnissen in reale Anwendungsfelder bleibt daher schwierig.

Gerade im Bereich der KI-Forschung selbst ist das ein Risiko: Wenn Künstliche Intelligenz den Fortschritt in ihrer eigenen Entwicklung beschleunigt, könnten Aufsicht und Sicherheitsmechanismen nicht mithalten. METR will daher die tatsächlichen Auswirkungen von KI auf den Forschungsprozess greifbar machen – und setzt dafür auf praxisnahe Studien.

So läuft die Studie ab

Im Zentrum der aktuellen Untersuchung stehen 16 erfahrene Open-Source-Entwickler. Sie alle arbeiten seit Jahren an Projekten mit hoher Relevanz – im Schnitt verfügen die bearbeiteten Repositorys über mehr als 22.000 Sterne auf GitHub und mehr als eine Million Zeilen Code.

Die Entwickler reichten insgesamt 246 reale Programmieraufgaben ein – darunter Bugfixes, neue Features und Refactorings. Die Aufgaben spiegeln ihre tatsächliche Arbeit wider. Für die Studie wurden diese Aufgaben zufällig in zwei Gruppen eingeteilt: In der einen durften die Entwickler KI-Tools nutzen, in der anderen war der Einsatz generativer KI explizit untersagt.

Zur Verfügung standen aktuelle Tools wie Cursor Pro mit den neuesten Claude-Modellen (Version 3.5/3.7 Sonnet). Alle Teilnehmer erledigten ihre Aufgaben unter Bildschirmaufzeichnung und dokumentierten im Anschluss die aufgewendete Zeit. Im Schnitt dauerten die Aufgaben etwa zwei Stunden. Als Anerkennung für ihren Aufwand erhielten die Entwickler 150 US-Dollar pro Stunde.

Kernergebnis

Wenn Entwickler KI-Tools verwenden dürfen, benötigen sie 19 % länger, um Probleme zu beheben – eine erhebliche Verlangsamung, die den Erwartungen der Entwickler und den Prognosen von Experten widerspricht. Diese Diskrepanz zwischen Wahrnehmung und Realität ist auffällig: Die Entwickler erwarteten, dass KI ihre Arbeit um 24 % beschleunigen würde, und selbst nach der Verlangsamung glaubten sie immer noch, dass KI ihre Arbeit um 20 % beschleunigt habe.

„Nachfolgend zeigen wir die durchschnittlichen Prognosen der Entwickler und die tatsächlich benötigte Zeit für die Implementierung. Es ist deutlich zu erkennen, dass Entwickler deutlich länger brauchen, wenn sie KI-Tools verwenden dürfen“, so METR.

„Angesichts der Bedeutung des Verständnisses der Fähigkeiten und Risiken von KI und der Vielfalt der Perspektiven zu diesen Themen halten wir es für wichtig, möglichen Missverständnissen oder Verallgemeinerungen unserer Ergebnisse vorzubeugen. In Tabelle 2 listen wir Aussagen auf, für die wir keine Belege liefern“, ergänzt METR.

Quelle: METR / Quelle aller Grafiken: MITR

Faktoranalyse

Es wurden 20 potenzielle Faktoren untersucht, die den Rückgang erklären könnten, und Hinweise darauf gefunden, dass fünf davon wahrscheinlich eine Rolle spielen:

METR betont: „Wir schließen viele experimentelle Artefakte aus – die Entwickler verwendeten Grenzmodelle, hielten sich an ihre Behandlungszuweisung, ließen Probleme nicht unterschiedlich fallen (z. B. Verwerfen von Problemen, die von der KI eindeutig abgelehnt wurden, Verringern des durchschnittlichen Schwierigkeitsgrades von von der KI abgelehnten Problemen) und reichten PRs mit und ohne KI in ähnlicher Qualität ein. Die Verlangsamung bleibt über verschiedene Ergebnismaße, Schätzmethoden und viele andere Teilmengen/Analysen unserer Daten hinweg bestehen. Weitere Details und Analysen finden Sie im Artikel.“

Diskussion

Wie lassen sich nun unsere Ergebnisse mit den beeindruckenden KI-Benchmark-Ergebnissen, den vereinzelten Berichten über die Nützlichkeit von KI und der weit verbreiteten Nutzung von KI-Tools in Einklang bringen? Zusammengenommen liefern die Belege aus diesen Quellen teilweise widersprüchliche Antworten auf die Frage, inwieweit KI-Agenten in der Lage sind, Aufgaben sinnvoll zu erledigen oder Menschen zu unterstützen. In der folgenden Tabelle werden diese Belege aufgeschlüsselt und der Stand unserer Erkenntnisse aus diesen Quellen zusammengefasst. Dabei handelt es sich nicht um eine vollständige Auflistung, sondern um eine grobe Darstellung einiger wichtiger Unterschiede.

Quelle: METR

Die Abstimmung dieser unterschiedlichen Beweisquellen ist schwierig, aber wichtig, und hängt zum Teil davon ab, welche Frage wir beantworten wollen. Bis zu einem gewissen Grad stellen die unterschiedlichen Quellen legitime Teilfragen zu den Fähigkeiten des Modells dar – beispielsweise sind wir daran interessiert, die Fähigkeiten des Modells sowohl bei maximaler Erhebung (z. B. durch die Stichprobenentnahme von Millionen von Tokens oder Dutzenden/Hunderten von Versuchen/Verläufen für jedes Problem) als auch bei normaler/üblicher Verwendung zu verstehen. Einige Eigenschaften können jedoch dazu führen, dass die Ergebnisse für die wichtigsten Fragen zur Praxistauglichkeit ungültig sind – beispielsweise können Selbstauskünfte ungenau und zu optimistisch sein.

Hier sind einige plausibel erscheinenden Hypothesen, wie diese Beobachtungen miteinander in Einklang gebracht werden könnten (dies ist als stark vereinfachtes mentales Modell zu verstehen):

Quelle: METR

Warum KI-Evidenz oft trügt – METR über Grenzen der Bewertung

In einer begleitenden Analyse beschreibt METR, wie unterschiedliche Messmethoden zu verzerrten oder irreführenden Einschätzungen von KI-Fähigkeiten führen können. In ihren Darstellungen symbolisieren rote Abweichungen Messfehler oder Verzerrungen – etwa wenn die Leistung eines Modells überschätzt oder unterschätzt wird. Blaue Unterschiede hingegen zeigen legitime Abweichungen zwischen verschiedenen Evidenzquellen, etwa weil sie auf unterschiedliche Aufgabenbereiche abzielen.

Dieser Rahmen erlaubt es, verschiedene Formen von Leistungsnachweisen besser einzuordnen. So seien etwa die Ergebnisse der randomisierten Studie (RCT) weniger aussagekräftig für Szenarien, in denen Nutzer Hunderte Modellantworten ausprobieren – eine Praxis, die in der Studie kaum vorkam. Ebenso könnten bei KI-Tools wie Cursor starke Lerneffekte erst nach vielen hundert Stunden Nutzung auftreten – in der Untersuchung arbeiteten die Entwickler dagegen nur wenige Dutzend Stunden mit dem Tool.

Zudem zeigen die Daten, dass KI-Systeme in komplexen Arbeitsumgebungen mit hohen Qualitätsstandards – etwa bei umfassender Dokumentation, gründlichen Tests oder strenger Formatierung – eher schwächer abschneiden. Benchmarks hingegen könnten Modellfähigkeiten überschätzen, da sie oft klar definierte, algorithmisch bewertbare Aufgaben nutzen. Auch anekdotische Berichte über angebliche Produktivitätssteigerungen erweisen sich laut METR als wenig zuverlässig.

Die zentrale Erkenntnis: Keine Messmethode ist fehlerfrei. Die Anforderungen an KI-Systeme sind zu vielfältig und zu komplex, um sie mit einem einzigen Verfahren zuverlässig zu bewerten. Deshalb sei es entscheidend, verschiedene Bewertungsansätze zu kombinieren, um ein möglichst realistisches Gesamtbild der tatsächlichen Leistungsfähigkeit und Entwicklung von KI zu erhalten.