Share
Beitragsbild zu Cloudflare geht gegen KI-Crawler vor – ein neuer Weg zum Schutz digitaler Inhalte?

Cloudflare geht gegen KI-Crawler vor – ein neuer Weg zum Schutz digitaler Inhalte?

Von Anabelle Nicoud, Tech-Reporterin und Editorial Lead bei IBM – veröffentlicht am 3. Juli 2025 + Kann das offene Internet im Zeitalter generativer KI bestehen? Cloudflare meint: ja – zumindest, wenn es um den Schutz von Content-Erstellern geht. Das Unternehmen, das rund 20 Prozent des weltweiten Internetverkehrs absichert, hat angekündigt, künftig aktiv gegen sogenannte KI-Crawler vorzugehen, die ohne Erlaubnis Inhalte von Webseiten sammeln.

Mit dieser Maßnahme positioniert sich Cloudflare als erster Anbieter von Internetinfrastruktur, der das Scraping durch KI-Anwendungen grundsätzlich blockiert – sofern keine ausdrückliche Genehmigung oder Entschädigung vorliegt. Der Schritt findet breite Unterstützung: Medienhäuser wie The Atlantic, Fortune, TIME und die Associated Press sowie Tech-Plattformen wie Pinterest und Reddit begrüßen die Initiative.

Cloudflare-CEO Matthew Prince erklärte, dies sei der Auftakt zu einem umfassenderen Wandel. Ziel sei es, ein neues Modell zu etablieren, bei dem KI-Unternehmen für die Nutzung journalistischer oder kreativer Inhalte zahlen müssen – ein sogenannter „Pay-per-Crawl“-Marktplatz. „Diese Inhalte sind der Treibstoff für KI-Modelle. Es ist nur fair, dass die Urheber dafür direkt entschädigt werden“, so Prince.

Doch das sei laut Prince nur der Anfang: Cloudflare arbeite bereits an einer Plattform, auf der Content-Ersteller und KI-Entwickler – unabhängig von ihrer Größe – zusammenfinden und transparent über die Nutzung von Inhalten verhandeln können. Der reine Website-Traffic reiche als Wertmaßstab nicht mehr aus. Ziel sei es, die Regeln für die Monetarisierung digitaler Inhalte neu zu schreiben.

Der Aufstieg der Bots

Mit dem Aufkommen von generativer KI und KI-Suche, die von Anthropic, OpenAI, Meta und Perplexity betrieben wird, erlebt das Internet eine neue Art von Besuchern: Bot-Scraper. Diese Veränderung betrifft nicht nur Nachrichtenverlage, die auf Referral-Traffic angewiesen sind, um ihren Journalismus zu monetarisieren, sondern auch Content-Ersteller und große Tech-Plattformen. In einem Fall hat Reddit kürzlich Klage gegen Anthropic eingereicht und behauptet, dass dessen Bots Inhalte scrapen – was Anthropic bestreitet.

„Auch Tech-Unternehmen sind von KI-Crawlern betroffen“, sagte Will Allen, Head of AI Control, Privacy and Media Products bei Cloudflare, in einem Interview mit IBM Think. „Pinterest, Quora und Reddit sind einige der beliebtesten Websites für nutzergenerierte Inhalte, die sich zusammen mit Unternehmen aus dem KI-Bereich wie ProRata AI und Hyperscience für unseren berechtigungsbasierten Ansatz für KI-Crawler ausgesprochen haben.“

Bots werden zum Training verwendet, aber auch für Retrieval Augmented Generation (RAG), das generative KI-Modelle mit externen Wissensdatenbanken verbindet, beispielsweise mit öffentlich zugänglichen Inhalten im Internet. Laut einem Bericht, der letzten Monat vom Technologieunternehmen TollBit veröffentlicht wurde, stieg der RAG-Bot-Traffic auf den Websites seiner Partner um 49 % und damit fast 2,5-mal so stark wie der Traffic von Trainings-Bots mit 18 %. Unter den 12 Bots, die am häufigsten Websites crawlen, waren laut TollBit im ersten Quartal 2025 ChatGPT, Meta und Perplexity am aktivsten und machten insgesamt etwa 70 % der monatlichen durchschnittlichen Scrapes durch KI-Bots aus.

Dieser neue Traffic belastet die Server und verursacht steigende Kosten für die Infrastruktur der Publisher. Im April stellte Wikimedia, die gemeinnützige Organisation hinter Wikipedia, fest, dass 65 % ihres teuersten Traffics von Bots stammte. „Unsere Inhalte sind kostenlos, unsere Infrastruktur jedoch nicht“, erklärte die Organisation in einem Blogbeitrag.

Die datenhungrigen Bots haben auch Auswirkungen auf die Klickraten auf den Suchergebnisseiten (SERP) gehabt, die in den letzten Monaten stark zurückgegangen sind. Nehmen wir zum Beispiel die KI-Übersichten von Google: Eine aktuelle Studie des Marketingunternehmens Ahrefs zeigt, dass KI-Übersichten, ein Produkt, das der Suchmaschinenriese im Mai letzten Jahres für alle Nutzer eingeführt hat, die Klicks um 34,5 % reduziert haben. Während KI-Übersichten weiter wachsen – seit März letzten Jahres um 116 % –, leiden die auf den SERP angezeigten Websites darunter.

„Das bedeutet, dass Besucher diese Anzeigen nicht mehr sehen werden, wenn Sie Geld durch Abonnements, Werbung oder andere Dinge verdienen, mit denen Content-Ersteller heute ihr Geld verdienen“, sagte Prince von Cloudflare kürzlich in einem Interview mit CNBC. „Sie werden diese Abonnements nicht mehr kaufen. Und das bedeutet, dass es für Sie als Content-Ersteller viel, viel schwieriger werden wird.“

Gute Bots, schlechte Bots

Aber nicht alle Bots sind gleich: Mit dem Aufkommen von KI-Crawling-Bots nehmen auch gut gemeinte Bots zu – und unbekannte.

Miso Technologies Mitbegründer und CEO Lucky Gunasekara leitet das Projekt Sentinel, das mehr als 8.300 Websites von führenden Verlagen aus den Bereichen Nachrichten und Wissenschaft weltweit überwacht, darunter Newsweek, The Guardian, USA Today und BBC. Laut den für das Projekt gesammelten Zahlen gibt es mehr als 1.700 Bots auf dem Radar von 7.000 Verlagen, teilte Gunasekara IBM Think mit. Diese Zahl ist seit Februar um 35 % gestiegen, während die meisten Verlage nur 17 Bots ins Visier nehmen.

„Wir sprechen mit vielen Verlagen, und die Frage ist, wie wir wissen, dass dies bei kleinen, böswilligen Akteuren funktioniert“, sagte er in einem Interview. Unter den größten Bots, die er beobachtet hat, fand er mehrere, die nicht mit einem großen KI-Unternehmen in Verbindung gebracht werden können. „Was tun wir, wenn ein böswilliger Akteur 100.000 IP-Adressen gekauft hat, die nur eine Ansammlung von Bots sind?“, fragte er.

Allen unterscheidet auch zwischen „gutwilligen Betreibern von Crawlern, Bots und Agenten“, die eine klare Möglichkeit suchen, ihre Bots gegenüber Website-Betreibern zu identifizieren, und böswilligen Akteuren. „Unsere Vorschläge und unsere Unterstützung für WebAuthn [Web-Authentifizierung] finden weiterhin große Zustimmung und Zusammenarbeit im gesamten Technologie-Ökosystem“, sagte er.

„Wenn böswillige Akteure versuchen, Websites in großem Umfang zu crawlen, verwenden sie in der Regel Tools und Frameworks, die wir anhand von Fingerabdrücken identifizieren können. Wir nutzen das Netzwerk von Cloudflare mit durchschnittlich über 57 Millionen Anfragen pro Sekunde, um zu verstehen, wie sehr wir den Fingerabdrücken vertrauen können“, fügte er hinzu. „Wir berechnen globale Aggregate aus vielen Signalen, und auf der Grundlage dieser Signale sind unsere Modelle in der Lage, den Datenverkehr von schwer zu erkennenden KI-Bots konsistent und angemessen zu kennzeichnen.“

Eine Teillösung?

Cloudflare ist nicht das erste Unternehmen, das versucht, im Namen von Content-Erstellern zu „verhandeln“. Im vergangenen Jahr sind Unternehmen wie ScalePost und TollBit auf den Markt gekommen und haben Lösungen für Publisher vorgeschlagen, mit denen diese Daten für KI-Unternehmen überwachen, verkaufen oder monetarisieren können.

Aber die beneidenswerte Marktposition von Cloudflare könnte seinen Schritt noch wirkungsvoller machen.

„Wenn man eine Gruppe beschreiben müsste, die am besten positioniert ist, wäre das Cloudflare“, so Gunasekara.

„Es ist wichtig, dass wir einen der ersten großen Schritte der Publisher sehen, sich gegen die Unternehmen zu wehren. Das Schwierige daran ist, dass wir nicht wissen, ob die KI-Unternehmen dies umgehen werden“, sagte Lily Ray, SEO-Expertin und Vizepräsidentin bei Amsive, in einem Interview mit IBM Think. Viele Content-Ersteller sind sich möglicherweise nicht unbedingt über die Auswirkungen einer standardmäßigen Blockierung im Klaren – schließlich möchte nicht jeder aus der KI-Suche verschwinden. „Für Websites, die die Auswirkungen nicht verstehen, ist das ein wenig gefährlich“, sagte sie.

Laut Cloudflare haben Publisher die Möglichkeit, Crawlern den Zugriff auf ihre Inhalte für Trainings-, Such- oder Inferenzzwecke zu gestatten. Bestehende Kunden können KI-Crawler jederzeit mit einem einzigen Klick in ihrem Cloudflare-Dashboard blockieren.

„Kunden können Cloudflare eine robots.txt-Datei erstellen und verwalten lassen, die entsprechende Einträge erstellt, um Crawlern mitzuteilen, dass sie nicht auf ihre Website für KI-Trainingszwecke zugreifen dürfen“, erklärte Allen. „Kunden können wählen, ob sie KI-Bots nur auf Teilen ihrer Websites blockieren möchten, die durch Werbung monetarisiert werden.“

Unterschiedliche Technologien, gleiche Dilemmata

Die Frage der Regulierung des Austauschs zwischen KI-Unternehmen und Verlagen könnte derzeit aufgrund der Entstehung neuer KI-Labore und der damit verbundenen Investitionen viel Aufmerksamkeit erhalten. Doch sie ist nicht neu, wie Eric Goldman, Professor für Rechtswissenschaften an der Santa Clara University School of Law im Silicon Valley, feststellt, der sich in den 1990er Jahren, als das Internet entstand, mit dem „Infomediary”-Modell befasste.

„Die Technologie mag sich geändert oder weiterentwickelt haben, aber was wir heute diskutieren, ist nichts Neues”, erklärte er gegenüber IBM Think.

„Dieses Thema wird seit Jahrzehnten diskutiert, und noch niemand hat ein Infomediary-Modell erfolgreich umgesetzt, obwohl in den 1990er Jahren Milliarden von Dollar in dieses Problem gesteckt wurden. Cloudflare hat also vielleicht das Modell geknackt; vielleicht können sie es zum Laufen bringen, aber die bisherigen Erfahrungen in diesem Bereich sind nicht gerade berauschend.“

Goldman veröffentlichte im vergangenen Jahr „Generative AI is Doomed“, einen Artikel zu diesem Thema. Seiner Meinung nach werden die derzeitigen regulatorischen und rechtlichen Maßnahmen gegen generative KI deren Vorteile einschränken oder sogar zunichte machen.

Die rechtlichen Rahmenbedingungen müssen noch durch die Ergebnisse verschiedener Klagen von Autoren und Verlagen gegen große KI-Unternehmen in den USA und weltweit geprägt werden. „Bislang haben wir Grund zu der Annahme, dass die Standardregel lautet, dass das Trainieren eines generativen KI-Modells mit urheberrechtlich geschützten Werken keine Rechtsverletzung darstellt, aber diese Fragen werden alle in der Berufung behandelt werden“, so Goldman. „Bis wir Berufungsurteile erhalten, handelt es sich nur um erste Datenpunkte.“

Quelle: IBM-Blog


Teile diesen Beitrag: