Cloudflare startet umfassende Resilienz-Initiative nach Netzwerkausfällen

Neue Sicherheitsarchitektur für globales Content Delivery Network

Nach zwei signifikanten Störungen seiner globalen Infrastruktur hat Cloudflare ein umfangreiches Maßnahmenpaket angekündigt. Die Initiative trägt den internen Namen „Code Orange: Fail Small“ und erhält höchste Priorität im gesamten Unternehmen. Ziel ist es, die Widerstandsfähigkeit des Netzwerks grundlegend zu verbessern und künftige weitreichende Ausfälle zu verhindern.

Chronologie der Vorfälle

Am 18. November 2025 verzeichnete das Unternehmen einen Ausfall von zwei Stunden und zehn Minuten. Knapp drei Wochen später, am 5. Dezember, folgte ein weiterer Vorfall mit einer Dauer von 25 Minuten, der 28 Prozent der gehosteten Anwendungen betraf. In beiden Fällen konnten Nutzer nicht auf Websites zugreifen, die über Cloudflares Infrastruktur bereitgestellt werden.

Die Analyse beider Ereignisse zeigt ein gemeinsames Muster: Unmittelbar vor den Störungen wurden Konfigurationsänderungen simultan in hunderten Rechenzentren weltweit ausgerollt. Im November handelte es sich um ein automatisches Update des Bot-Management-Klassifikators, der auf maschinellem Lernen basiert. Der Dezember-Vorfall wurde durch eine Anpassung an einem Sicherheitstool ausgelöst, mit dem das Unternehmen auf eine Schwachstelle im React-Framework reagieren wollte.

Drei Säulen der Resilienz-Strategie

Das Programm konzentriert sich auf drei zentrale Bereiche. Erstens werden künftig alle Konfigurationsänderungen einem kontrollierten Rollout-Verfahren unterzogen, analog zur bestehenden Praxis bei Software-Updates. Zweitens erfolgt eine systematische Überprüfung der Fehlermodi sämtlicher Systeme, die Netzwerkverkehr verarbeiten. Drittens werden die internen Notfallprozeduren überarbeitet und zirkuläre Abhängigkeiten eliminiert.

Unterschiedliche Behandlung von Code und Konfiguration

Cloudflare nutzt für Software-Updates bereits ein ausgereiftes System namens Health Mediated Deployment (HMD). Neue Binärversionen durchlaufen dabei mehrere Prüfstufen: zunächst Tests mit Mitarbeiter-Traffic, dann schrittweise Ausweitung auf kostenlose Nutzer und schließlich zahlende Kunden. Anomalien lösen automatische Rollbacks aus.

Konfigurationsänderungen hingegen werden über ein internes System namens Quicksilver verteilt, das Änderungen binnen Sekunden auf 90 Prozent der Server überträgt. Diese Geschwindigkeit bringt Vorteile bei der Reaktionsfähigkeit, birgt aber auch Risiken. Bei beiden Vorfällen führte eine fehlerhafte Konfiguration innerhalb kürzester Zeit zu flächendeckenden Problemen.

Schnittstellen und Fehlerbehandlung

Das Unternehmen überprüft derzeit die Verträge zwischen allen wichtigen Produkten und Diensten. Ziel ist es, für jede Schnittstelle vernünftige Standardwerte zu definieren, die im Fehlerfall greifen. Beim Bot-Management-Ausfall hätte beispielsweise die Kernsoftware nicht den gesamten Datenverkehr blockieren dürfen, sondern auf eine Basis-Klassifizierung zurückfallen sollen.

Beschleunigte Notfallreaktion

Die Behebung beider Vorfälle dauerte länger als nötig, da Authentifizierungssysteme Teammitgliedern den Zugriff auf benötigte Tools verwehrten. Zudem verhinderten zirkuläre Abhängigkeiten schnelles Handeln. Während des November-Ausfalls war etwa Turnstile, das CAPTCHA-System, nicht verfügbar – ausgerechnet jenes Tool, das Cloudflare für die Dashboard-Anmeldung nutzt. Kunden ohne aktive Sitzung konnten sich folglich nicht einloggen, um dringende Änderungen vorzunehmen.

Das Team überarbeitet daher alle Notfallverfahren, um sicherzustellen, dass autorisierte Personen im Krisenfall schnellen Zugang zu kritischen Systemen erhalten, ohne dass Sicherheitsstandards leiden. Gleichzeitig werden Trainingsübungen intensiviert.

Zeitplan und Umsetzung

Bis Ende des ersten Quartals 2025 sollen die Hauptziele erreicht sein: vollständige HMD-Abdeckung für alle Produktionssysteme, angepasste Fehlermodi für jedes Produktset und optimierte Notfallzugriffe. Die Implementierung erfolgt iterativ, sodass jede Teilverbesserung unmittelbar zur erhöhten Stabilität beiträgt, anstatt auf eine finale Großänderung zu warten.

Das Unternehmen kündigte regelmäßige Updates zum Fortschritt der Initiative an und betont die Bedeutung des Feedbacks von Kunden und Partnern.

Ursprünglich veröffentlicht von Cloudflare

Weiteres

Speicherfehler in Live-Systemen aufspüren: GWP-ASan macht es möglich

Zwei Drittel aller Betrugsseiten nutzen Cloudflare-Infrastruktur

Bild/Quelle: https://depositphotos.com/de/home.html

Folgen Sie uns auf X / Bluesky / Mastodon

Cloudflare startet umfassende Resilienz-Initiative nach Netzwerkausfällen

Chronologie der Vorfälle

Drei Säulen der Resilienz-Strategie

Unterschiedliche Behandlung von Code und Konfiguration

Schnittstellen und Fehlerbehandlung

Beschleunigte Notfallreaktion

Zeitplan und Umsetzung

Fachartikel

Diesel Vortex: Russische Phishing-Gruppe greift systematisch Logistikunternehmen an

Oblivion: Neue Android-Malware umgeht Sicherheitsschichten auf Samsung, Xiaomi und Co.

Starkiller: Phishing-Framework setzt auf Echtzeit-Proxy statt HTML-Klone

LockBit-Ransomware über Apache-ActiveMQ-Lücke: Angriff in zwei Wellen

Infoblox erweitert DDI-Portfolio: Neue Integrationen für Multi-Cloud und stärkere Automatisierung

Studien

KI beschleunigt Cyberangriffe: IBM X-Force warnt vor wachsenden Schwachstellen in Unternehmen

Finanzsektor unterschätzt Cyber-Risiken: Studie offenbart strukturelle Defizite in der IT-Sicherheit

CrowdStrike Global Threat Report 2026: KI beschleunigt Cyberangriffe und weitet Angriffsflächen aus

IT-Sicherheit in Großbritannien: Hohe Vorfallsquoten, steigende Budgets – doch der Wandel stockt

IT-Budgets 2026: Deutsche Unternehmen investieren mehr – und fordern messbaren Gegenwert

Whitepaper

Third Party Risk Management – auch das Procurement benötigt technische Unterstützung

EU-Toolbox für IKT-Lieferkettensicherheit: Gemeinsamer Rahmen zur Risikominderung

EU-Behörden stärken Cybersicherheit: CERT-EU und ENISA veröffentlichen neue Rahmenwerke

WatchGuard Internet Security Report zeigt über 1.500 Prozent mehr neuartige Malware auf

Armis Labs Report 2026: Früherkennung als Schlüsselfaktor im Finanzsektor angesichts KI-gestützter Bedrohungen

Hamsterrad-Rebell

Incident Response Retainer – worauf sollte man achten?

KI‑basierte E‑Mail‑Angriffe: Einfach gestartet, kaum zu stoppen

NIS2: „Zum Glück gezwungen“ – mit OKR-basiertem Vorgehen zum nachhaltigen Erfolg

Cyberversicherung ohne Datenbasis? Warum CIOs und CISOs jetzt auf quantifizierbare Risikomodelle setzen müssen

Identity Security Posture Management (ISPM): Rettung oder Hype?