Die am 19. Juli durch das Crowdstrike-Update ausgelöste IT-Panne und ihre weitreichenden Folgen haben uns eindrucksvoll vor Augen geführt, wie wichtig es ist, strenge Qualitätssicherungsprozesse einzuhalten, bevor Software freigegeben wird. Mit mehr als 30 Jahren Erfahrung in der Branche sind wir uns bei WatchGuard der Sensibilität von Update-Szenarios bewusst und möchten an dieser Stelle aufzeigen, welche Vorkehrungen wir in den eigenen Reihen getroffen haben, um sowohl unsere Partner-Community als auch unsere Kunden vor den Auswirkungen eines fehlerhaften Update-Rollouts zu schützen.
Endpoint-Security-Lösungen sind eng mit dem Betriebssystem verbunden und erfordern daher ein besonderes Augenmerk im Zuge der Qualitätssicherung. Die Einzigartigkeit dieser Produkte und die Anforderungen hinsichtlich eines privilegierten Zugriffs auf das Betriebssystem machen den Entwicklungs- und Qualitätssicherungsprozess schwieriger. Da diese Art von Software auf bis zu mehreren Millionen Endgeräten und in sehr unterschiedlichen Umgebungen läuft, ist es unmöglich, jedes einzelne Einsatzszenario bis ins Detail auf Herz und Nieren zu prüfen und entsprechend zu testen. Um dieses Problem zu lösen, haben die technischen Teams von WatchGuard einen Prozess implementiert, bei dem – unter Beibehaltung des Release-Rhythmus – die Möglichkeit einer Unterbrechung des normalen Betriebs gezielt eingeschränkt wird.
Updates für Endpoint-Produkte von WatchGuard
Phase 1 – Vorschau für Freunde und Familie:
Der in diesem technischen Artikel beschriebene Prozess startet, nachdem das Qualitätsteam alle internen Alpha- und Beta-Tests für eine neue Version abgeschlossen hat. Sobald die Software zertifiziert ist, beginnen wir mit einer Phase, die wir als „Friends & Family Testing“ bezeichnen – im Wesentlichen deshalb, weil es ursprünglich einmal genauso so war. Wir haben Freunde und Familie ins Boot geholt, um unsere neuen Lösungen im Live-Betrieb zu testen.
Vor ungefähr zehn Jahren haben wir damit angefangen, unsere eigenen Systeme auf neuesten Stand zu bringen – sowohl die Firmensysteme als auch die privaten Geräte zu Hause. Die WatchGuard-internen IT-Komponenten gehörten zu den ersten, die in den Friends & Family-Rollout einbezogen wurden – nicht nur die PCs, sondern auch die Produktionsserver.
Im Laufe der Zeit ist diese Umgebung auf Hunderte von Accounts und Tausende von Endgeräten angewachsen. Einige unserer strategisch wichtigsten Partner und etliche Administratoren auf Kundenseite wollten ebenfalls so früh wie möglich an der Einführung unserer neuen Versionen teilhaben. Entsprechend wurden auch deren Umgebungen im Rahmen unser initialen „Friends & Family-Tests“ einbezogen.
Alle Systeme, die in dieser Phase beteiligt sind, werden streng überwacht. Um sicherzustellen, dass sich eine neue Version nicht anders verhält als die zu aktualisierende Version, beziehen wir weitreichende Telemetriedaten ein. So monitoren wir beispielsweise potenzielle Abstürze und Fehler, aber auch Zustandsdaten wie der Speicherverbrauch oder die durchschnittliche CPU-Auslastung werden überwacht.
Abhängig von den konkreten Änderungen verharren wir lange genug in dieser Phase, um zu überprüfen, ob der ursprüngliche Rollout erfolgreich war und alles über einen ausreichenden Zeitraum hinweg korrekt funktioniert.
Unser Support-Team ist in dieser Phase aktiv beteiligt. Schließlich kommt es darauf an, potenziell neue Probleme stichhaltig zu identifizieren. Dieser Input trägt maßgeblich zur Entscheidung bei, ob wir mit dem nächsten Schritt des Upgrade-Release-Prozesses fortfahren können. Erst wenn unser Support-Team mit dem Release zufrieden ist und alle Metriken unter den definierten Parametern liegen, machen wir weiter.
Phase 2 – Kontrollierter Preview:
Im nächsten Schritt informieren wir via Cloud-Konsole über die Verfügbarkeit der neuen Version. Ziel ist es, unseren Partnern und Kunden mitzuteilen, dass sie mit der Bereitstellung des Updates beginnen können. Wie in diesem Tech-Artikel beschrieben, ist es möglich, die Systeme kontrolliert zu aktualisieren.
Diese Phase dauert mehrere Wochen an, wobei wir die Gesamtzahl der aktualisierten Geräte stets im Blick behalten. Wie in der „Friends & Family“-Phase sind unsere Support-Teams besonders aufmerksam und darauf geeicht, anormales Verhalten zu identifizieren, das mit der neuen Version zusammenhängen könnte.
Phase 3 – Automatischer Upgrade-Prozess:
Sobald wir mit der neuen Version zufrieden sind, begeben wir uns auf die Stufe des automatischen Upgrade-Prozesses. Auch hier hängt die Anzahl der Phasen von den jeweiligen Änderungen und Neuerungen der Software ab. In der Regel sind es drei bis vier Rollout-Zyklen, in denen wir das Upgrade an unsere Kunden weitergeben.
Content-Updates von WatchGuard:
Der Prozess der Bereitstellung von Content-Updates ist ähnlich. In diesem Fall haben wir eine Staging-Umgebung – wie bei „Friends & Family“ – mit Hunderten von Konten und Tausenden von Geräten. Sobald der Inhalt zertifiziert ist, veröffentlichen wir das Update zunächst in dieser Umgebung. Auch hier liegt dann ein intensiver Blick auf den Leistungsdaten. Jede Abweichung von der bekannten Performance wird bewertet und genauestens hinterfragt. Erst wenn dieser Prozess abgeschlossen ist – und keine neuen Probleme gemeldet werden – geben wir das Update an unsere Partner und Kunden weiter.
An dieser Stelle soll nicht zuletzt die Gelegenheit genutzt werden, die harte und wertvolle Arbeit zu würdigen, die unsere internen Entwicklungs-, Qualitätssicherungs-, DevOps- und Support-Teams jeden Tag leisten. Mit vollem Einsatz wird sichergestellt, dass unsere Lösungen angesichts neuer Bedrohungen stets auf dem neuesten Stand bleiben. Alle bei WatchGuard sind am Ball, um Prozesse bei Bedarf zu überprüfen, zu überarbeiten und weiterzuentwickeln, um sich das Vertrauen von Kunden und Partnern auch weiterhin zu verdienen.
Jeder in unserer Branche kennt den Schmerz, den eine fehlgeschlagene Implementierung verursacht. In solchen Situationen müssen wir unsere Anstrengungen verdoppeln, um unsere Partner und Kunden verlässlich vor realen Bedrohungen zu schützen. Es gilt, wachsam zu bleiben und unsere internen Prozesse ständig neu zu bewerten.