Virtualisierte Server erhöhen die Flexibilität der IT, aber ein Ausfall der physischen Plattform kann gravierende Folgen haben. Mit fehlertoleranten Servern lässt sich die Hardware so absichern, dass auch virtuelle Server echte Hochverfügbarkeit erreichen.
Die Aufgaben der IT haben sich in den letzten Jahren stark vermehrt. Dabei wurde oft für jede neue Aufgabe auch (mindestens) ein neuer physischer Server angeschafft: File-Server, Web-Server, Datenbank-Server, Domain-Server, Mail-Server und vor allem eine große Anzahl von Applikations-Servern. Die Vielzahl der Geräte, die sich dabei in den IT-Abteilungen und Rechenzentren angesammelt hat, beeinträchtigt mittlerweile die Effizienz. Der Aufwand für die Administration ist groß, der Platzbedarf enorm, die Kosten für die komplexe Infrastruktur wie Strom oder Kühlung sind hoch.
Die enorme Leistungssteigerung, die die Server-Hardware unterdessen erfahren hat, eröffnet einen eleganten Weg aus dieser Situation. Die Virtualisierung erlaubt es, auf einem physischen Server völlig unabhängig voneinander mehrere logische Server zu betreiben. X86-Prozessoren unterstützen diese Technik seit einiger Zeit und verfügen über entsprechende Extensions. Durch die Virtualisierung können Unternehmen ihre Server konsolidieren und damit dem Wildwuchs der Server-Landschaften begegnen.
Die Konsolidierung von mehreren logischen Servern auf wenigen physischen Servern hat eine Reihe von Vorteilen. Zunächst werden ganz einfach Hardware-Kosten gespart – man muss weniger Geräte kaufen beziehungsweise erneuern. Zugleich sinken auch die Betriebskosten, beispielsweise für die Administration, aber auch für Strom, Kühlung usw. Darüber hinaus benötigen weniger Geräte auch weniger Platz, ein wichtiger Aspekt wenn ein Rechenzentrum bereits aus den Nähten platzt.
Durch Virtualisierung lässt sich insbesondere die Auslastung der Systeme, die bei PC-Servern normalerweise nur 10 bis 20 Prozent der Kapazität beträgt, deutlich erhöhen und Schwankungen in der Beanspruchung lassen sich innerhalb einer physischen Maschine ebenfalls leicht verteilen. Diese Vorteile sind offensichtlich, so dass derzeit ein starker Trend zu virtualisierten Servern zu beobachten ist.
Verfügbarkeit per Umzug
Häufig wird auch die Erhöhung der Verfügbarkeit der Systeme als Vorteil der Virtualisierung genannt. Ein Argument, das man allerdings differenziert betrachten muss.
Die derzeit führende Virtualisierungs-Software ESX von VMware setzt als Host-Betriebssystem direkt auf der Hardware auf und erlaubt es, unterschiedliche Gast-Betriebssysteme, zum Beispiel Windows und Linux, auf einer einzigen Maschine zu benutzen. Zugleich erlaubt VMware mit der Software VMotion die Migration von virtuellen Servern über verschiedene physische Server hinweg. Wer beispielsweise fünf virtuelle Server auf zwei physischen Servern betreibt, kann erstere ganz oder teilweise von einer physischen Maschine zur anderen verschieben, mit seinen virtuellen Servern also gewissermaßen auf eine andere Hardware migrieren. Dies verschafft nicht nur zusätzliche Flexibilität und verbessert die Auslastung der Systeme, sondern erhöht auch die Verfüg-barkeit der Systeme, denn die virtuellen Server lassen sich – komplett mit dem jeweiligen Betriebssystem und den Applikationen – zu einem anderen Server verlegen.
Voraussetzung dafür ist allerdings, dass nach dem ersten Auftreten der Störung noch genügend Zeit für diese virtuelle Server-Migration bleibt. Tritt jedoch ein Störfall ohne Vorwarnzeit auf, so ist kein kontinuierlicher Betrieb möglich, denn die Anwendungen müssen auf einer anderen physischen Maschine erst neu gestartet werden. Dabei geht der aktuelle Status der jeweiligen Applikationen verloren, offene Transaktionen wurden abgebrochen und müssen beispielsweise in den Datenbanken mit den üblichen Verfahren zurückgesetzt werden, um die Daten konsistent zu halten, was einige Zeit in Anspruch nimmt.
Von Hochverfügbarkeit, die ja einen unterbrechungsfreien Betrieb der Systeme voraussetzt, kann unter diesen Umständen natürlich keine Rede sein.
GRA Stratus_ESX_3
Hochverfügbarkeit in einer IT-Infrastruktur mit VMware und zwei physischen Stratus-Servern Bildupload
Tatsächlich verschärft die Virtualisierung von Servern sogar die Verfügbarkeitslage. Denn wenn auf einem physischen Server mehrere virtuelle betrieben werden, so sind von einem ungeplanten Hardware-Ausfall immer gleich mehrere logische Server mitsamt ihren Anwendungen betroffen. Ein defekter physischer Server zieht also unter Umständen eine ganze virtuelle Server-Gruppe mit ins Verderben – und für jedes System müssen die angesprochenen Maßnahmen zur Wiederherstellung des Betriebs vorgenommen werden. Auch wenn diese Maßnahmen mit entsprechender Software-Unterstützung ganz oder teilweise automatisch ablaufen, so muss der Anwender dafür immer eine mehr oder weniger lange Ausfallphase hinnehmen.
Absicherung gegen Hardware-Ausfälle
Die Verfügbarkeit virtueller Server muss daher auch Hardwaretechnisch abgesichert werden. Wichtige Anwendungen müssen, gerade wenn sie auf virtuellen Servern betrieben werden, als sicheres Fundament über eine wirklich hochverfügbare Hardware-Plattform verfügen. Dafür eignen sich die fehlertoleranten Systeme, wie sie Stratus anbietet. Diese Server arbeiten auf Basis von Standard-Technologien, also mit Intel-Prozessoren und den Betriebssystemen Windows, Linux oder VMware ESX, und erreichen eine Verfügbarkeit von über 99,999 Prozent ("Five Nine"). Dies entspricht einer mittleren Ausfallzeit von maximal fünf Minuten pro Jahr. Fehlertolerante Server übertreffen damit sogar die Verfügbarkeit klassischer Großrechner – wegen der Verwendung von Standard-Technologien zu einem Bruchteil der für Großrechner anfallenden Kosten.
Fehlertolerante Server erreichen ihre hohe Verfügbarkeit durch eine durchgängige Verwendung redundanter Hardware-Komponenten. Prozessoren, Speicher-Chips und I/O-Einheiten sind jeweils doppelt vorhanden und nicht, wie sonst in High-End-Systemen üblich, nur die Netzteile oder die Festplatten. Fällt eine Komponente aus, führt das jeweilige Gegenstück sofort und vollautomatisch den Betrieb weiter. Der Benutzer merkt diesen Fehlerfall überhaupt nicht, er kann seine Anwendung somit ohne Datenverlust kontinuierlich weiterverwenden.
Erst auf dieser technischen Grundlage ist die Hardware soweit gegen Störungen abgesichert, dass der gleichzeitige Betrieb von mehreren Servern auf einer physischen Maschine kein zusätzliches Risiko mehr darstellt. Dabei sind die fehlertoleranten Stratus-Server durch die Verwendung von Standard-Technologie vollständig kompatibel zu VMware ESX, so dass die Virtualisierungs-Software direkt auf der Stratus-Hardware aufsetzen kann.
In der Praxis wird man aus Kostengründen nicht jeden physischen Server einer großen Serverfarm auf diese Weise hochverfügbar machen. Aber für diejenigen Server, auf denen die wirklich unternehmenskritischen Aufgaben laufen, ist dies auf Dauer unerlässlich.
Fehlertolerante Server
Stratus erreicht Fehlertoleranz durch die Anwendung einer Reihe innovativer Technologien:
Lockstep-Technologie: Vollständig redundante Hardwarekomponenten führen sämtliche Operationen des ftServers simultan durch. Weist eine Komponente eine Fehlfunktion auf, wird durch die entsprechende Partnerkomponente der Betrieb aufrecht erhalten. Probleme wie Systemausfallzeiten und Datenverlust werden damit vermieden. Die Server von Stratus sind die einzigen Server, bei denen alle betriebskritischen Komponenten mehrfach vorhanden sind.
Gehärtete Treiber: Die im so genannten Hardening-Verfahren verbesserten Gerätetreiber können in erheblichem Maße zu einer höheren Verfügbarkeit und dem Schutz der Datenintegrität beitragen. Die Software verwaltet replizierte PCI E/A-Schnittstellen und gewährleistet den unterbrechungsfreien Systembetrieb, falls eine E/A-Schnittstelle ausfallen sollte. Echte Hot-Swap-Fähigkeit, LED-Indikatoren, die den Schnittstellenstatus anzeigen, sowie Online-Diagnose maximieren die Systemverfügbarkeit.
Quick Dump: Bei einem durch Anwendungs-Software bedingten Ausfall des Betriebssystems wird der ftServer innerhalb kürzester Zeit neu gestartet, ohne dass dabei die für eine Analyse der Fehlerursache benötigten Informationen verloren gehen. Der Server behält eine replizierte CPU- beziehungsweise Speichereinheit offline und setzt das restliche System auf Normalbetrieb zurück. Nachdem das System und die Anwendungen wieder betriebsbereit sind, wird ein vollständiger Speicherauszug der offline geschalteten CPU- und Speichereinheit durchgeführt
ActiveService-Architektur: Stratus ftServer-Systeme überwachen permanent ihren eigenen Betrieb. Per Remote-Support können die Servicetechniker von Stratus in mehr als 95 Prozent aller Fälle die Fehler online diagnostizieren, lokalisieren und die Probleme sofort beheben.
Fehlertoleranter Support
Stratus integriert seine ftServer in ein umfassendes Service-Konzept. Damit kann die Redundanz von ausgefallenen Bauteilen schnell wiederhergestellt werden. Das Konzept arbeitet in vier Stufen:
1. Das System isoliert den Fehler und läuft auf Grund der redundanten Komponenten weiter
2. Die „Call home“-Technologie meldet den Fehler an das Stratus Customer Assistance Center
3. Die neue Komponente wird von Stratus zum Anwender versandt
4. Der Anwender tauscht die Komponenten aus und das ftServer-System synchronisiert sich automatisch ohne Administrator-Eingriff.
Das ActiveService Network (ASN) von Stratus stellt dafür eine weltweite Infrastruktur zur Verfügung.
Weitere Informationen
• VMware: http://www.vmware.com/de/
• ftServer: www.stratus.de