Wie Unternehmen bei IT-Ausfällen rasch wieder handlungsfähig werden

Worauf Sie bei der Etablierung eines IT-Notfallplans achten sollten und wie Sie die richtige Hardware-Plattform für rasche Recovery wählen.

Softwarefehler und andere Probleme führen in der IT regelmäßig zu Ausfällen. Die Wahl der richtigen Hardwareplattform trägt entscheidend dazu bei, die Downtime minimal zu halten.

Am 19. Juli 2024 stand die halbe IT-Welt still. Das fehlerhafte Update einer Sicherheitssoftware hatte zu massenhaften Computerausfällen geführt. An Flughäfen, in Banken und Krankenhäusern, bei TV-Sendern und Cloud-Providern, in Supermärkten und Industrieunternehmen ging oft über Stunden nichts mehr. Nach Schätzungen von Microsoft waren rund 8,5 Millionen Windows-PCs betroffen.

Solche globalen Ereignisse sind äußerst selten – Softwarefehler oder andere Computerprobleme, die zu Ausfällen führen, sind es nicht. Tatsächlich sind Störungen von IT- und Kommunikationsinfrastrukturen an der Tagesordnung, das zeigen Plattformen wie Allestörungen.de. IT-Verantwortliche müssen deshalb immer mit Ausfällen rechnen und rechtzeitig Maßnahmen ergreifen, die eine schnelle Wiederherstellung betroffener Systeme ermöglichen.

In acht Schritten zu einem effizienten IT-Notfallplan

Die Entwicklung und Umsetzung eines IT-Notfallplans (Disaster Recovery Plan, DRP) ist ein entscheidender Faktor für den Aufbau einer resilienten IT-Infrastruktur. Der DRP enthält alle Maßnahmen, die für eine schnelle Wiederherstellung der Systeme nach einem Ausfall nötig sind. Um einen solchen Notfallplan zu entwickeln, sollten Unternehmen folgende acht Schritte durchführen:

  1. Ist-Zustand erfassen. Ohne einen genauen Überblick über alle im Unternehmen genutzten Systeme, deren Verbindungen und Patch-Stände lässt sich keine Aussage über das potenzielle Risiko eines Ausfalls und dessen möglichen Auswirkungen treffen. Am Anfang steht daher – falls nicht bereits erfolgt – eine Inventarisierung der IT-Infrastruktur, am besten mithilfe einer IT-Asset-Management-(ITAM-)Lösung.
  2. Risiken erkennen und bewerten. Auf Basis der Inventarlisten können IT-Verantwortliche nun kritische Systeme, Schwachstellen und Single Points of Failure identifizieren und die Wahrscheinlichkeit eines Ausfalls sowie dessen Folgen abschätzen.
  3. Maßnahmen definieren und priorisieren. Risiken lassen sich nie vollständig eliminieren, sondern immer nur reduzieren. Aus dieser Erkenntnis heraus sollten IT-Experten Maßnahmen definieren, die Ausfälle unwahrscheinlicher machen und die Wiederherstellung im Ernstfall erleichtern. Dazu gehören beispielsweise die Wahl resilienter Hardwareplattformen, eine mehrstufige Datensicherung über ein Backup-Konzept sowie eine redundante Standortanbindung über mehrere Provider. Welche Maßnahmen tatsächlich umgesetzt werden, richtet sich vor allem nach den potenziellen Auswirkungen eines Ausfalls auf die Geschäftstätigkeit sowie nach den Kosten und dem Aufwand für die Realisierung.
  4. Wiederherstellungspläne anfertigen: Ausfälle bedeuten erheblichen Stress für die IT-Verantwortlichen. Sie müssen unter großem Zeitdruck die Situation analysieren und Entscheidungen treffen. Detaillierte, vorab definierte Wiederherstellungspläne können dabei helfen, den Druck zu reduzieren und im Ernstfall bessere Entscheidungen zu treffen.
  5. Aufgaben definieren und verteilen. Wie bei anderen Notfallplänen sollte auch bei einem IT-Desaster-Recovery-Plan vorab geklärt werden, wer bei einem möglichen IT-Ausfall welche Rolle übernimmt und wer den Einsatz koordiniert.
  6. Kommunikationswege festlegen. Die Telefonnummern, Messenger- und E-Mail-Adressen der im vorherigen Schritt definierten Verantwortlichen müssen allgemein bekannt gemacht werden – am besten über Aushänge oder eine eigene Seite im Intranet. Es ist außerdem zu klären, wer die Kommunikation nach außen übernimmt. Das kann die Pressestelle, aber auch eine auf Krisenkommunikation spezialisierte PR-Agentur sein.
  7. Testen und evaluieren. Wie bei Brandschutz- und Evakuierungsplänen sollte auch der DRP regelmäßig getestet werden. Die dabei gewonnenen Erfahrungen sollten in die Verbesserung des Notfallplans einfließen.
  8. Regelmäßig aktualisieren. Das verantwortliche Team sollte mindestens einmal im Jahr prüfen, ob es signifikante Änderungen in der IT-Landschaft, der Geschäftstätigkeit oder dem Risikoprofil gibt. Ist dies der Fall, muss der Notfallplan entsprechend angepasst werden.

Hardware-Voraussetzungen für eine schnelle Wiederherstellung

Eine schnelle Reaktion auf Ausfälle und die rasche Wiederherstellung der betroffenen Systeme hängt wesentlich davon ab, wie gut sich die Systeme verwalten und im Fehlerfall wiederherstellen lassen. Unternehmen sollten daher bei der Wahl einer IT-Plattform auf folgende Eigenschaften achten:

  • Hardware-basiertes Monitoring: Der Betriebszustand aller Hardwarekomponenten ist kontinuierlich zu überwachen, um Probleme frühzeitig erkennen und Fehler möglichst beheben zu können, bevor es zu Ausfällen kommt.
  • Out-of-Band-Management: Die Fernwartung von Geräten kann vor allem in verteilten Umgebungen viel Zeit sparen und teure Reisen von Support-Mitarbeitern vermeiden. Reine Softwaretools für die Fernwartung funktionieren allerdings nur, wenn das zu wartende Gerät gebootet werden kann. Startet das Betriebssystem dagegen nicht mehr, muss die Hardware Funktionen für ein Out-of-Band-Management zur Verfügung stellen. Es erlaubt den Zugriff auf Geräte über einen eigenen TCP/IP-Stack, der unabhängig vom Betriebssystem ist.
  • Zentralisierte Verwaltung: Vor allem große, verteilte Umgebungen profitieren von der Möglichkeit, alle Geräte zentral konfigurieren, warten und aktualisieren zu können. So lassen sich die Systeme auch nach einem großflächigen Ausfall schnell wiederherstellen.
  • Zuverlässigkeit und Kompatibilität: Sämtliche Plattformkomponenten sollten vom Hersteller auf Funktion und Kompatibilität getestet und validiert worden sein, um technische Ausfälle oder Inkompatibilitäten so unwahrscheinlich wie möglich zu machen. Für eine langfristige Planung und Weiterentwicklung der IT-Infrastruktur ist es entscheidend, dass der Hardwarehersteller standardisierte Komponenten und Geräte anbietet, die sich nahtlos in die bestehende IT-Landschaft integrieren lassen.

Wie die Wahl der IT-Plattform die Resilienz beeinflusst

Um den Einfluss der IT-Plattform auf die Resilienz einer Unternehmens-IT zu evaluieren, hat das Beratungsunternehmen Signal65 in Zusammenarbeit mit Intel Ausfallszenarien bei zwei fiktiven großen Fluggesellschaften (NEWAIR und SAL-AIR) verglichen. NEWAIR setzt in seiner IT-Infrastruktur auf die Plattform Intel vPro

und verwendet für das Management die Intel Active Management Technologie (Intel AMT), die ein Hardware-basiertes Monitoring und ein Out-of-Band-Management der Systeme ermöglicht. SAL-AIR nutzt diese Optionen hingegen nicht.

Die Ausgangslage ähnelte dem oben beschriebenen Vorfall vom 19. Juli 2024: Nach einem Software-Update stürzte Windows während des Bootvorgangs ab. Dies führte dazu, dass wesentliche Systeme nicht mehr funktionierten, darunter Check-in-Automaten, Anzeigetafeln an den Gates, Gepäckabfertigungssysteme und Mitarbeiter-PCs. In der Folge kam es zu Flugausfällen, Verspätungen und Chaos an den Flughäfen. Um die Geräte wieder lauffähig zu machen, mussten die Dateien, die den Fehler verursachen, vor einem Systemstart ausgetauscht werden. Dies war nur durch eine Fernwartung per Out-of-Band-Management oder über den direkten physischen Zugriff auf die Systeme möglich.

NEWAIR konnte nach dem Ausfall 95 Prozent der Geräte innerhalb von sieben Stunden aus der Ferne wiederherstellen. Nach 48 Stunden waren alle Geräte wieder einsatzfähig, am dritten Tag nach Ausfallbeginn nahm die Fluggesellschaft ihren Normalbetrieb wieder auf. Insgesamt musste NEWAIR nur rund ein Prozent der Flüge streichen.

Die schnelle Wiederherstellung war im Wesentlichen der in vPro integrierten Intel Active Management Technologie zu verdanken. Sie ermöglicht eine Fernwartung der Geräte, selbst wenn das Betriebssystem nicht mehr startet. Der Remote-Zugriff funktioniert auch über WLAN oder Mobilfunk, während andere Plattformen dafür meist eine kabelgebundene LAN-Verbindung benötigen.

Die Fluggesellschaft SAL-AIR, die auf vPro und AMT verzichtet hatte, traf es wesentlich härter. Da das Unternehmen nur über einen eingeschränkten Remote-Zugriff auf die IT-Systeme verfügte, mussten Techniker direkt vor Ort an Flughäfen und anderen Standorten eingesetzt werden, was zu Verzögerungen und hohen Reisekosten führte. Die manuelle Fehlerbehebung und Wiederherstellung war aufwendig und zog weitere Verzögerungen nach sich. SAL-AIR konnte deshalb in den ersten 24 Stunden nach dem Ausfallereignis nur rund zehn Prozent der Systeme wiederherstellen. Selbst nach Ende der zweiten Woche waren nicht alle Systeme wieder vollständig lauffähig. Rund fünf Prozent der Flüge mussten gestrichen werden.

Fazit: Schnelle Wiederherstellung ist auch eine Frage der IT-Plattform

Systemausfälle gehören zum Alltag jedes IT-Experten. Umso wichtiger ist es, nach einem solchen Ereignis schnell wieder handlungsfähig zu werden und den Normalbetrieb zu gewährleisten. Plattformen wie Intel vPro bieten dafür wichtige Voraussetzungen, wie das Beispiel der beiden Fluggesellschaften NEWAIR und SAL-AIR zeigt. NEWAIR konnte durch den Einsatz der Intel Active Management Technologie seine Systeme wesentlich schneller wiederherstellen und den Normalbetrieb deutlich früher wieder aufnehmen.

Intel AMT ist aber nicht die einzige Funktion der vPro-Plattform, die für mehr Resilienz und eine schnelle Wiederherstellung von IT-Umgebungen sorgt. Zu nennen wären beispielsweise auch der Intel Endpoint Management Assistant (Intel EMA), der eine Fernwartung von Endgeräten außerhalb des Firmennetzwerks, etwa im Homeoffice oder im Außendienst, ermöglicht, sowie das Intel Stable-IT-Plattform-Programm (Intel SIPP), das die Kompatibilität neuer Intel-vPro-Geräte sicherstellt und somit eine reibungslose Integration in bestehende vPro-Landschaften garantiert.

Technik allein genügt jedoch nicht, um eine resiliente IT sicherzustellen. Das zeigt das Beispiel der beiden fiktiven Fluggesellschaften ebenfalls deutlich. Auch wenn NEWAIR durch den Einsatz der Active Management Technologie sehr viel schneller wieder einsatzfähig wurde als SAL-AIR, so kam es doch zu unnötigen Verzögerungen, da nicht alle Mitarbeiter im IT-Betrieb und -Support mit den Funktionen der vPro-Plattform vertraut waren. Kontinuierliche Schulungen und Notfallübungen gehören deshalb genauso zu einem guten Disaster Recovery Plan wie die Wahl der richtigen Hardwareplattform.