Praxisbeispiel
Freitag, 30.09.2022
Gründe für eine Storage-Migration
Legacy Landschaften stoßen immer mehr an ihre Grenzen. Die zu speichernden Datenmengen wachsen kontinuierlich an und die Anforderungen an eine Storage-Infrastruktur steigen stetig. In unserem dreiteiligen Blog zum Thema Storage-Migration haben wir detailliert die Gründe beschrieben, die eine Storage-Migration notwendig werden lassen.
Eine Storage-Migration kann unter anderem zur reinen Performance-Optimierung durchgeführt werden, wird aber aus Kostengründen gerne aufgeschoben, obwohl sie langfristig zu Kostensenkungen führt. Früher oder später bringt eine veraltete Speicherlösung jedoch Probleme mit sich, die eine Migration unausweichlich werden lassen. Im Folgenden wird ein Praxisbeispiel beschrieben, in dem ein simpler Löschanlagentest in einem Rechenzentrumsraum den eigentlichen Grund für die Migration lieferte.
Ausgangslage der Problemstellung
Die in Rechenzentren verbaute Technik führt zu einer erhöhten Wärmeentwicklung, weshalb eine ausreichende Kühlung unabdingbar ist. Grundsätzlich müssen Rechenzentren auf einem konstanten Temperaturniveau innerhalb der Räume gehalten werden. Steigt die Temperatur an einzelnen Stellen über die angegebenen Grenzwerte der Hardware, kann es bereits zum Ausfall einzelner Komponenten kommen. Gleichzeitig sind technische Defekte und Kurzschlüsse generell nicht auszuschließen. Diese Kombination führt zu einem erhöhten Brandrisiko innerhalb von Rechenzentren. Um dem entgegenzuwirken, müssen gesetzlich vorgeschriebene Sicherheitsvorkehrungen eingehalten werden. Hierzu gehört die Installation einer Löschanlage, welche im Ernstfall dazu beiträgt, einen Brand unter Kontrolle zu bekommen. Damit die Anlage auch sachgemäß funktioniert, müssen regelmäßige Tests durchgeführt werden. Bei Nichteinhaltung der Vorschriften droht der Verlust der Betriebserlaubnis.
Des Weiteren hilft eine funktionstüchtige Löschanlage, bei einem Brand die wirtschaftlichen Schäden so klein wie möglich zu halten. Die Wiederherstellung von Daten nach einem Brand ist mit hohen Kosten und Aufwand verbunden. Im schlimmsten Fall können unternehmensrelevante Daten, wie beispielsweise Patent-, Produktentwicklungs- und garantierelevante Daten vollständig verloren gehen. Nicht zu vernachlässigen ist auch die direkte Gefahr, die für die Mitarbeiter entsteht, wenn sich der Brand ausbreitet.
In unserem Praxisbeispiel stellt einer der Serverräume ein großes Problem für den anstehenden Löschanlagentest dar. Auf einem der dort stationierten Server befinden sich unternehmensrelevante Daten, die für das tägliche Geschäft essenziell sind. Die Daten liegen jedoch auf einem veralteten Speichersystem mit herkömmlichen Festplatten (HDDs mit Leseköpfen). Die meisten Systeme dieser Art haben inzwischen ihren End of Service erreicht, werden aber häufiger aus Kostengründen weitergenutzt. Durch die Gegebenheiten des Systems würde ein auflagenkonformer Löschanlagentest eine direkte Gefahr für die verbaute Hardware und somit für die darauf liegenden Daten darstellen.
Ein wichtiger Teil des Löschanlagentests ist nämlich auch das Testen des Alarmtons. Dieser weist eine erhöhte Lautstärke auf und führt dadurch zu Schwingungen innerhalb des Raums. Durch die Schwingungen könnten die Leseköpfe der HDDs ins Vibrieren geraten und sich selbst oder die Datenträger beschädigen. Dies ist bereits 2018 in einem schwedischen Rechenzentrum geschehen. Einen Artikel zu dem Vorfall finden Sie in der Heise Online: https://www.heise.de/newsticker/meldung/Loeschanlagen-Ton-zerstoert-Festplatten-in-schwedischem-Rechenzentrum-4029730.html.
Folglich waren Maßnahmen notwendig, um die wichtigen Daten auf den Servern zu schützen. Diese mussten von Grund auf geplant und durchgeführt werden, wofür in unserem Fall nur ein kleines Zeitfenster zur Verfügung stand. Ein Aufschub war nicht möglich, da bei Nichteinhaltung der Frist eine Stilllegung der Server durch die zuständige Behörde drohte.
Damit das Problem langfristig gelöst wird und bei dem nächsten Löschanlagentest nicht in der gleichen Form erneut auftritt, wurde eine Erneuerung der Hardware (langfristig), sowie eine Storage-Migration (temporäre Lösung) beschlossen.
Innerhalb des verfügbaren Zeitfensters musste die Hardware für die neue Speicherlösung beschafft, installiert, sowie die Daten migriert werden. Doch bereits der Einkauf der Hardware stellte sich durch Lieferkettenprobleme in Folge der Coronakrise als große Hürde heraus. Sie war bei allen Herstellern ausverkauft und konnte nicht einmal über direkte Kontakte zu den Herstellern beschafft werden. Selbst eine intensive Suche auf Aftermarket-Places ist ergebnislos verlaufen.
Um den Umzug der Daten vorzubereiten, gilt es zuerst die verantwortlichen Personen sowie die Know-How Träger zu ermitteln. Diese sind in unterschiedlichen Fachbereichen tätig und stellen daher vielfältige Anforderungen an die neue Speicherlösung. Darüber hinaus ergeben sich verschiedene Wünsche für den Zeitpunkt der Daten-Migration.
Die Gesamtheit der gegebenen Bedingungen führte zur Feststellung, dass die Storage-Migration nicht in dem für den Löschanlagentest zur Verfügung stehenden Zeitfenster durchgeführt werden konnte. Daher wurde die Migration vorerst als langfristiges Ziel betrachtet. Nichtsdestotrotz bedurfte es einer Übergangslösung, um die Durchführung des Löschanlagentest zu ermöglichen.
Lösungsvarianten
Die Übergangslösung musste einerseits durch das knappe Zeitfenster schnell implementierbar und andererseits durch die anstehende Storage-Migration möglichst ressourceneffizient sein. Außerdem durfte der Server nicht heruntergefahren werden, da er altersbedingt gegebenenfalls nicht mehr hätte hochgefahren werden können.
In erster Linie wurden Konzepte analysiert, die keine unmittelbare Inbetriebnahme einer weiteren Speicherlösung erfordern. In diesem Zuge wurden Möglichkeiten untersucht, den Server vor dem Löschanlagentest in andere Räumlichkeiten zu verlegen, oder ihn ausreichend gegen den Schall abzuschirmen. Beide Optionen bargen jedoch ein Restrisiko durch mangelnde Erfahrungswerte.
Keine der untersuchten Lösungen konnte einen eventuellen Defekt des Servers gänzlich ausschließen, weshalb der Einsatz von weiteren Speicherlösungen unvermeidbar war.
Daher sollten virtuelle Maschinen in Betrieb genommen werden. Durch das Kopieren der Daten auf die virtuellen Maschinen sollte das Tagesgeschäft, sowie eine Wiederherstellung der Daten bei Auftreten eines Defekts der Altsysteme gewährleistet werden. Dies wurde umgesetzt, in dem für die Dauer des Löschanlagentests, die Daten über die virtuellen Maschinen und nicht direkt über den Server abgerufen wurden.
Das Ziel der langfristig geplanten Storage-Migration ist der Aufbau einer neuen Infrastruktur, um den Umzug der gesamten Unternehmensdaten auf virtuelle Maschinen zu ermöglichen. Dies bringt mehrere Vorteile mit sich:
- Konsolidierung: Mehrere virtuelle Server auf einem physischen Server senken die Investitions- und Betriebskosten und vereinfachen den Betrieb eines Rechenzentrums.
- Intelligentes Management: Virtuelle Server können deutlich intelligenter und flexibler verwaltet werden. Auch die Automatisierung vieler Aufgaben ist so kein Problem mehr.
- Schnelle Bereitstellung: Virtuelle Workloads können einfach skaliert oder verschoben werden. So kann schneller auf neue Anforderungen reagiert werden.
- Sicherheit und Verfügbarkeit: Virtuelle Server vermeiden Ausfallzeiten von Anwendungen und beschleunigen das Disaster Recovery deutlich.
Nach Fertigstellung aller Backupprozesse konnte der Löschanlagentest problemlos durchgeführt werden. Den Prognosen entsprechend kam es während des Tests zum Defekt einer Festplatte. Die darauf befindlichen Daten konnten jedoch ohne Probleme über das Backup von den virtuellen Maschinen auf das ursprüngliche System zurückgespielt werden.
Nach dem Löschanlagentest wurden die Daten wieder direkt über den alten Server abgerufen. Das Backup verbleibt aus Sicherheitsgründen auf den virtuellen Maschinen, da sich der Ausfall weiterer Festplatten altersbedingt nicht ausschließen lässt. Außerdem wurde dadurch ein doppelter Boden geschaffen und die Daten sind bis zum Ende der anstehenden Storage-Migration abgesichert.
Fazit
Durch schnelles und zielgerechtes Reagieren auf die Gegebenheiten konnte eine Lösung gefunden werden und der Löschanlagentest wurde in dem vorgegebenen Zeitraum ermöglicht. Gleichzeitig konnte das freigegebene Budget eingehalten und somit Ressourcen für die geplante Storage-Migration eingespart werden.
Das Praxisbeispiel zeigt, dass über grundlegendes Know-How hinaus auch Transferwissen für die Durchführung einer Storage-Migration essenziell ist – denn die Fähigkeit, auf individuell auftretende Probleme mit flexiblen Lösungen zu reagieren, ist bei jeder Storage-Migration unabdingbar. Erfahrungswerte und Best-Practices helfen dabei, bei der Bewältigung solcher Probleme das eigentliche Ziel nicht aus den Augen zu verlieren. Konkret bedeutet es, die langfristige strategische Planung seiner Migrationsstrategie stets mit operativer Handlungsfähigkeit im Gleichgewicht zu halten. Dies sollte sich unter anderem in der Gestaltung von Entscheidungswegen und Abstimmungen widerspiegeln. Auf diese Weise sollte es gelingen, trotz hoher Dynamik und Komplexität einer Storage-Migration, das Vorhaben erfolgreich abschließen zu können.
Patrick Hanke
Autor
Projektmanager
Paul Stapf
Autor
Junior Consultant