Viele Jahre war RAID der de-facto-Standard, wenn man Speichersysteme („Arrays“) mit hohem Datenvolumen ausfallsicher und performant gestalten wollte. In den letzten Jahren ist immer deutlicher zutage getreten, dass das Ende der Achtziger entwickelte Modell des „Redundant Arrays of Independent Disks“ (redundante Gruppe unabhängiger Festplatten) mit den Anforderungen, die man an heutige Speichersysteme stellt, überfordert ist. Kein Grund zur Verzweiflung: Der IT-Markt hat natürlich schon Nachfolgelösungen parat.
leo_photo / shutterstock.com
EMC, NetApp, HDS, HPE, Fujitsu, IBM, … alle großen Storage-Anbieter haben in der Vergangenheit sehr gut davon gelebt, dass der Speicherhunger der Kunden von Jahr zu Jahr ebenso zunahm wie der Bedarf an höherer Performance, und das bei quasi ständiger Verfügbarkeit. Speichersysteme müssen „always on“ sein, gerade im Mittelstand; dort sind häufig die von mehreren Hosts betriebenen Virtuellen Maschinen(VMs) auf einem einzigen Storagesystem zentral abgelegt. Die Daten-Replikation in ein zweites Array an entferntem Ort erhöht die Ausfallsicherheit zwar deutlich, erfordert aber auch ein Mehrfaches an Investitionen, was sich gerade bei kleineren Mittelständlern budgetseitig nicht abbilden lässt. Daher erneuert man alle 12 Monate den Support für das (einzige) Speichersystem im Haus in dem Bestreben, der Hersteller möge eventuelle Systemausfälle schnellstmöglich beseitigen.
Diese Unterstützung lässt man sich einiges kosten, Zeit ist schließlich Geld, und das wissen die Hersteller ebenso gut wie ihre Kunden. So ist es nicht ungewöhnlich, dass pro Jahr Wartungskosten von 20 Prozent und mehr anfallen, gemessen an den ursprünglichen Investitionskosten. Es gilt die Faustformel: je älter das Storagesystem, desto teurer der Support. Der Kunde, der nicht rechtzeitig ein Technologie-Update durchführt, wird also in besonderem Maße zur Kasse gebeten.
Günstige Speicherlösungen setzen bis heute technologisch auf RAID in unterschiedlichen Ausprägungen auf, die „RAID Level“ genannt werden. Zur Ablage von Datenbanken und VMs kommt häufig das sehr performante RAID-Level 10 zum Einsatz, bei dem die Daten einer Festplattengruppe auf eine zweite, gleich große Gruppe kopiert werden. Man spricht hier auch von Spiegelung. Der Nachteil dieses Verfahrens ist die schlechte Speicherausbeute: Pro gespeichertem Bit wird ein weiteres Bit für die Redundanz aufgewendet. Anders ausgedrückt: Man verliert 50 Prozent der eingekauften Speichermenge. Demgegenüber bieten die häufig verwendeten RAID-Level 5 und 6 zwar eine bessere Kosten-Nutzen-Ratio, haben jedoch deutliche Nachteile in puncto Schreibgeschwindigkeit.
Warum aber wird die seit vielen Jahren erfolgreich eingesetzte Technologie RAID 5 und 6 in neuen Speichersystemen bald nicht mehr zum Einsatz kommen? Die kurze, nicht-technische Antwort lautet: konstruktionsbedingt.
RAID 5 und 6 erreichen ihre Redundanz über das rechenintensive, komplexe Verfahren der verteilten Parität auf Block-Ebene. Dabei wird aus den Nutzdaten zunächst die Parität gebildet, eine Art Quersumme, und diese dann zyklisch über alle Festplatten verteilt abgelegt. Anhand dieser Paritätsinformationen ist das Array in der Lage, den Ausfall einer beliebigen einzelnen (RAID 5) oder zweier (RAID 6) Festplatten zu kompensieren. Auch einzelne beschädigte Datenblöcke können mithilfe der Paritätsinformation wiederhergestellt werden.
Nach dem Ausfall einer Festplatte verliert das Speichersystem seinen Redundanz-Status. Ersetzt man nun die defekte Disk durch eine neue, setzt das Array zum sogenannten Rebuild an. Dabei werden aus den Paritätsinformationen die verlorengegangenen Daten wiederhergestellt. Dieser Vorgang ist allerdings sehr rechen- und zeitintensiv. Das Array wird während eines Rebuilds stark belastet, was dazu führt, dass der Datendurchsatz drastisch sinkt. Deutlich spürbare Performanceeinbußen bis hin zu Service-Unterbrechungen sind die Folge.
Und genau darin liegt das Problem.
1987, als RAID an der University of California in Berkeley vorgestellt wurde, waren Festplatten maximal einige hundert Megabyte groß. Seitdem ist die Speicherkapazität um das 30.000-fache gestiegen, die Schreib-/Lesegeschwindigkeit hat sich jedoch nur verzehn- bis verhundertfacht. Dauerte damals das Kopieren des gesamten Festplatteninhalts nur wenige Minuten, vergeht heute bei einer aktuellen 10-Terabyte-Harddisk ein ganzer Tag.
Wegen des komplexen Verfahrens der verteilten Parität können bei Low-Cost-Speichersystemen im ungünstigsten Fall mehrere Tage verstreichen, bis ein Rebuild abgeschlossen ist. Performanceeinbußen über mehrere Tage mit Service-Unterbrechungen? Im Business-Umfeld ein absolutes No-Go.
Erschwerend kommt hinzu, dass keine Festplatte „unfehlbar“ ist, im Gegenteil: Die Hersteller beziffern in ihren Datenblättern genau die Eintrittswahrscheinlichkeit eines nicht korrigierbaren Lesefehlers (engl. „URE“). Heutige SATA-Festplatten haben für gewöhnlich eine Fehlerrate von 1 zu 10^14, statistisch gesehen tritt umgerechnet alle 12 Terabyte ein URE auf. Bei einem RAID5-Verbund aus sieben 2TB-Festplatten verbleiben bei einem Ausfall sechs Platten – mit einer Wahrscheinlichkeit von 62 Prozent kommt es beim Rebuild zu einem nicht korrigierbaren Lesefehler, wonach die Wiederherstellung abbricht. Im Neuzustand, wohlgemerkt. Die URE-Rate verschlechtert sich mit zunehmender Festplatten-Lebensdauer.
Haben Sie immer noch ein gutes Gefühl, was die Zuverlässigkeit Ihres Speichersystems angeht?
Dem Dilemma versuchen Hersteller und Anwender durch eine erhöhte Redundanz (RAID 6), niedrigere URE-Raten (10^15) und Hot-Spare-Laufwerke zu entkommen. Letztlich erkauft man sich über diese Materialschlacht nur Zeit, das eigentliche Problem aber bleibt. Um sicherzugehen, setzt man auf SAS-Laufwerke, die URE-Raten von 10^16 bieten und somit einen Lesefehler während eines Rebuilds nahezu ausschließen. Der Preis pro Gigabyte liegt hier allerdings um ein Mehrfaches über den günstigeren und langsameren SATA-Laufwerken. Daher verbleibt als wirtschaftlichste Alternative nur noch ein RAID-10-Verbund. Hier muss nach dem Ausfall einer Festplatte keine aufwendige Wiederherstellung über das Rückrechnen der Parität erfolgen. Der größte Pluspunkt: Ein RAID-10-Verbund verliert nach dem Ausfall einer Festplatte zwar seine Redundanz, jedoch nur unmerklich an Performance. Nachteilig sind allein die höheren Anschaffungskosten.
Wer nach Alternativen sucht, die keine der Limitierungen von RAID 5 oder 6 aufweisen, wird bei den großen Herstellern fündig. NetApp beispielsweise hat das Konzept der Dynamic Disk Pools (DDP) entwickelt. Vereinfacht ausgedrückt handelt es sich um eine Weiterentwicklung von RAID 6, allerdings teilt man die Festplatten in logische Einheiten auf und legt die Daten im Verhältnis 80 Prozent Nutzdaten zu 20 Prozent Redundanzinformationen über den gesamten Plattenverbund verteilt ab. Dadurch verkürzen sich die Rebuild-Zeiten auf ein Achtel. HPE geht mit 3PAR RAID MP einen ähnlichen Weg, bietet mit „Fast RAID 5“ und „Fast RAID 6“ sogar mehrere Redundanz-Level, in denen man jeweils noch den Anteil der Redundanzinformationen von 2+1 bis 8+1 wählen kann (N+1, wobei N der Anzahl der Datenblöcke pro Paritätsblock entspricht). Nahezu alle großen Hersteller haben ähnliche Verfahren entworfen, weshalb wir auf die Unterschiede nicht weiter eingehen wollen.
Natürlich kauft man mit einem Marken-Speichersystem mehr als nur eine Weiterentwicklung der bekannten RAID-Level ein: Die Lösungen beinhalten inzwischen unverzichtbar gewordene Funktionen wie Thin Provisioning, Storage Snapshots, Deduplikation, automatisches Storage-Tiering oder Online-Kapazitätserweiterung. Die geforderte 24/7-Verfügbarkeit der Unternehmens-IT fußt nicht zuletzt auf einem sehr agilen Speichersystem.
Dennoch hinterlässt die Preispolitik der etablierten Speicherhersteller einen faden Beigeschmack bei den Kunden.
Es sind nicht nur die zuvor erwähnten, hohen Supportaufwendungen, sondern auch die Investitionskosten, die die Speichersysteme nach den ERP-Kosten zur zweitteuersten Einzelposition im IT-Budget werden lassen. Bei vielen Anbietern müssen die oben genannten Funktionen Storage-Tiering, Replikation usw. separat und teilweise sogar pro Terabyte lizenziert werden. Ein weiterer Preistreiber ist der Umstand, dass man ausschließlich Festplatten und SSDs des jeweiligen Speicherherstellers verwenden kann, auch wenn es sich unter der Haube um umetikettierte Ware eines der drei weltweit verbliebenen Festplattenhersteller Western Digital, Toshiba oder Seagate handelt. Der Preisaufschlag für den neuen Aufkleber auf der Platte ist mit zum Teil mehreren hundert Prozent beachtlich, aber letztlich erforderlich, will man den Hersteller-Support in Anspruch nehmen. Bei mehreren Dutzend HDDs oder SSDs kommt schnell ein veritables sechsstelliges Sümmchen zusammen.
Bei vielen Anwendern explodiert der Speicherbedarf: Immer neue Anwendungen sollen bereitgestellt werden. Noch zu wenig darf oder soll schon heute in die Cloud, die die hauseigene IT-Infrastruktur entlasten könnte. Das Internet der Dinge („IoT“), Industrie 4.0 und die einhergehende Schwemme an unstrukturierten Daten befeuern das Speicherwachstum in absehbarer Zukunft noch zusätzlich.
Darum sind in den letzten Jahren, vornehmlich durch die Open-Source-Gemeinde und die Cloud getrieben, mit „Software Defined Storage“ bzw. „Scale-Out-Speicher“ neue, interessante Alternativen zu den Speicherlösungen der Markenhersteller erschienen. Das Modell hinter Software Defined Storage (SDS) ist simpel und einleuchtend zugleich: Man trennt die Speicherverwaltung, also die Software, von der Hardware und ermöglicht dadurch den Einsatz von beliebigen Hardwarekomponenten, die nur einen Bruchteil des Budgets im Vergleich zu den Markenhersteller-Lösungen verschlingen. Zusätzliche Kapazität schafft man nicht über ein weiteres Festplatten-Gehäuse („Scale-Up“), sondern durch den Einbau eines zusätzlichen Speicherknotens („Scale-Out“).
Auch geschäftskritische Applikationen lassen sich auf diesem Wege bereitstellen, denn trotz Open-Source-Basis gibt es eine Vielzahl von kommerziellen Supportangeboten, die ähnliche Servicelevels bieten wie die klassischen Speicherhersteller. Auf SDS und Scale-Out-Storage werden wir in einem kommenden Blogbeitrag näher eingehen.
Fazit:
Kleinere Mittelständler, die heute kein zentrales Speichersystem einsetzen, brauchen dies auch morgen nicht zu tun. Allerdings ist es ratsam, den in den Servern lokal verbauten Speicher nicht mehr mit RAID 5 oder 6, sondern mit RAID 10 bereitzustellen. Der nächste Server-Austausch kommt bestimmt und ist eine prima Gelegenheit dazu.
Nutzer preisgünstiger, auf klassischem RAID 5 oder 6 aufsetzender Netzwerk-Speicherlösungen sollten ein Downsizing in Betracht ziehen. Alternativ könnte eine preisgünstige kommerzielle oder Open-Source-SDS-Lösung zum Einsatz kommen.
Größere Mittelständler, die heute ein Speichernetzwerk mit mehreren Arrays betreiben, werden oftmals der vertrieblichen Argumentation ihres jetzigen Storage-Herstellers folgen, der geschickt mit den Ängsten der Kunden spielt und das Bild einer inhomogenen, schwer zu verwaltenden und störanfälligen Speicherarchitektur zeichnet. Stattdessen solle man lieber auf eine Lösung aus einem Guss setzen: Einige Speicherhersteller sind nämlich selbst auf den SDS- und Scale-Out-Zug aufgesprungen und bieten passende Lösungen; der preisliche „Premium-Aufschlag“ bleibt jedoch, und die Abhängigkeit vom Hersteller nimmt weiter zu.
Um nicht missverstanden zu werden: Dieses Vorgehen ist nicht per se verkehrt. In Ermangelung eigener Skills, bei unterbesetzter IT-Mannschaft, ohne regionale Unterstützung durch einen Systemintegrator oder bei Kompatibilitätsfragen die unternehmenskritischen Applikationen betreffend ist der Premiumhersteller-Preisaufschlag nicht selten sogar sehr gut investiertes Geld.
Immer mehr größere Mittelständler erkennen jedoch die Vorzüge, die eine offene Plattform bietet und migrieren ihr Speichernetzwerk in Richtung Software-Defined und Scale-Out-Storage. Die großen Speicheranwender, also die Amazons, Facebooks, Googles und Microsofts dieser Welt, machen es vor. Was bei denen gut und günstig ist, kann im Mittelstand so schlecht nicht sein.
Zugegeben: Nicht jede Lösung eignet sich für jeden Bedarf. Daher ist es umso wichtiger, dass man die Geschäftsanforderungen an die Speicher-Infrastruktur so exakt wie möglich definiert, bevor man sich für die nächsten Jahre festlegt. Denn eines ist sicher: Die dynamische Bereitstellung schnellen, kostengünstigen und zuverlässigen Speichers wird auch morgen auf der Anforderungsliste der Anwender ganz oben stehen.