RAID Datenrettung

Aus Thomas-Krenn-Wiki
Wechseln zu: Navigation, Suche

In bestimmten Fällen - etwa beim Ausfall mehrerer Festplatten - kann es auch bei RAID-Systemen zu Datenverlust kommen. Dieser Artikel zeigt Symptome eines (bevorstehenden) Datenverlustes, die Gefahren welche zu einem Datenverlust führen können sowie Hinweise zum richtigen Verhalten im Ernstfall.

Partnerbeitrag von Attingo Datenrettung

Symptome: (bevorstehender) Datenverlust

Adaptec RAID BIOS mit einer ausgefallenen Festplatte
  • Eine oder mehrere Festplatten sind ausgefallen: Je nach RAID-Level befindet sich das RAID nach dem Ausfall einer oder mehrerer Festplatten im degraded- oder offline-Modus. Degraded bedeutet, dass das RAID noch funktionstüchtig ist, jedoch nicht mehr "optimal" (alle Platten sind korrekt im Verbund) ist. Die defekten Festplatten müssen ausgetauscht werden, danach wird ein sogenannter Rebuild durchgeführt.
    Im Offlinemodus sind zu viele Festplatten ausgefallen. Der RAID-Controller kann somit keine Daten mehr liefern, es liegt nicht mehr ausreichend Redundanz vor. Ein Datenretter muss gerufen werden, um professionell zu helfen.
  • Langsamerer Zugriff: Wenn Festplatten in einem RAID-Verbund ausgefallen sind, dieser aber noch nicht offline ist, sinkt die Performance oft massiv. Somit ist in diesem Fall eine Kontrolle des RAIDs empfehlenswert.
  • Der RAID-Controller oder die Monitoring-Software zeigt Fehlermeldungen wie
    • RAID degraded
    • RAID offline
    • RAID SUB-Optimal
    • RAID critical
    • DISK failed
    • Drive missing
In allen Fällen liegt ein Defekt mindestens eines Datenträgers - sei es nun Festplatte oder SSD - vor.

Gefahren

Korrektes Verhalten im Ernstfall ermöglicht in vielen Fällen die professionelle Datenrettung wie hier bei Attingo.
  • Rebuild-Vorgang
    Hierbei handelt es sich um die größte Gefahr. Während des normalen Betriebs werden in der Regel nur wenige Bereiche des RAIDs benötigt (z.B. die mit aktuellen Dokumenten oder Datenbanken). Bei einem Rebuild müssen alle Sektoren aller verbleibenden Festplatten im Verbund vollständig gelesen werden, damit die Daten für die getauschte Platte berechnet werden können. Die Wahrscheinlichkeit, dass eine weitere Festplatte bei diesem Prozess ausfällt, ist überdurchschnittlich hoch. Die Labors von Attingo Datenrettung erhalten laufend RAID-Systeme zur Datenrettung, welche während eines Rebuilds endgültig ausgefallen sind.
  • Idente Festplatten
    In der Regel werden RAID-Systeme mit baugleichen Festplatten aus einer Charge geliefert. Dies soll Performance-Vorteile sowie Stabilitätsvorteile mit sich bringen. Fakt ist jedoch, dass bei einem Ausfall einer dieser Festplatten die Wahrscheinlichkeit hoch ist, dass weitere Festplatten mit demselben Fehlerbild in nächster Zeit ausfallen, ganz nach dem Motto: Selbe Charge, selbe Probleme. Die Ursachen können in der Produktion (Mechanik, Bug in der Firmware, etc.) oder auch im gemeinsamen Transport (Überhitzung auf den Containerschiffen, unsanft transportierte Box, etc.) liegen. Generell sollte darauf geachtet werden, dass die Parameter (Umdrehung, Zugriffszeit, etc.) der Festplatten ident sind, dann kann man auch auf verschiedene Festplatten oder zumindest verschiedene Chargen eines Modells zurückgreifen.
  • Befehl "Force online"
    Dies ist mit Abstand eine der gefährlichsten Operationen bei einem RAID-System. Leider wird sie trotzdem oft vom Support von Server-Herstellern oder RAID-Controllern empfohlen, ist jedoch oft fatal. Gerade wenn mehrere Festplatten ausgefallen sind und das RAID offline ist, empfehlen Hersteller die ausgefallenen Festplatten "online zu forcen". Dies führt oft dazu, dass eine bereits noch früher ausgefallene Festplatte wieder in den Verbund aufgenommen wird. Beim Start des Betriebssystems wird dann aber wegen Inkonsistenzen meist ein Filesystem-Check angefordert (chkdsk, fsck) und in weiterer Folge die Dateisystemstrukturen zerstört. Also: Nie ein "Force online" ausführen wenn wichtige Daten am RAID-System enthalten sind, die nicht gesichert sind.
  • Falscher Datenträger wird getauscht
    Auch beim Tausch einer defekten Festplatten lauern Gefahren. Entweder erwischt man irrtümlich die falsche Festplatte (also ein Datenträger, der in Ordnung ist wird entfernt, dadurch geht das RAID dann offline) oder aber es wird am RAID eine falsche LED "rot" angezeigt (auch das haben wir schon bei verschiedenen Herstellern in unserem Datenrettungslabor erlebt).
  • Firmwareupgrade am RAID-Controller
    In den Dateien "howto.txt" und "readme.txt" wird in der Regel immer darauf hingewiesen, vor dem Firmewareupgrade ein vollständiges Backup zu machen. Jedoch halten sich die wenigsten daran. Viele führen ein Firmwareupgrade aus, als ginge es darum den Autotank vollzutanken. Attingo Datenrettung erlebt sehr oft, dass im Zuge eines Firmwareupgrades Daten verloren gehen. Oft werden RAID-Parameter in einer neuen Firmware geändert und es ist anschließend kein Zugriff mehr möglich.
  • Resize (expand, RAID-Level ändern, etc.)
    So wie ein Firmwareupgrade ist auch ein Resizen von RAIDs bzw. LUNs innerhalb von RAIDs ein sehr gefährlicher Vorgang. Wir vergleichen das Gefahrenlevel immer gerne mit einer Defragmentierung hoch 2. Wiederum gilt: Keinesfalls ohne vollständiges verifiziertes Backup ein Expand, eine Änderung des RAID-Levels oder Ähnliches durchführen.
  • Herstellersupport
    Wider Erwarten ist auch der Herstellersupport von Server-Systemen sowie RAID-Systemen (auch von den Top-Herstellern) eine nicht zu unterschätzende Gefahr: vor allem bei Call-Centern gibt der First-Level-Support häufig Antworten aufgrund einer Frage-Antwort-Liste. Oft bekommen dann Kunden, die bei Herstellern aufgrund eines RAID-Ausfalls angefragt haben, gesagt: löschen Sie einfach das RAID und legen Sie es neu an, dann geht das RAID wieder. Dies gilt zwar für das RAID als Laufwerk, die Daten sind dann aber weg - absolut fatal. Thomas-Krenn verzichtet bewusst auf den Einsatz eines Call-Centers - Sie haben immer direkten Kontakt zu den Thomas-Krenn Server-Experten.
  • Festplattenroulette
    Auch das wahllose Tauschen von Festplatten bei einem RAID-Ausfall ist nie eine Lösung, denn der Schaden wird immer nur noch größer.

Korrektes Verhalten im Ernstfall

Das oberste Gebot lautet: Keine Panikreaktionen! Reagieren Sie nicht unüberlegt! Die Gefahr, dass der Schaden größer wird, ist sehr hoch. Laut einer Statistik von Attingo wird der Schaden bei ausgefallenen RAID-Systemen in über 80% der Fälle durch falsche Aktionen nach dem eigentlichen Ausfall vergrößert. Auch wenn aufgrund des Stillstandes ein massiver Druck herrscht, ein falscher Knopfdruck kann eine Datenrettung deutlich erschweren oder im schlimmsten Fall nur noch teilweise möglich machen. Holen Sie lieber vorher den Rat von Attingo Datenrettung ein und beachten Sie die wichtigen Informationen bei Datenverlust.

Präventives Monitoring

Monitoring ist beim Einsatz eines RAID-Systems unerlässlich, da sonst der Ausfall einer Festplatte nicht bemerkt wird. SNMP, automatische Mail-Benachrichtigung und/oder regelmäßige Sichtprüfung sind notwendig. Weiters ist eine laufende Kontrolle der Betriebssystem-Logs zu empfehlen (z.B. Windows Ereignisanzeige oder Linux Logs).

Mit TKmon können Sie mit den folgenden Monitoring-Plugins Ihre RAID-Systeme übrigens automatisch überwachen:

Vorbeugung von Datenverlust

RAID-Datenrettung im Labor von Attingo
  • Höhere Redundanz: Bei einem RAID6 statt eines RAID5 dürfen zwei Festplatten statt nur einer ausfallen.
  • Einsatz von Spare Festplatte(n): Sind Spare-Festplatten in einem RAID-System vorhanden, wird bei einem Ausfall einer Platte das RAID sofort auf die Spare-Festplatte rebuildet, ohne dass eine Festplatte ausgetauscht werden muss. Der Einsatz von Spare-Festplatten ist somit jedenfalls empfehlenswert.
  • Vollständiges Backup vor Resize oder Firmewareupgrades.
  • Eine generelle Backup-Strategie, deren Funktion auch regelmäßig verifiziert wird.

Weitere Informationen


Foto Attingo Datenrettung.jpg

Autor: Attingo Datenrettung

Attingo Datenrettung ist führender europäischer Anbieter von Datenrettungen. Eine Datenrettung umfasst die Rekonstruktion von Daten, die durch Löschung, Formatierung, technischen Defekt, Manipulation, Sabotage oder mechanische Einflüsse wie Wasser oder Feuer beeinträchtigt wurden. Das Unternehmen betreibt dazu modernste Reinraumlabors in Wien, Hamburg und Amsterdam und verfügt über Experten mit jahrelanger Erfahrung. Die Prozessabläufe der Attingo Datenrettung sind nach ISO 9001:2015 zertifiziert und werden regelmäßig durch Bureau Veritas überwacht. Attingo ist in Notfällen für seine Kunden 24 Stunden an 7 Tagen die Woche zu erreichen: +49 40 54 88 75 60 oder +43 1 236 01 01


Das könnte Sie auch interessieren

Wartung der Battery Backup Unit (BBU/BBM) bei RAID-Controllern
Western Digital WDxxxxYS Firmware Update
Windows Installation auf einem Adaptec RAID Controller im UEFI-Modus