Wartung der Battery Backup Unit (BBU/BBM) bei RAID-Controllern
Hinweis: Bitte beachten Sie, dass dieser Artikel / diese Kategorie sich entweder auf ältere Software/Hardware Komponenten bezieht oder aus sonstigen Gründen nicht mehr gewartet wird. Diese Seite wird nicht mehr aktualisiert und ist rein zu Referenzzwecken noch hier im Archiv abrufbar. |
---|
Moderne RAID-Controller haben zur Steigerung der Performance Caches integriert. Ohne entsprechende Schutzmechanismen geht der Inhalt dieses Caches aber bei einem Stromausfall, der während des laufenden Serverbetriebs passiert, verloren. Oft wird daher der Cache-Inhalt durch eine BBU/BBM geschützt (je nach Hersteller wird der Begriff Battery Backup Unit oder Battery Backup Module verwendet). Damit die BBU aber bei Stromausfall tatsächlich korrekt funktioniert ist eine korrekte Wartung notwendig. Ohne dieser Wartung droht im schlimmsten Falle ein vollständiger Datenverlust bei einem Stromausfall.
Hinweis: Bei RAID-Controllern, die zum Cache-Schutz Kondensator-gestützte Flashmodule anstelle von herkömmlichen BBUs verwenden ist keine spezielle Wartung des Cache-Schutzes erforderlich (z.B. Adaptec ZMCP oder LSI CacheVault). Bei diesen Technologien wird der Cache-Inhalt bei einem Stromausfall auf einen Flash-Speicher kopiert.
Grundlagen der Wartung der BBU/BBM
Eine BBU besteht immer aus zwei Komponenten:
- einer Elektronik zur Steuerung und Kommunikation mit dem RAID-Controller
- einem Akku
Der Akku wird bei der ersten Inbetriebnahme vollständig geladen. Durch Selbstentladung verliert der Akku jedoch einen Teil seiner gespeicherten Energie. Daher wird er automatisch regelmäßig nachgeladen.
Kapazitätsverslust
Im Laufe der Zeit verliert der Akku an Kapazität (die maximale speicherbare Engergiemenge nimmt also ab). Dieses Verhalten ist auch von Akkus für Notebooks bekannt. Bei einem neuen Notebook mit neuem Akku beträgt die mögliche Akku-Laufzeit z.B. drei Stunden. Nach drei Jahren in Verwendung hält der voll aufgeladene Notebook Akku aber z.B. nur mehr 40 Minuten.
Hersteller von RAID-Controllern geben meist eine Nutzungsdauer von ein bis fünf Jahren für die Akkus der BBU an. Die tatsächliche Lebensdauer hängt von mehreren Faktoren (Umgebungstemperatur, Anzahl Lade/Entladezyklen, etc.) ab. Wenn nach mehreren Jahren der Akku nur mehr eine sehr geringe Kapazität hat, kann dieser den Cache-Inhalt bei einem Stromausfall nur mehr für wenige Minuten sichern (selbst wenn der Akku vollgeladen ist). Der Akku ist also ein Verschleißteil. Sein Zustand soll regelmäßig überprüft werden. Bei zu geringer Akku-Kapazität ist ein Austausch des Akkus oder der ganzen BBU notwendig um bei einem Stromausfall einen Datenverlust zu vermeiden.
Überbrückungsdauer
Auch ein neuer Akku mit hoher Kapazität kann bei einem Stromausfall nur für eine begrenzte Zeitdauer den Cache-Inhalt halten (typischerweise 72 Stunden). Sollte der Stromausfall mehrere Tage dauern, kann es trotz neuem Akku zu einem Verlust des Cache-Inhaltes kommen.
Beispiele
LSI RAID Controller
Für LSI RAID Controller kann der "MegaRAID Storage Manager" zur Verwaltung verwendet werden. Die Kapazität der BBU kann in der Software unter "Physical -> BBU -> Properties" aufgerufen werden:
3ware RAID Controller
3ware bietet bei seinen RAID-Controllern die Möglichkeit einen sogenannten "Battery Test" durchzuführen[1]. Dieser Test dient dazu die genaue Kapazität des Akkus zu bestimmen und damit einen Schätzwert für die mögliche Überbrückungsdauer bei einem Stromausfall zu ermitteln.
Ziel dieses Tests ist die Bestimmung eines möglichst genauen Schätzwertes. Dazu wird der Akku zuerst vollständig nachgeladen. Anschließend beginnt ein vollständiger Entlade-Zyklus. Nach Ende dieses Tests wird der Akku wieder automatisch vollständig geladen. Der ganze Vorgang dauert typischerweise zwischen acht und zwölf Stunden. 3ware empfiehlt den Test alle vier Wochen durchzuführen.
Wichtiger Hinweis: während der gesamten Dauer des Tests und des anschließenden Wieder-Aufladens des Akkus wird der Cache des RAID-Controllers deaktiviert! Da es dadurch zu einer Performance-Einschränkung kommt, soll dieser Test nur zu Zeiten mit geringer Last durchgeführt werden.
Der Zustand der BBU kann z.B. über das 3ware CLI abgefragt werden:
root@testserver:~# tw_cli /c0 show Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy ------------------------------------------------------------------------------ u0 RAID-1 OK - - - 34.4482 ON OFF u1 SPARE OK - - - 34.4684 - OFF Port Status Unit Size Blocks Serial --------------------------------------------------------------- p0 OK u0 34.47 GB 72303840 WD-WMANT1051720 p1 OK u0 34.47 GB 72303840 WD-WMANT1051894 p2 OK u1 34.47 GB 72303840 WD-WMAKH1083404 p3 NOT-PRESENT - - - - Name OnlineState BBUReady Status Volt Temp Hours LastCapTest --------------------------------------------------------------------------- bbu On Yes OK OK OK 255 06-Apr-2009 root@testserver:~#
Weitere Informationen zu den möglichen BBU Zuständen von 3ware RAID Controllern finden Sie im Artikel 3ware BBU Status und deren Auswirkungen auf Cache Einstellungen.
Adaptec RAID Controller
Bei Adaptec RAID Controllern kann der Zustand des Akkus ebenfalls abgefragt werden. Dabei stehen folgende Möglichkeiten zur Verfügung:
- Abfrage über das Adaptec CLI
arcconf
- Abfrage über den Adaptec Storage Manager (ASM)
- Abfrage über das BIOS des RAID Controllers
Solange die Kapazität des Akkus zumindest für 24 Stunden bei einem Stromausfall den Cache-Inhalt erhalten kann bleibt der Cache des RAID-Controllers im write-back Modus (also aktiv). Bei geringerer Kapazität wird der Cache in write-through Modus gesetzt (sofern der Cache des jeweiligen logical drives nicht permanent - also unabhängig vom Zustand der BBU - auf den write-back Modus gesetzt ist).
Status-Zustand Optimal
Abfrage über das Adaptec CLI:
In der Ausgabe von arcconf GETCONFIG 1 AD
sind die letzten Zeilen (Bereich unterhalb von Controller Battery Information) relevant:
linux-k3oa:~ # /usr/StorMan/arcconf GETCONFIG 1 AD Controllers found: 1 ---------------------------------------------------------------------- Controller information ---------------------------------------------------------------------- Controller Status : Optimal Channel description : SAS/SATA Controller Model : Adaptec 5805 Controller Serial Number : 8C35109557F Physical Slot : 6 Temperature : 70 C/ 158 F (Normal) Installed memory : 512 MB Copyback : Disabled Background consistency check : Disabled Automatic Failover : Enabled Global task priority : High Performance Mode : Default/Dynamic Stayawake period : Disabled Spinup limit internal drives : 0 Spinup limit external drives : 0 Defunct disk drive count : 0 Logical devices/Failed/Degraded : 2/0/0 -------------------------------------------------------- Controller Version Information -------------------------------------------------------- BIOS : 5.2-0 (16343) Firmware : 5.2-0 (16343) Driver : 1.1-5 (2456) Boot Flash : 5.2-0 (16343) -------------------------------------------------------- Controller Battery Information -------------------------------------------------------- Status : Optimal Over temperature : No Capacity remaining : 99 percent Time remaining (at current draw) : 3 days, 7 hours, 16 minutes Command completed successfully. linux-k3oa:~ #
Abfrage über den Adaptec Storage Manager (ASM):
Abfrage über das BIOS des RAID Controllers:
Status-Zustand Charging
Hier ist im Vergleich zum obigen System die Time remaining noch geringer, da der Akku noch nicht vollständig geladen ist:
linux-kfqr:~ # /usr/StorMan/arcconf GETCONFIG 1 AD Controllers found: 1 ---------------------------------------------------------------------- Controller information ---------------------------------------------------------------------- Controller Status : Optimal Channel description : SAS/SATA Controller Model : Adaptec 5805 Controller Serial Number : 8C3510954C9 Physical Slot : 6 Temperature : 71 C/ 159 F (Normal) Installed memory : 512 MB Copyback : Disabled Background consistency check : Disabled Automatic Failover : Enabled Global task priority : High Performance Mode : Default/Dynamic Stayawake period : Disabled Spinup limit internal drives : 0 Spinup limit external drives : 0 Defunct disk drive count : 0 Logical devices/Failed/Degraded : 2/0/0 -------------------------------------------------------- Controller Version Information -------------------------------------------------------- BIOS : 5.2-0 (16343) Firmware : 5.2-0 (16343) Driver : 1.1-5 (2456) Boot Flash : 5.2-0 (16343) -------------------------------------------------------- Controller Battery Information -------------------------------------------------------- Status : Charging Over temperature : No Capacity remaining : 73 percent Time remaining (at current draw) : 2 days, 10 hours, 57 minutes Command completed successfully. linux-kfqr:~ #
weitere Status-Zustände
Weitere mögliche Status-Zustände sind:
- Not Installed
- Failed
Areca RAID Controller
Auch Areca bietet die Möglichkeit den Zustand über das CLI abzufragen:
[root@testserver ~]# ./cli64 hw info Physical Hardware Information The Hardware Monitor Information =========================================== Fan#1 Speed (RPM) : 2673 Battery Status : 100% HDD #1 Temp. : 0 HDD #2 Temp. : 0 HDD #3 Temp. : 0 HDD #4 Temp. : 0 =========================================== GuiErrMsg<0x00>: Success. [root@testserver ~]#
Areca beschreibt in der Dokumentation folgende Vorgehensweise zum Überprüfen der korrekten BBM Funktionalität[2] (wir empfehlen diese Vorgehensweise aber nur für Test-Systeme - bei Produktiv-Systemen empfehlen wir im Zweifel den Akku besser einfach zu ersetzen):
- Schreiben einer großen Datei, z.B. 5 GByte.
- Unmittelbar nach Ende des Schreibvorgangs das System durch Ziehen der Stromstecker hart abschalten.
- Überprüfen des BBM Status - die BBM soll nun alle paar Sekunden piepsen.
- System wieder hochfahren und mittels Tab oder F6 Taste in das Controller BIOS wechseln.
- Überprüfen des Controller Event Log im Controller BIOS. Hier sollte ein Hinweis controller boot up with power recovered aufscheinen.
Wie oben erwähnt raten wir bei Produktivsystemen von dieser Testmethode ab.
Referenzen
- ↑ 3ware SAS/SATA RAID Software User Guide Seite 203 (Kapitel Testing Battery Capacity)
- ↑ Areca SATA RAID Cards USER Manual Seite 144 (Kapitel Battery Functionality Test Procedure)
Autor: Werner Fischer Werner Fischer arbeitet im Product Management Team von Thomas-Krenn. Er evaluiert dabei neueste Technologien und teilt sein Wissen in Fachartikeln, bei Konferenzen und im Thomas-Krenn Wiki. Bereits 2005 - ein Jahr nach seinem Abschluss des Studiums zu Computer- und Mediensicherheit an der FH Hagenberg - heuerte er beim bayerischen Server-Hersteller an. Als Öffi-Fan nutzt er gerne Bus & Bahn und genießt seinen morgendlichen Spaziergang ins Büro.
|