Wartung der Battery Backup Unit (BBU/BBM) bei RAID-Controllern

Aus Thomas-Krenn-Wiki
Wechseln zu: Navigation, Suche
Beispiel einer BBU von LSI für 3Ware 9750 / LSI 9261 / LSI 9260 Controller (LSIiBBU07).

Moderne RAID-Controller haben zur Steigerung der Performance Caches integriert. Ohne entsprechende Schutzmechanismen geht der Inhalt dieses Caches aber bei einem Stromausfall, der während des laufenden Serverbetriebs passiert, verloren. Oft wird daher der Cache-Inhalt durch eine BBU/BBM geschützt (je nach Hersteller wird der Begriff Battery Backup Unit oder Battery Backup Module verwendet). Damit die BBU aber bei Stromausfall tatsächlich korrekt funktioniert ist eine korrekte Wartung notwendig. Ohne dieser Wartung droht im schlimmsten Falle ein vollständiger Datenverlust bei einem Stromausfall.

Hinweis: Bei RAID-Controllern, die zum Cache-Schutz Kondensator-gestützte Flashmodule anstelle von herkömmlichen BBUs verwenden ist keine spezielle Wartung des Cache-Schutzes erforderlich (z.B. Adaptec ZMCP oder LSI CacheVault). Bei diesen Technologien wird der Cache-Inhalt bei einem Stromausfall auf einen Flash-Speicher kopiert.

Grundlagen der Wartung der BBU/BBM

Eine BBU besteht immer aus zwei Komponenten:

  • einer Elektronik zur Steuerung und Kommunikation mit dem RAID-Controller
  • einem Akku

Der Akku wird bei der ersten Inbetriebnahme vollständig geladen. Durch Selbstentladung verliert der Akku jedoch einen Teil seiner gespeicherten Energie. Daher wird er automatisch regelmäßig nachgeladen.

Kapazitätsverslust

Im Laufe der Zeit verliert der Akku an Kapazität (die maximale speicherbare Engergiemenge nimmt also ab). Dieses Verhalten ist auch von Akkus für Notebooks bekannt. Bei einem neuen Notebook mit neuem Akku beträgt die mögliche Akku-Laufzeit z.B. drei Stunden. Nach drei Jahren in Verwendung hält der voll aufgeladene Notebook Akku aber z.B. nur mehr 40 Minuten.

Hersteller von RAID-Controllern geben meist eine Nutzungsdauer von ein bis fünf Jahren für die Akkus der BBU an. Die tatsächliche Lebensdauer hängt von mehreren Faktoren (Umgebungstemperatur, Anzahl Lade/Entladezyklen, etc.) ab. Wenn nach mehreren Jahren der Akku nur mehr eine sehr geringe Kapazität hat, kann dieser den Cache-Inhalt bei einem Stromausfall nur mehr für wenige Minuten sichern (selbst wenn der Akku vollgeladen ist). Der Akku ist also ein Verschleißteil. Sein Zustand soll regelmäßig überprüft werden. Bei zu geringer Akku-Kapazität ist ein Austausch des Akkus oder der ganzen BBU notwendig um bei einem Stromausfall einen Datenverlust zu vermeiden.

Überbrückungsdauer

Auch ein neuer Akku mit hoher Kapazität kann bei einem Stromausfall nur für eine begrenzte Zeitdauer den Cache-Inhalt halten (typischerweise 72 Stunden). Sollte der Stromausfall mehrere Tage dauern, kann es trotz neuem Akku zu einem Verlust des Cache-Inhaltes kommen.

Beispiele

LSI RAID Controller

Für LSI RAID Controller kann der "MegaRAID Storage Manager" zur Verwaltung verwendet werden. Die Kapazität der BBU kann in der Software unter "Physical -> BBU -> Properties" aufgerufen werden:

BBU Status MegaRAID Storage Manager.jpg

3ware RAID Controller

3ware bietet bei seinen RAID-Controllern die Möglichkeit einen sogenannten "Battery Test" durchzuführen[1]. Dieser Test dient dazu die genaue Kapazität des Akkus zu bestimmen und damit einen Schätzwert für die mögliche Überbrückungsdauer bei einem Stromausfall zu ermitteln.

Ziel dieses Tests ist die Bestimmung eines möglichst genauen Schätzwertes. Dazu wird der Akku zuerst vollständig nachgeladen. Anschließend beginnt ein vollständiger Entlade-Zyklus. Nach Ende dieses Tests wird der Akku wieder automatisch vollständig geladen. Der ganze Vorgang dauert typischerweise zwischen acht und zwölf Stunden. 3ware empfiehlt den Test alle vier Wochen durchzuführen.

Wichtiger Hinweis: während der gesamten Dauer des Tests und des anschließenden Wieder-Aufladens des Akkus wird der Cache des RAID-Controllers deaktiviert! Da es dadurch zu einer Performance-Einschränkung kommt, soll dieser Test nur zu Zeiten mit geringer Last durchgeführt werden.

Der Zustand der BBU kann z.B. über das 3ware CLI abgefragt werden:

root@testserver:~# tw_cli /c0 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-1    OK             -       -       -       34.4482   ON     OFF   
u1    SPARE     OK             -       -       -       34.4684   -      OFF   

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     OK               u0     34.47 GB    72303840      WD-WMANT1051720    
p1     OK               u0     34.47 GB    72303840      WD-WMANT1051894    
p2     OK               u1     34.47 GB    72303840      WD-WMAKH1083404    
p3     NOT-PRESENT      -      -           -             -

Name  OnlineState  BBUReady  Status    Volt     Temp     Hours  LastCapTest
---------------------------------------------------------------------------
bbu   On           Yes       OK        OK       OK       255    06-Apr-2009 

root@testserver:~#

Weitere Informationen zu den möglichen BBU Zuständen von 3ware RAID Controllern finden Sie im Artikel 3ware BBU Status und deren Auswirkungen auf Cache Einstellungen.

Adaptec RAID Controller

Bei Adaptec RAID Controllern kann der Zustand des Akkus ebenfalls abgefragt werden. Dabei stehen folgende Möglichkeiten zur Verfügung:

  • Abfrage über das Adaptec CLI arcconf
  • Abfrage über den Adaptec Storage Manager (ASM)
  • Abfrage über das BIOS des RAID Controllers

Solange die Kapazität des Akkus zumindest für 24 Stunden bei einem Stromausfall den Cache-Inhalt erhalten kann bleibt der Cache des RAID-Controllers im write-back Modus (also aktiv). Bei geringerer Kapazität wird der Cache in write-through Modus gesetzt (sofern der Cache des jeweiligen logical drives nicht permanent - also unabhängig vom Zustand der BBU - auf den write-back Modus gesetzt ist).

Status-Zustand Optimal

Abfrage über das Adaptec CLI:

In der Ausgabe von arcconf GETCONFIG 1 AD sind die letzten Zeilen (Bereich unterhalb von Controller Battery Information) relevant:

linux-k3oa:~ # /usr/StorMan/arcconf GETCONFIG 1 AD
Controllers found: 1
----------------------------------------------------------------------
Controller information
----------------------------------------------------------------------
   Controller Status                        : Optimal
   Channel description                      : SAS/SATA
   Controller Model                         : Adaptec 5805
   Controller Serial Number                 : 8C35109557F
   Physical Slot                            : 6
   Temperature                              : 70 C/ 158 F (Normal)
   Installed memory                         : 512 MB
   Copyback                                 : Disabled
   Background consistency check             : Disabled
   Automatic Failover                       : Enabled
   Global task priority                     : High
   Performance Mode                         : Default/Dynamic
   Stayawake period                         : Disabled
   Spinup limit internal drives             : 0
   Spinup limit external drives             : 0
   Defunct disk drive count                 : 0
   Logical devices/Failed/Degraded          : 2/0/0
   --------------------------------------------------------
   Controller Version Information
   --------------------------------------------------------
   BIOS                                     : 5.2-0 (16343)
   Firmware                                 : 5.2-0 (16343)
   Driver                                   : 1.1-5 (2456)
   Boot Flash                               : 5.2-0 (16343)
   --------------------------------------------------------
   Controller Battery Information
   --------------------------------------------------------
   Status                                   : Optimal
   Over temperature                         : No
   Capacity remaining                       : 99 percent
   Time remaining (at current draw)         : 3 days, 7 hours, 16 minutes


Command completed successfully.
linux-k3oa:~ #

Abfrage über den Adaptec Storage Manager (ASM):

Adaptec-bbu-status-asm.png

Abfrage über das BIOS des RAID Controllers:

Adaptec-bbu-status-bios.png

Status-Zustand Charging

Hier ist im Vergleich zum obigen System die Time remaining noch geringer, da der Akku noch nicht vollständig geladen ist:

linux-kfqr:~ # /usr/StorMan/arcconf GETCONFIG 1 AD
Controllers found: 1
----------------------------------------------------------------------
Controller information
----------------------------------------------------------------------
   Controller Status                        : Optimal
   Channel description                      : SAS/SATA
   Controller Model                         : Adaptec 5805
   Controller Serial Number                 : 8C3510954C9
   Physical Slot                            : 6
   Temperature                              : 71 C/ 159 F (Normal)
   Installed memory                         : 512 MB
   Copyback                                 : Disabled
   Background consistency check             : Disabled
   Automatic Failover                       : Enabled
   Global task priority                     : High
   Performance Mode                         : Default/Dynamic
   Stayawake period                         : Disabled
   Spinup limit internal drives             : 0
   Spinup limit external drives             : 0
   Defunct disk drive count                 : 0
   Logical devices/Failed/Degraded          : 2/0/0
   --------------------------------------------------------
   Controller Version Information
   --------------------------------------------------------
   BIOS                                     : 5.2-0 (16343)
   Firmware                                 : 5.2-0 (16343)
   Driver                                   : 1.1-5 (2456)
   Boot Flash                               : 5.2-0 (16343)
   --------------------------------------------------------
   Controller Battery Information
   --------------------------------------------------------
   Status                                   : Charging
   Over temperature                         : No
   Capacity remaining                       : 73 percent
   Time remaining (at current draw)         : 2 days, 10 hours, 57 minutes


Command completed successfully.
linux-kfqr:~ # 

weitere Status-Zustände

Weitere mögliche Status-Zustände sind:

  • Not Installed
  • Failed

Areca RAID Controller

Auch Areca bietet die Möglichkeit den Zustand über das CLI abzufragen:

[root@testserver ~]# ./cli64 hw info
Physical Hardware Information
The Hardware Monitor Information
===========================================
Fan#1 Speed (RPM)   : 2673
Battery Status      : 100%
HDD #1  Temp.       : 0
HDD #2  Temp.       : 0
HDD #3  Temp.       : 0
HDD #4  Temp.       : 0
===========================================
GuiErrMsg<0x00>: Success.
[root@testserver ~]#

Areca beschreibt in der Dokumentation folgende Vorgehensweise zum Überprüfen der korrekten BBM Funktionalität[2] (wir empfehlen diese Vorgehensweise aber nur für Test-Systeme - bei Produktiv-Systemen empfehlen wir im Zweifel den Akku besser einfach zu ersetzen):

  1. Schreiben einer großen Datei, z.B. 5 GByte.
  2. Unmittelbar nach Ende des Schreibvorgangs das System durch Ziehen der Stromstecker hart abschalten.
  3. Überprüfen des BBM Status - die BBM soll nun alle paar Sekunden piepsen.
  4. System wieder hochfahren und mittels Tab oder F6 Taste in das Controller BIOS wechseln.
  5. Überprüfen des Controller Event Log im Controller BIOS. Hier sollte ein Hinweis controller boot up with power recovered aufscheinen.

Wie oben erwähnt raten wir bei Produktivsystemen von dieser Testmethode ab.

Referenzen

  1. 3ware SAS/SATA RAID Software User Guide Seite 203 (Kapitel Testing Battery Capacity)
  2. Areca SATA RAID Cards USER Manual Seite 144 (Kapitel Battery Functionality Test Procedure)


Foto Werner Fischer.jpg

Autor: Werner Fischer

Werner Fischer, tätig im Bereich Communications / Knowledge Transfer bei Thomas-Krenn, hat sein Studium zu Computer- und Mediensicherheit an der FH Hagenberg abgeschlossen. Er ist regelmäßig Autor in Fachzeitschriften und Speaker bei Konferenzen wie LinuxCon, OSDC, OSMC, LinuxTag u.v.m. Seine Freizeit gestaltet er sehr abwechslungsreich. In einem Moment absolviert er seinen Abschluss im Klavierspielen, im anderen läuft er beim Linzmarathon in der Staffel mit oder interessiert sich für OpenStreetMap.


Das könnte Sie auch interessieren

ClickBIOS
Verify / Consistency Check manuell starten
Windowspartition auf einem RAID größer 2TB erstellen