Konserwacja battery backup unit (BBU/BBM) kontrolera RAID

Z Thomas-Krenn-Wiki
Przejdź do nawigacji Przejdź do wyszukiwania
Uwaga: Prosimy zwrócić uwagę, że ten artykuł / kategoria nie jest już aktualizowana, gdyż odnosi się do starszych komponentów oprogramowania / sprzętu.
Ta strona jest nadal dostępna jedynie w celach informacyjnych.

Nowoczesne kontrolery RAID dla zwiększenia ich wydajności wyposażone są w zintegrowany cache. Bez odpowiednich mechanizmów ochronnych jego zawartość w przypadku awarii zasilania ulega utracie. Dlatego zawartość ta często chroniona jest poprzez zastosowanie BBU/BBM (w zależności od producenta stosowane jest Battery Backup Unit lub Battery Backup Module). Jednak aby BBU w przypadku zaniku zasilania spełniło swoje zadanie konieczna jest jego poprawna konserwacja, bez niej ryzyko całkowitej utraty danych jest bardzo wysokie.

Wskazówka: Kontrolery, które do ochrony zawartości cache'a nie wykorzystują BBU lecz jego zawartość w przypadku zaniku zasilania jest kopiowana do pamięci typu flash nie wymagają specjalnej konserwacji pod tym aspektem. Taką funkcjonalność oferują nowe kontrolery Adaptec serii 5Z.

Podstawy konserwacji BBU/BBM

BBU składa się zawsze z dwóch komponentów:

  • elektroniki, której zadaniem jest zarządzanie i komunikacja z kontrolerem RAID
  • akumulatora

Akumulator podczas pierwszego uruchomienia jest całkowicie ładowany. Poprzez samorozładowanie traci on zgromadzoną energię i dlatego jest regularnie doładowywany.

Utrata rzeczywistej pojemności akumulatora

Z czasem akumulator traci na pojemności (maks. możliwa ilość magazynowanej energii maleje). Takie zachowanie znane jest również przy bateriach / akumulatorach notebooków. W przypadku notebooka z nowym akumulatorem zgromadzona w nim energia pozwala np. na 3 godz. pracy, gdy po trzech latach w pełni naładowany akumulator dostarcza energii jedynie na 40 min pracy.

Producenci kontrolerów RAID uwzględniają najczęściej czas eksploatacji akumulatora BBU na, od 1 roku do 5 lat. Rzeczywista żywotność zależy od wielu czynników (temperatura otoczenia, liczba cykli ładowania / rozładowania, itp.). W przypadku gdy po kilku latach eksploatacji pojemność akumulatora jest niska to zawartość cache'a w przypadku zaniku zasilania może być chroniona jedynie przez kilka minut (nawet jeżeli akumulator jest w pełni naładowany). Dlatego stan akumulatora powinien być regularnie kontrolowany. Gdy pojemność akumulatora jest zbyt niska powinien on lub całe BBU zostać wymienione.

Uwaga: w BBU kontrolerów 3Ware możliwa jest wymiana tylko akumulatora, gdy w BBU kontrolerów Adaptec i Areca akumulator jest zintegrowany z elektroniką BBU co oznacza wymianę kompletnego BBU.

Czas podtrzymania

Również nowy o wysokiej pojemności akumulator może w przypadku zaniku zasilania podtrzymać / chronić zawartość cache'a jedynie przez określony czas (zazwyczaj 72 godz.).

Przykłady

Kontroler RAID 3ware

3ware umożliwia w kontrolerach RAID przeprowadzenie tak zwanego "Battery Test"[1]. Test ten sluży dokładnemu określeniu pojemności akumulatora co umożliwia obliczenie przypuszczalnego czasu potrzymania.

Procedura tego testu wygląda następująco. Wpierw akumulator jest całkowicie ładowany. Następnie rozpoczyna się cykl całkowitego rozładowania. Po zakończeniu tego testu akumulator zostaje ponownie automatycznie całkowicie naładowany. Cały proces trwa zazwyczaj pomiędzy 8 a 12 godz. 3Ware zaleca jego regularne przeprowadzanie co 4 tygodnie.

Ważna uwaga: podczas trwania całego testu i następującego całkowitego ładowania akumulatora, cache kontrolera jest wyłączony! Przez co wydajność kontrolera jest ograniczona, dlatego zaleca się przeprowadzanie testu w czasie niższego obciążenia kontrolera.

Stan BBU może zostać skontrolowany np. za pośrednictwem 3ware CLI:

root@testserver:~# tw_cli /c0 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-1    OK             -       -       -       34.4482   ON     OFF   
u1    SPARE     OK             -       -       -       34.4684   -      OFF   

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     OK               u0     34.47 GB    72303840      WD-WMANT1051720    
p1     OK               u0     34.47 GB    72303840      WD-WMANT1051894    
p2     OK               u1     34.47 GB    72303840      WD-WMAKH1083404    
p3     NOT-PRESENT      -      -           -             -

Name  OnlineState  BBUReady  Status    Volt     Temp     Hours  LastCapTest
---------------------------------------------------------------------------
bbu   On           Yes       OK        OK       OK       255    06-Apr-2009 

root@testserver:~#

Dalsze informacje do możliwych stanów BBU kontrolerów RAID 3ware znajdują się w artykule Wpływ statusu BBU na ustawienia cache'u kontrolerów 3ware.

Kontrolery RAID Adaptec

W kontrolerach Adaptec stan akumulatora może również zostać skontrolowany. Przy czym dostępne są następujące możliwości:

  • kontrola za pośrednictwem Adaptec CLI arcconf
  • kontrola za pośrednictwem Adaptec Storage Manager (ASM)
  • kontrola przez BIOS kontrolera RAID

Tak długo jak pojemność akumulatora wystarcza na 24 godz. podtrzymania zawartości cache'a, pozostaje on w trybie write-back (aktywny). Przy niższej pojemności tryb cache'a jest zmieniany w write-through (tak długo jak cache każdego poszczególnego logical drives nie ma na stałe skonfigurowanego trybu write-back - niezależnie od stanu BBU).

Stan Optimal

Adaptec CLI:

W wyniku polecenia arcconf GETCONFIG 1 AD w ostatnich wierszach (obszar poniżej Controller Battery Information) znajdują się relewantne informacje o BBU:

linux-k3oa:~ # /usr/StorMan/arcconf GETCONFIG 1 AD
Controllers found: 1
----------------------------------------------------------------------
Controller information
----------------------------------------------------------------------
   Controller Status                        : Optimal
   Channel description                      : SAS/SATA
   Controller Model                         : Adaptec 5805
   Controller Serial Number                 : 8C35109557F
   Physical Slot                            : 6
   Temperature                              : 70 C/ 158 F (Normal)
   Installed memory                         : 512 MB
   Copyback                                 : Disabled
   Background consistency check             : Disabled
   Automatic Failover                       : Enabled
   Global task priority                     : High
   Performance Mode                         : Default/Dynamic
   Stayawake period                         : Disabled
   Spinup limit internal drives             : 0
   Spinup limit external drives             : 0
   Defunct disk drive count                 : 0
   Logical devices/Failed/Degraded          : 2/0/0
   --------------------------------------------------------
   Controller Version Information
   --------------------------------------------------------
   BIOS                                     : 5.2-0 (16343)
   Firmware                                 : 5.2-0 (16343)
   Driver                                   : 1.1-5 (2456)
   Boot Flash                               : 5.2-0 (16343)
   --------------------------------------------------------
   Controller Battery Information
   --------------------------------------------------------
   Status                                   : Optimal
   Over temperature                         : No
   Capacity remaining                       : 99 percent
   Time remaining (at current draw)         : 3 days, 7 hours, 16 minutes


Command completed successfully.
linux-k3oa:~ #

Kontrola w Adaptec Storage Manager (ASM):

Adaptec-bbu-status-asm.png

Kontrola w BIOS-ie kontrolera RAID:

Adaptec-bbu-status-bios.png

Staus Charging

Tu znajduje się porównanie do powyższego systemu gdzie Time remaining jest jeszcze niższe, gdyż akumulator nie jest jeszcze całkowicie naładowany:

linux-kfqr:~ # /usr/StorMan/arcconf GETCONFIG 1 AD
Controllers found: 1
----------------------------------------------------------------------
Controller information
----------------------------------------------------------------------
   Controller Status                        : Optimal
   Channel description                      : SAS/SATA
   Controller Model                         : Adaptec 5805
   Controller Serial Number                 : 8C3510954C9
   Physical Slot                            : 6
   Temperature                              : 71 C/ 159 F (Normal)
   Installed memory                         : 512 MB
   Copyback                                 : Disabled
   Background consistency check             : Disabled
   Automatic Failover                       : Enabled
   Global task priority                     : High
   Performance Mode                         : Default/Dynamic
   Stayawake period                         : Disabled
   Spinup limit internal drives             : 0
   Spinup limit external drives             : 0
   Defunct disk drive count                 : 0
   Logical devices/Failed/Degraded          : 2/0/0
   --------------------------------------------------------
   Controller Version Information
   --------------------------------------------------------
   BIOS                                     : 5.2-0 (16343)
   Firmware                                 : 5.2-0 (16343)
   Driver                                   : 1.1-5 (2456)
   Boot Flash                               : 5.2-0 (16343)
   --------------------------------------------------------
   Controller Battery Information
   --------------------------------------------------------
   Status                                   : Charging
   Over temperature                         : No
   Capacity remaining                       : 73 percent
   Time remaining (at current draw)         : 2 days, 10 hours, 57 minutes


Command completed successfully.
linux-kfqr:~ # 

Dalsze stany

Kolejne możliwe stany BBU:

  • Not Installed
  • Failed

Kontrolery RAID Areca

Areca oferuje również możliwość kontroli stanu w CLI:

[root@testserver ~]# ./cli64 hw info
Physical Hardware Information
The Hardware Monitor Information
===========================================
Fan#1 Speed (RPM)   : 2673
Battery Status      : 100%
HDD #1  Temp.       : 0
HDD #2  Temp.       : 0
HDD #3  Temp.       : 0
HDD #4  Temp.       : 0
===========================================
GuiErrMsg<0x00>: Success.
[root@testserver ~]#

Areca opisuje w dokumentacji następującą procedurę kontroli poprawności funkcjonowania BBM[2] (zalecamy tą procedurę stosować jedynie w systemach testowych - w systemach produktywnych w przypadku wątpliwości zalecamy lepiej po prostu wymianę):

  1. Zapis dużego pliku, np. 5 GByte.
  2. Niezwłocznie po zakończeniu zapisu wyłączyć system poprzez przerwanie zasilania.
  3. Kontrola statusu BBM - BBM powinno przez parę sekund generować sygnał - piep.
  4. System ponownie uruchomić i za pośrednictwem klawisza Tab lub F6 dostać się do BIOS-u kontrolera.
  5. Kontrola Event Log w BIOS-ie kontrolera. Tu powinna znajdować wskazówka controller boot up with power recovered.

Jak powyżej wspomniane, odradzamy tej procedury kontroli funkcjonalności BBM.

Odnośniki

  1. 3ware SAS/SATA RAID Software User Guide strona 203 (Testing Battery Capacity)
  2. Areca SATA RAID Cards USER Manual strona 144 (Battery Functionality Test Procedure)

Powiązane artykuły

Podstawowe informacje o 3Ware CLI
RAID SAS na płycie głównej Supermicro X8DT3-F
Wpływ statusu BBU na ustawienia cache'u kontrolerów 3ware