Konserwacja battery backup unit (BBU/BBM) kontrolera RAID
Uwaga: Prosimy zwrócić uwagę, że ten artykuł / kategoria nie jest już aktualizowana, gdyż odnosi się do starszych komponentów oprogramowania / sprzętu. Ta strona jest nadal dostępna jedynie w celach informacyjnych. |
---|
Nowoczesne kontrolery RAID dla zwiększenia ich wydajności wyposażone są w zintegrowany cache. Bez odpowiednich mechanizmów ochronnych jego zawartość w przypadku awarii zasilania ulega utracie. Dlatego zawartość ta często chroniona jest poprzez zastosowanie BBU/BBM (w zależności od producenta stosowane jest Battery Backup Unit lub Battery Backup Module). Jednak aby BBU w przypadku zaniku zasilania spełniło swoje zadanie konieczna jest jego poprawna konserwacja, bez niej ryzyko całkowitej utraty danych jest bardzo wysokie.
Wskazówka: Kontrolery, które do ochrony zawartości cache'a nie wykorzystują BBU lecz jego zawartość w przypadku zaniku zasilania jest kopiowana do pamięci typu flash nie wymagają specjalnej konserwacji pod tym aspektem. Taką funkcjonalność oferują nowe kontrolery Adaptec serii 5Z.
Podstawy konserwacji BBU/BBM
BBU składa się zawsze z dwóch komponentów:
- elektroniki, której zadaniem jest zarządzanie i komunikacja z kontrolerem RAID
- akumulatora
Akumulator podczas pierwszego uruchomienia jest całkowicie ładowany. Poprzez samorozładowanie traci on zgromadzoną energię i dlatego jest regularnie doładowywany.
Utrata rzeczywistej pojemności akumulatora
Z czasem akumulator traci na pojemności (maks. możliwa ilość magazynowanej energii maleje). Takie zachowanie znane jest również przy bateriach / akumulatorach notebooków. W przypadku notebooka z nowym akumulatorem zgromadzona w nim energia pozwala np. na 3 godz. pracy, gdy po trzech latach w pełni naładowany akumulator dostarcza energii jedynie na 40 min pracy.
Producenci kontrolerów RAID uwzględniają najczęściej czas eksploatacji akumulatora BBU na, od 1 roku do 5 lat. Rzeczywista żywotność zależy od wielu czynników (temperatura otoczenia, liczba cykli ładowania / rozładowania, itp.). W przypadku gdy po kilku latach eksploatacji pojemność akumulatora jest niska to zawartość cache'a w przypadku zaniku zasilania może być chroniona jedynie przez kilka minut (nawet jeżeli akumulator jest w pełni naładowany). Dlatego stan akumulatora powinien być regularnie kontrolowany. Gdy pojemność akumulatora jest zbyt niska powinien on lub całe BBU zostać wymienione.
Uwaga: w BBU kontrolerów 3Ware możliwa jest wymiana tylko akumulatora, gdy w BBU kontrolerów Adaptec i Areca akumulator jest zintegrowany z elektroniką BBU co oznacza wymianę kompletnego BBU.
Czas podtrzymania
Również nowy o wysokiej pojemności akumulator może w przypadku zaniku zasilania podtrzymać / chronić zawartość cache'a jedynie przez określony czas (zazwyczaj 72 godz.).
Przykłady
Kontroler RAID 3ware
3ware umożliwia w kontrolerach RAID przeprowadzenie tak zwanego "Battery Test"[1]. Test ten sluży dokładnemu określeniu pojemności akumulatora co umożliwia obliczenie przypuszczalnego czasu potrzymania.
Procedura tego testu wygląda następująco. Wpierw akumulator jest całkowicie ładowany. Następnie rozpoczyna się cykl całkowitego rozładowania. Po zakończeniu tego testu akumulator zostaje ponownie automatycznie całkowicie naładowany. Cały proces trwa zazwyczaj pomiędzy 8 a 12 godz. 3Ware zaleca jego regularne przeprowadzanie co 4 tygodnie.
Ważna uwaga: podczas trwania całego testu i następującego całkowitego ładowania akumulatora, cache kontrolera jest wyłączony! Przez co wydajność kontrolera jest ograniczona, dlatego zaleca się przeprowadzanie testu w czasie niższego obciążenia kontrolera.
Stan BBU może zostać skontrolowany np. za pośrednictwem 3ware CLI:
root@testserver:~# tw_cli /c0 show Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy ------------------------------------------------------------------------------ u0 RAID-1 OK - - - 34.4482 ON OFF u1 SPARE OK - - - 34.4684 - OFF Port Status Unit Size Blocks Serial --------------------------------------------------------------- p0 OK u0 34.47 GB 72303840 WD-WMANT1051720 p1 OK u0 34.47 GB 72303840 WD-WMANT1051894 p2 OK u1 34.47 GB 72303840 WD-WMAKH1083404 p3 NOT-PRESENT - - - - Name OnlineState BBUReady Status Volt Temp Hours LastCapTest --------------------------------------------------------------------------- bbu On Yes OK OK OK 255 06-Apr-2009 root@testserver:~#
Dalsze informacje do możliwych stanów BBU kontrolerów RAID 3ware znajdują się w artykule Wpływ statusu BBU na ustawienia cache'u kontrolerów 3ware.
Kontrolery RAID Adaptec
W kontrolerach Adaptec stan akumulatora może również zostać skontrolowany. Przy czym dostępne są następujące możliwości:
- kontrola za pośrednictwem Adaptec CLI
arcconf
- kontrola za pośrednictwem Adaptec Storage Manager (ASM)
- kontrola przez BIOS kontrolera RAID
Tak długo jak pojemność akumulatora wystarcza na 24 godz. podtrzymania zawartości cache'a, pozostaje on w trybie write-back (aktywny). Przy niższej pojemności tryb cache'a jest zmieniany w write-through (tak długo jak cache każdego poszczególnego logical drives nie ma na stałe skonfigurowanego trybu write-back - niezależnie od stanu BBU).
Stan Optimal
Adaptec CLI:
W wyniku polecenia arcconf GETCONFIG 1 AD
w ostatnich wierszach (obszar poniżej Controller Battery Information) znajdują się relewantne informacje o BBU:
linux-k3oa:~ # /usr/StorMan/arcconf GETCONFIG 1 AD Controllers found: 1 ---------------------------------------------------------------------- Controller information ---------------------------------------------------------------------- Controller Status : Optimal Channel description : SAS/SATA Controller Model : Adaptec 5805 Controller Serial Number : 8C35109557F Physical Slot : 6 Temperature : 70 C/ 158 F (Normal) Installed memory : 512 MB Copyback : Disabled Background consistency check : Disabled Automatic Failover : Enabled Global task priority : High Performance Mode : Default/Dynamic Stayawake period : Disabled Spinup limit internal drives : 0 Spinup limit external drives : 0 Defunct disk drive count : 0 Logical devices/Failed/Degraded : 2/0/0 -------------------------------------------------------- Controller Version Information -------------------------------------------------------- BIOS : 5.2-0 (16343) Firmware : 5.2-0 (16343) Driver : 1.1-5 (2456) Boot Flash : 5.2-0 (16343) -------------------------------------------------------- Controller Battery Information -------------------------------------------------------- Status : Optimal Over temperature : No Capacity remaining : 99 percent Time remaining (at current draw) : 3 days, 7 hours, 16 minutes Command completed successfully. linux-k3oa:~ #
Kontrola w Adaptec Storage Manager (ASM):
Kontrola w BIOS-ie kontrolera RAID:
Staus Charging
Tu znajduje się porównanie do powyższego systemu gdzie Time remaining jest jeszcze niższe, gdyż akumulator nie jest jeszcze całkowicie naładowany:
linux-kfqr:~ # /usr/StorMan/arcconf GETCONFIG 1 AD Controllers found: 1 ---------------------------------------------------------------------- Controller information ---------------------------------------------------------------------- Controller Status : Optimal Channel description : SAS/SATA Controller Model : Adaptec 5805 Controller Serial Number : 8C3510954C9 Physical Slot : 6 Temperature : 71 C/ 159 F (Normal) Installed memory : 512 MB Copyback : Disabled Background consistency check : Disabled Automatic Failover : Enabled Global task priority : High Performance Mode : Default/Dynamic Stayawake period : Disabled Spinup limit internal drives : 0 Spinup limit external drives : 0 Defunct disk drive count : 0 Logical devices/Failed/Degraded : 2/0/0 -------------------------------------------------------- Controller Version Information -------------------------------------------------------- BIOS : 5.2-0 (16343) Firmware : 5.2-0 (16343) Driver : 1.1-5 (2456) Boot Flash : 5.2-0 (16343) -------------------------------------------------------- Controller Battery Information -------------------------------------------------------- Status : Charging Over temperature : No Capacity remaining : 73 percent Time remaining (at current draw) : 2 days, 10 hours, 57 minutes Command completed successfully. linux-kfqr:~ #
Dalsze stany
Kolejne możliwe stany BBU:
- Not Installed
- Failed
Kontrolery RAID Areca
Areca oferuje również możliwość kontroli stanu w CLI:
[root@testserver ~]# ./cli64 hw info Physical Hardware Information The Hardware Monitor Information =========================================== Fan#1 Speed (RPM) : 2673 Battery Status : 100% HDD #1 Temp. : 0 HDD #2 Temp. : 0 HDD #3 Temp. : 0 HDD #4 Temp. : 0 =========================================== GuiErrMsg<0x00>: Success. [root@testserver ~]#
Areca opisuje w dokumentacji następującą procedurę kontroli poprawności funkcjonowania BBM[2] (zalecamy tą procedurę stosować jedynie w systemach testowych - w systemach produktywnych w przypadku wątpliwości zalecamy lepiej po prostu wymianę):
- Zapis dużego pliku, np. 5 GByte.
- Niezwłocznie po zakończeniu zapisu wyłączyć system poprzez przerwanie zasilania.
- Kontrola statusu BBM - BBM powinno przez parę sekund generować sygnał - piep.
- System ponownie uruchomić i za pośrednictwem klawisza Tab lub F6 dostać się do BIOS-u kontrolera.
- Kontrola Event Log w BIOS-ie kontrolera. Tu powinna znajdować wskazówka controller boot up with power recovered.
Jak powyżej wspomniane, odradzamy tej procedury kontroli funkcjonalności BBM.
Odnośniki
- ↑ 3ware SAS/SATA RAID Software User Guide strona 203 (Testing Battery Capacity)
- ↑ Areca SATA RAID Cards USER Manual strona 144 (Battery Functionality Test Procedure)