Awaria systemu (System Freeze) - analiza przyczyny
Do analizy awarii systemu, gdy serwer nie reaguje na żadne polecania (System Freeze), na płytach głównych Supermicro X10 i X11 (Socket 3647) może zostać wykorzystana funkcja umożliwiająca odczyt statusu CPU i informacji z logów. W tym artykule chcemy przedstawić, jak zapisać te informacje.
Przypadki programowe
W przypadku gdy system podczas pracy się zawiesił (nie reaguje na nic) istnieje możliwość odczytania informacji o statusie procesora za pośrednictwem interfejsu webowego IPMI. Informacje te ułatwiają analizę przyczyny problemu i jego rozwiązanie.
Wspierane systemy
Funkcja odczytu informacji o statusie CPU jest dostępna na następujących płytach głównych firmy Supermicro:
- Płyty główne Supermicro z serii X10 z firmwarem IPMI od wersji 3.60 (Informacje o statusie z 13.11.2017: wersja 3.62 jest testowana w Thomas-Krenn)
- Płyty główne Supermicro z serii X11 socket 3647
Płyty główne Supermicro X11 socket 1151 nie oferują dotychczas tej funkcji.
Odczyt informacji Trouble Shooting
Ważna uwaga: informacje Trouble Shooting mogą zostać zapisane o ile serwer jest nadal włączony i znajduje się w stanie System Freeze. Powyżej wspomniane informacje mogą zostać zapisane w następujący sposób:
Uwaga: Jeżeli w menu pod Miscellaneus jest widoczny punkt undefined, zamiast Trouble Shooting, oznacza to, że firmware IPMI został niedawno aktualizowany i od tego czasu przeglądarka internetowa nie została wyłączona. W tym przypadku należy wyłączyć przeglądarkę, opróżnić jej cache i ponownie się zalogować w interfejsie IPMI. Punkt menu i funkcja powinna być teraz dostępna.
Zawartość pliku Trouble Shooting
Zapisany plik tekstowy ma następującą strukturę:
start time: Mon Nov 13 14:10:05 2017 CPUID 57 01 00 40 c3 06 03 00 MicroCode 57 01 00 40 1d 00 00 00 SRC_LOG CPU0 57 01 00 90 00 00 00 00 IERR_LOG CPU0 57 01 00 90 00 00 00 00 MCERR_LOG CPU0 57 01 00 90 00 00 00 00 57 01 00 90 00 00 00 00 57 01 00 90 00 00 00 00 57 01 00 90 00 00 00 00 57 01 00 90 00 00 00 00 57 01 00 40 03 00 00 00 CPU0 Data end time: Mon Nov 13 14:10:05 2017
Dodatkowe informacje
- Platform-Level Error Handling Strategies for Intel Systems (www.intel.com)
Autor: Werner Fischer