System Freeze analysieren
Zur Analyse von Systemabstürzen oder wenn ein Server auf keine Eingaben reagiert (System Freeze) bieten Systeme mit Supermicro X10 Mainboards sowie X11 Mainboards (Socket 3647) eine Funktion zum Auslesen von CPU Status- sowie Log-Informationen. Wie Sie diese Informationen speichern, um eine Problemursache näher zu analysieren, zeigen wir in diesem Wiki Artikel.
Anwendungsfälle
Wenn ein System im laufenden Betrieb abstürzt oder es scheinbar einfriert (also auf keine Eingaben mehr reagiert) gibt es die Möglichkeit, Status- und Log-Informationen der CPU über das IPMI-Webinterface abzufragen. Diese Informationen erleichtern die Analyse der genauen Problemursache und erleichtern damit die dauerhafte Fehlerbehebung.
Unterstützte Systeme
Die Funktion zum Auslesen dieser Status- und Log-Informationen wird von Serversystemen mit folgenden Supermicro Mainboards unterstützt:
- Supermicro X10 Mainboards mit IPMI Firmware ab Version 3.60 (Statusinformation vom 13.11.2017: Version 3.62 ist bei Thomas-Krenn aktuell im Test)
- Supermicro X11 Socket 3647 Mainboards
Supermicro X11 Socket 1151 Mainboards bieten bislang diese Funktion nicht.
Trouble Shooting Informationen auslesen
Wichtiger Hinweis: Speichern Sie die Trouble Shooting Informationen unbedingt solange der Server noch eingeschaltet ist und sich im Systeme Freeze befindet. Wenn Sie einen Neustart durchführen, gehen die CPU Trouble Shooting Informationen verloren.
Zum Speichern der Informationen führen Sie die folgenden Schritte aus:
Hinweis: Falls im Menü unter Miscellaneus nur der Punkt undefined anstelle von Trouble Shooting aufscheint wurde die IPMI Firmware gerade erst aktualisiert und seither der Webbrowser nicht neu gestartet. Schließen Sie in diesem Fall den Webbrowser, leeren Sie dessen Cache und loggen Sie sich anschließend erneut im IPMI Webinterface ein. Der Menüpunkt und die Funktion stehen dann wie angeführt zur Verfügung.
Inhalt der Trouble Shooting Datei
Die gespeichert Textdatei hat folgenden Aufbau:
start time: Mon Nov 13 14:10:05 2017 CPUID 57 01 00 40 c3 06 03 00 MicroCode 57 01 00 40 1d 00 00 00 SRC_LOG CPU0 57 01 00 90 00 00 00 00 IERR_LOG CPU0 57 01 00 90 00 00 00 00 MCERR_LOG CPU0 57 01 00 90 00 00 00 00 57 01 00 90 00 00 00 00 57 01 00 90 00 00 00 00 57 01 00 90 00 00 00 00 57 01 00 90 00 00 00 00 57 01 00 40 03 00 00 00 CPU0 Data end time: Mon Nov 13 14:10:05 2017
Weitere Informationen
- Platform-Level Error Handling Strategies for Intel Systems (www.intel.com)
Autor: Werner Fischer Werner Fischer arbeitet im Product Management Team von Thomas-Krenn. Er evaluiert dabei neueste Technologien und teilt sein Wissen in Fachartikeln, bei Konferenzen und im Thomas-Krenn Wiki. Bereits 2005 - ein Jahr nach seinem Abschluss des Studiums zu Computer- und Mediensicherheit an der FH Hagenberg - heuerte er beim bayerischen Server-Hersteller an. Als Öffi-Fan nutzt er gerne Bus & Bahn und genießt seinen morgendlichen Spaziergang ins Büro.
|