SR2500 Critical Interrupt und Bus Uncorrectable error im SEL

Aus Thomas-Krenn-Wiki
Zur Navigation springen Zur Suche springen
Hinweis: Bitte beachten Sie, dass dieser Artikel / diese Kategorie sich entweder auf ältere Software/Hardware Komponenten bezieht oder aus sonstigen Gründen nicht mehr gewartet wird.
Diese Seite wird nicht mehr aktualisiert und ist rein zu Referenzzwecken noch hier im Archiv abrufbar.

Bei einem Server mit dem Intel® Server Board S5000PAL (z.B. dem SR2500) können "Critical Interrupt" und "Bus Uncorrectable error" im SEL (System Event Log) auftreten wenn eine interne Raid Controller Karte verwendet wird. Unter Linux kann dabei auch eine Machine Check Exception auftreten.

Problembeschreibung

Bei einem Server mit dem S5000PAL Mainboard und einer installierten RAID Controller Karte kommt es zu einer Machine Check Exception (MCE):

SR2500-machine-check-exception-mit-kernel-panic.png

Nach einem Neustart ist im System Event Log (SEL) ein "Critical Interrupt" mit "Bus Uncorrectable error" zu sehen (das SEL kann mittels ipmitool sel list angezeigt werden):

[root@node1 ~]# ipmitool sel list
[...]
1440 | 04/16/2009 | 15:51:30 | Button #0x84 | Reset Button pressed | Asserted
1454 | 04/16/2009 | 15:51:55 | System Event #0x83 | Timestamp Clock Sync | Asserted
1468 | 04/16/2009 | 15:51:53 | System Event #0x83 | Timestamp Clock Sync | Asserted
147c | 04/16/2009 | 15:52:32 | System Event #0x01 | OEM System boot event | Asserted
1490 | 04/16/2009 | 15:52:50 | System ACPI Power State #0x82 | S0/G0: working | Asserted
14a4 | 04/16/2009 | 16:27:32 | Critical Interrupt #0x08 | Bus Uncorrectable error | Asserted
[...]

Eventuell sind im SEL auch "System Firmware Error" Meldungen zu finden (bei diesem Testsystem, das am 15.04.2009 gebaut wurde war aber ein derartiger Eintrag nur vom 12.11.2008 im SEL):

 234 | 12/11/2008 | 01:15:19 | System Firmware Error #0x06 | Unknown Error | Asserted

Anmerkung: geht man beim Neustart in das BIOS, so wird im Error Manager ein Fehler mit dem POST Code A5A4 angezeigt.

Lösung

Um diesen Fehler zu beheben, leeren Sie bitte das SEL und führen einen CMOS Clear durch.

SEL leeren

Informationen zum Leeren des SEL finden Sie im Artikel BMC System Event Log Full bei Intel Server.

CMOS Clear Vorgang

  1. Schalten Sie den Server aus, trennen Sie den Server aber nicht vom Strom.
  2. Öffnen Sie den Deckel des Servergehäuses. Setzen Sie den Jumper (J1D3) von der normalen Position (Pins 1 und 2) auf die Clear Position (Pins 2 - 3).
  3. Warten Sie 5 Sekunden.
  4. Setzten Sie den Jumper zurück auf die normale Position (Pins 1 und 2).
  5. Schließen Sie den Deckel des Servergehäuses.
  6. Das CMOS ist nun gecleart. Dies ist im BIOS im Error Manager ersichtlich:

SR2500-cmos-cleared-bios-error-manager.png

Weitere beobachtete Problemfälle

Wir haben das Problem auch auf einem 2 HE Intel SR2500 Cluster (neu installiert von der Installations-DVD Version tkcluster_sr2500_dvd-1.03-1.iso) mit Kernel-Version vzkernel-smp-2.6.9-023stab044.10.x86_64 beobachtet. Nach dem Update auf Kernel Version vzkernel-smp-2.6.9-023stab048.6.x86_64.rpm ist das Problem bei unseren Tests nicht mehr aufgetreten.

Vermutlich hängt die Problemlösung im neueren Kernel mit folgendem Update des Areca-Treibers zusammen:

Weitere Informationen

Das könnte Sie auch interessieren

Event-News: LinuxTag 2012 MySQL Monitoring/Management und SSD Caching
SR2500 45nm CPUs erfordern S5000PALR Mainboard
Thomas Krenn NexentaStor Konfigurationen