Memory Error - Uncorrectable ECC Error im Modular-Server CMM

Aus Thomas-Krenn-Wiki
Zur Navigation springen Zur Suche springen
Hinweis: Bitte beachten Sie, dass dieser Artikel / diese Kategorie sich entweder auf ältere Software/Hardware Komponenten bezieht oder aus sonstigen Gründen nicht mehr gewartet wird.
Diese Seite wird nicht mehr aktualisiert und ist rein zu Referenzzwecken noch hier im Archiv abrufbar.

Beschreibung

Im CMM werden bei den Compute Modules MFS5520VI sporadisch Memory Error - Uncorrectable ECC error with DIMM_x angezeigt.

Betroffene Hardware

  • Intel Compute Module MFS5520VI
  • Im Zusammenhang mit 12x 4GB RAM Bestückung und Firmware-Update 5.5

Fehlermeldung

Date: 1/19/2010 Time: 10:14:53 Event Id: 608 Policy Id: 2071

Severity: Critical Type: Chassis Component: Server 2 User Name: System

Description: Memory Error: Uncorrectable ECC error with DIMM_C1. These are errors that occur in memory cells and result in data corruption. The chipset ECC engine detects these errors but cannot correct them.

Probable Cause: Affected Memory Bank: DIMM_C1.

Corrective Action: Monitor the condition and replace the memory when necessary.

Fehler-Reproduzierung

Diese Fehlermeldung konnte von uns nachgestellt werden. Der Fehler tritt sporadisch und hauptsächlich beim Neustart eines Modules auf. Nachdem das Modul dann nochmal neu gestartet wird, ist der Fehler meist wieder weg und das System arbeitet normal. Der Fehler trat bei unseren internen Tests ausschließlich im Zusammenhang mit der FW 5.5 und vollbestückten Speichern (12x 4GB RAM) auf.

Folgende Testszenarien wurden durchgespielt:

  • 12x 4GB RAM, FW 5.5: Fehler trat nach mehrfachen Neustarts sporadisch auf
  • 6x 4GB RAM, FW 5.5: Fehler konnte nicht reproduziert werden
  • 12x 4GB RAM, FW 5.0: Fehler konnte nicht reproduziert werden

Lösung

Firmware-Update auf Version 6.0 Download

Erklärung seitens Intel: POST code at post code 34h which is BIOS recovery. After BIOS recovery jumper was reset to default configuration, board was powered up, and Selview log were saved. Selview log has multiple sequential “Watchdog 2 #0x03” entries. It indicates that board hung in early POST due to BIOS problem, which is probably the reason for BIOS recovery. There were also “Uncorrectable memory failures” entries. The board had BIOS 43.1.Board was updated to BIOS 48. No issues found after update to BIOS 48

Auch bei unseren Tests, traten ab der FW Version 6.0 keine weiteren Memory-Fehler auf.

Das könnte Sie auch interessieren

Defragmentierung Modular-Server
KVM Java-Applet für Modular-Server unter Mac OS X nutzen
Virtual Drive versehentlich gelöscht - Wiederherstellung der Daten