DIMM Max Temp Warnung in VMware ESX mit Modular-Server MFS5000SI Compute Module

Aus Thomas-Krenn-Wiki
Wechseln zu: Navigation, Suche

Bei Intel Modular Servern mit Firmware älter als Version 4.0 zeigt VMware ESX eine DIMM Max Temp for Memory Module 9 Warnung bei MFS5000SI Compute Modulen. Sie können einen solchen Alarm ignorieren. Firmware 4.0 behebt dieses Anzeigeproblem.

Fehler

Die Systemstatus Anzeige des Virtual Infrastructure Client zeigt für den Intel MFSYS25 Server (Intel Modular Server Compute Module) eine Warnung für den Sensor "DIMM Max Temp for Memory Module 9":

Modular-server-dimm-max-temp-warnung-esx35u3.png

Details und Hinweise

Diese Warnung kann ignoriert werden. Zur Warnung kommt es da der IPMI Upper Critical Wert für diesen Sensor mit 0.000 Grad Celsius definiert ist. Hier der entsprechende Auszug aus ipmitool sdr -v (aufgerufen auf einem Linux Testsystem, das auf einem Intel MFSYS25 Server (Intel Modular Server Compute Module) installiert ist:

Sensor ID              : DIMM Max Temp (0x5f)
 Entity ID             : 8.9 (Memory Module)
 Sensor Type (Analog)  : Temperature
 Sensor Reading        : 49 (+/- 0) degrees C
 Status                : Upper Critical
 Nominal Reading       : 26.000
 Normal Minimum        : 0.000
 Normal Maximum        : 255.000
 Upper critical        : 0.000
 Lower critical        : 0.000
 Positive Hysteresis   : 1.000
 Negative Hysteresis   : 1.000
 Minimum sensor range  : Unspecified
 Maximum sensor range  : Unspecified
 Event Message Control : Per-threshold
 Readable Thresholds   : lcr ucr 
 Settable Thresholds   : lcr ucr 
 Assertions Enabled    : 

Da somit der Maximalwert auf 0 Grad Celsius definiert ist, zeigt VMware die Warnung an (da der Temperatur-Wert dieses Sensors immer über 0 Grad liegt).

Des weiteren handelt es sich bei diesem Sensor nicht um einen Temperaturwert für ein neuntes Memory Modul (obwohl VMware diesen Sensor als "DIMM Max Temp for Memory Module 9" bezeichnet). Das Compute Module hat maximal acht Memory Module. Dieser Sensor mit der ID "DIMM Max Temp (0x5f)" spiegelt den Maximalwert der Sensoren für die DIMMs 1 bis 8 wider. VMware schließt aber aus der Entity ID 8.9, dass es sich um das DIMM 9 handelt (8 ist dabei die Gruppe für den RAM, 9 bedeutet der neunte Sensor für den RAM).

Zur Information: für den ersten Sensor für die Memory Module zeigt ipmitool sdr -v folgende Daten (Status ok):

Sensor ID              : DIMM1 Temp (0x50)
 Entity ID             : 8.1 (Memory Module)
 Sensor Type (Analog)  : Temperature
 Sensor Reading        : 48 (+/- 0) degrees C
 Status                : ok
 Nominal Reading       : 26.000
 Normal Minimum        : 0.000
 Normal Maximum        : 255.000
 Upper critical        : 105.000
 Lower critical        : 0.000
 Positive Hysteresis   : 1.000
 Negative Hysteresis   : 1.000
 Minimum sensor range  : Unspecified
 Maximum sensor range  : Unspecified
 Event Message Control : Per-threshold
 Readable Thresholds   : lcr ucr 
 Settable Thresholds   : lcr ucr 
 Assertions Enabled    : 

Problem behoben

Diese beiden Anzeigeprobleme wurden von uns sowohl an Intel und VMware gemeldet und sollen in kommenden Versionen behoben werden.

Update: Mittlerweile hat Intel das Problem behoben. Mit der Modular Server Firmware 5.0 (Build Version 5.0.100.20090928.19055) tritt das Problem nicht mehr auf. Laut dem Monthly Specification Update von Intel wurde das Problem mit Firmware 4.0 behoben.[1] Ein ipmitool sdr -v zeigt nun korrekte Werte:

[...]
Sensor ID              : DIMM1 Temp (0x50)
 Entity ID             : 8.1 (Memory Module)
 Sensor Type (Analog)  : Temperature
 Sensor Reading        : 65 (+/- 0) degrees C
 Status                : ok
 Nominal Reading       : 26.000
 Normal Minimum        : 0.000
 Normal Maximum        : 255.000
 Upper critical        : 105.000
 Lower critical        : 0.000
 Positive Hysteresis   : 1.000
 Negative Hysteresis   : 1.000
 Minimum sensor range  : Unspecified
 Maximum sensor range  : Unspecified
 Event Message Control : Per-threshold
 Readable Thresholds   : lcr ucr 
 Settable Thresholds   : lcr ucr 
 Assertions Enabled    : 

[...]
Sensor ID              : DIMM Max Temp (0x5f)
 Entity ID             : 8.9 (Memory Module)
 Sensor Type (Analog)  : Temperature
 Sensor Reading        : 71 (+/- 0) degrees C
 Status                : ok
 Nominal Reading       : 26.000
 Normal Minimum        : 0.000
 Normal Maximum        : 255.000
 Positive Hysteresis   : 1.000
 Negative Hysteresis   : 1.000
 Minimum sensor range  : Unspecified
 Maximum sensor range  : Unspecified
 Event Message Control : No Events From Sensor
 Readable Thresholds   : No Thresholds
 Settable Thresholds   : No Thresholds
 Assertions Enabled    : 
[...]

ipmitool sensor output

ipmitool sensor liefert nun beim System mit Firmware 5.0:

testserver:~# ipmitool sensor
PowerUnitStatus  | 0x0        | discrete   | 0x0080| na        | na        | na        | na        | na        | na        
Watchdog         | 0x0        | discrete   | 0x0080| na        | na        | na        | na        | na        | na        
ACPI State       | 0x0        | discrete   | 0x0180| na        | na        | na        | na        | na        | na        
BB Vtt           | 1.103      | Volts      | ok    | na        | 0.895     | na        | na        | 1.499     | na        
BB +1.5V AUX     | 1.490      | Volts      | ok    | na        | 1.326     | na        | na        | 1.646     | na        
BB +1.5V         | 1.482      | Volts      | ok    | na        | 1.326     | na        | na        | 1.638     | na        
BB +1.8V         | 1.802      | Volts      | ok    | na        | 1.669     | na        | na        | 1.936     | na        
BB +3.3V         | 3.268      | Volts      | ok    | na        | 2.958     | na        | na        | 3.612     | na        
BB +3.3V STB     | 3.371      | Volts      | ok    | na        | 2.958     | na        | na        | 3.612     | na        
BB +1.5V ESB     | 1.505      | Volts      | ok    | na        | 1.326     | na        | na        | 1.646     | na        
BB +5V           | 5.096      | Volts      | ok    | na        | 4.498     | na        | na        | 5.486     | na        
BB +12V AUX      | 12.096     | Volts      | ok    | na        | 10.647    | na        | na        | 13.230    | na        
BB 0.9V          | 0.893      | Volts      | ok    | na        | 0.778     | na        | na        | 1.018     | na        
BB VBat          | 0x0        | discrete   | 0x0180| na        | na        | na        | na        | na        | na        
Hot Swap         | 0x0        | discrete   | 0x1080| na        | na        | na        | na        | na        | na        
KVM Session      | 0x0        | discrete   | 0x0280| na        | na        | na        | na        | na        | na        
SOL Session      | 0x0        | discrete   | 0x0180| na        | na        | na        | na        | na        | na        
SMI Timeout      | 0x0        | discrete   | 0x0180| na        | na        | na        | na        | na        | na        
Memory Error     | 0x0        | discrete   | 0x0080| na        | na        | na        | na        | na        | na        
Critical Int     | 0x0        | discrete   | 0x0080| na        | na        | na        | na        | na        | na        
DIMM1 Temp       | 65.000     | degrees C  | ok    | na        | 0.000     | na        | na        | 105.000   | na        
DIMM2 Temp       | 64.000     | degrees C  | ok    | na        | 0.000     | na        | na        | 105.000   | na        
DIMM3 Temp       | 71.000     | degrees C  | ok    | na        | 0.000     | na        | na        | 105.000   | na        
DIMM4 Temp       | 68.000     | degrees C  | ok    | na        | 0.000     | na        | na        | 105.000   | na        
DIMM5 Temp       | 71.000     | degrees C  | ok    | na        | 0.000     | na        | na        | 105.000   | na        
DIMM6 Temp       | 67.000     | degrees C  | ok    | na        | 0.000     | na        | na        | 105.000   | na        
DIMM7 Temp       | 69.000     | degrees C  | ok    | na        | 0.000     | na        | na        | 105.000   | na        
DIMM8 Temp       | 63.000     | degrees C  | ok    | na        | 0.000     | na        | na        | 105.000   | na        
DIMM Max Temp    | 71.000     | degrees C  | ok    | na        | na        | na        | na        | na        | na        
P1 Status        | 0x0        | discrete   | 0x8080| na        | na        | na        | na        | na        | na        
P2 Status        | 0x0        | discrete   | 0x8080| na        | na        | na        | na        | na        | na        
PECI P1C12       | na         | degrees C  | na    | na        | na        | na        | -10.000   | -5.000    | na        
PECI P1C34       | na         | degrees C  | na    | na        | na        | na        | -10.000   | -5.000    | na        
PECI P2C12       | na         | degrees C  | na    | na        | na        | na        | -10.000   | -5.000    | na        
PECI P2C34       | na         | degrees C  | na    | na        | na        | na        | -10.000   | -5.000    | na        
P1 Therm Ctrl    | 0.000      | unspecified | ok    | na        | na        | na        | na        | 0.780     | na        
P2 Therm Ctrl    | 0.000      | unspecified | ok    | na        | na        | na        | na        | 0.780     | na        
P1 VRD Hot       | 0x0        | discrete   | 0x0180| na        | na        | na        | na        | na        | na        
P2 VRD Hot       | 0x0        | discrete   | 0x0180| na        | na        | na        | na        | na        | na        
Proc Max Therm   | na         | degrees C  | na    | na        | 0.000     | na        | na        | 0.000     | na        
P1_Vcc_Err       | 0x0        | discrete   | 0x0180| na        | na        | na        | na        | na        | na        
P2_Vcc_Err       | 0x0        | discrete   | 0x0180| na        | na        | na        | na        | na        | na        
CPU Populn Err   | 0x0        | discrete   | 0x0180| na        | na        | na        | na        | na        | na        
Mezz Card Pres   | 0x0        | discrete   | 0x0480| na        | na        | na        | na        | na        | na        
Attention State  | 0x0        | discrete   | 0x0080| na        | na        | na        | na        | na        | na        
Slot ID          | 0x0        | discrete   | 0x0280| na        | na        | na        | na        | na        | na        
Progress         | 0x0        | discrete   | 0x0080| na        | na        | na        | na        | na        | na        
testserver:~# 

Einzelnachweise

  1. Intel Modular Server Monthly Specification Update November 2009, Punkt 35. DIMM temperature warning in VMWare ESX 3.5 and ESX 4.0, Seite 29 im PDF


Foto Werner Fischer.jpg

Autor: Werner Fischer

Werner Fischer, tätig im Bereich Communications / Knowledge Transfer bei Thomas-Krenn, hat sein Studium zu Computer- und Mediensicherheit an der FH Hagenberg abgeschlossen. Er ist regelmäßig Autor in Fachzeitschriften und Speaker bei Konferenzen wie LinuxCon, OSDC, OSMC, LinuxTag u.v.m. Seine Freizeit gestaltet er sehr abwechslungsreich. In einem Moment absolviert er seinen Abschluss im Klavierspielen, im anderen läuft er beim Linzmarathon in der Staffel mit oder interessiert sich für OpenStreetMap.


Das könnte Sie auch interessieren

Firmware-Update Anleitung Modular-Server
Firmware-Update Pending - Reset Required Compute Module MFS5000SI
SNMP Trap Storage System 1259 Scheduled task has failed 3568 beim Modular Server