Bug w sterowniku EDAC systemów Linux

Z Thomas-Krenn-Wiki
Przejdź do nawigacji Przejdź do wyszukiwania
Uwaga: Prosimy zwrócić uwagę, że ten artykuł / kategoria nie jest już aktualizowana, gdyż odnosi się do starszych komponentów oprogramowania / sprzętu.
Ta strona jest nadal dostępna jedynie w celach informacyjnych.

Sterownik EDAC (Error Detection And Correction) ma wykrywać i korygować błędy pamięci RAM. W niektórych wersjach jądra / dystrybucjach Linuksa zgłasza EDAC pojedyncze błędy pomimo jego właściwego braku.

Przykłady

Tu znajdują się 3 różne serwery. Każdy z nich pracuje stabilnie i w każdym test pamięci nie stwierdził błędu.

Serwer 1

 EDAC MC0: UE page 0x0, offset 0x0, grain 536870912, row 2, labels ":": i3200 UE

Serwer 2

 EDAC i5000 MC0: FATAL ERRORS Found!!! 1st FATAL Err Reg= 0x7
 EDAC i5000 MC0: Alert on non-redundant retry or fast reset timeout
 EDAC MC0: INTERNAL ERROR: channel-b out of range (4 >= 4)
 EDAC MC0: UE - no information available: INTERNAL ERROR

Serwer 3

 EDAC i5000 MC0: NON-FATAL ERRORS Found!!! 1st NON-FATAL Err Reg= 0x200
 EDAC i5000: NON-Retry Errors, bits= 0x200
 EDAC i5000 MC0: FATAL ERRORS Found!!! 1st FATAL Err Reg= 0x7
 EDAC i5000 MC0: Alert on non-redundant retry or fast reset timeout
 EDAC MC0: INTERNAL ERROR: channel-b out of range (4 >= 4)
 EDAC MC0: UE - no information available: INTERNAL ERROR
 EDAC i5000 MC0: NON-FATAL ERRORS Found!!! 1st NON-FATAL Err Reg= 0x1ffefdf
 EDAC MC0: INTERNAL ERROR: channel-b out of range (4 >= 4)
 EDAC MC0: UE - no information available: INTERNAL ERROR
 EDAC MC0: CE row 1, channel 3, label "": (Branch=1 DRAM-Bank=0 RDWR=Read RAS=1935 CAS=0, CE Err=0x1e000)
 EDAC i5000: THERMAL Error, bits= 0x780000
 EDAC i5000: NON-Retry Errors, bits= 0xe00
 EDAC i5000: NORTHBOUND CRC Error, bits= 0x20000
 EDAC i5000: SPD Protocol Error, bits= 0x40000
 EDAC i5000: DIMM-Spare Error, bits= 0x1800000

Rozwiązanie

Dokładne rozwiązanie niestety nie jest znane, w większości przypadków pomocne jest dodanie modułu EDAC do blacklist. Należy się jednak upewnić, że serwer poprawnie funkcjonuje. Przeprowadzić test pamięci.

Update: poprzez wyłączenie Quick Boot w BIOS-ie niektóre powiadomienia ponownie nie występują (jak w jednym powyższym przykładzie, serwer 1). Uruchomienie trwa przeciętnie 30-60 sekund dłużej przez RAM-Check, ale nie występuje powiadomienie o błędzie EDAC. [1]

Odnośniki

Dalsze informacje

Powiązane artykuły

Automatyczne ładowanie modułów jądra Linuksa podczas uruchamiania
Device Mapper Multipath I/O DM-MPIO pod Linuksem
Instalacja Oracle Java JRE 6 lub SE 7 w Ubuntu