Bug w sterowniku EDAC systemów Linux
Uwaga: Prosimy zwrócić uwagę, że ten artykuł / kategoria nie jest już aktualizowana, gdyż odnosi się do starszych komponentów oprogramowania / sprzętu. Ta strona jest nadal dostępna jedynie w celach informacyjnych. |
---|
Sterownik EDAC (Error Detection And Correction) ma wykrywać i korygować błędy pamięci RAM. W niektórych wersjach jądra / dystrybucjach Linuksa zgłasza EDAC pojedyncze błędy pomimo jego właściwego braku.
Przykłady
Tu znajdują się 3 różne serwery. Każdy z nich pracuje stabilnie i w każdym test pamięci nie stwierdził błędu.
Serwer 1
EDAC MC0: UE page 0x0, offset 0x0, grain 536870912, row 2, labels ":": i3200 UE
Serwer 2
EDAC i5000 MC0: FATAL ERRORS Found!!! 1st FATAL Err Reg= 0x7 EDAC i5000 MC0: Alert on non-redundant retry or fast reset timeout EDAC MC0: INTERNAL ERROR: channel-b out of range (4 >= 4) EDAC MC0: UE - no information available: INTERNAL ERROR
Serwer 3
EDAC i5000 MC0: NON-FATAL ERRORS Found!!! 1st NON-FATAL Err Reg= 0x200 EDAC i5000: NON-Retry Errors, bits= 0x200 EDAC i5000 MC0: FATAL ERRORS Found!!! 1st FATAL Err Reg= 0x7 EDAC i5000 MC0: Alert on non-redundant retry or fast reset timeout EDAC MC0: INTERNAL ERROR: channel-b out of range (4 >= 4) EDAC MC0: UE - no information available: INTERNAL ERROR EDAC i5000 MC0: NON-FATAL ERRORS Found!!! 1st NON-FATAL Err Reg= 0x1ffefdf EDAC MC0: INTERNAL ERROR: channel-b out of range (4 >= 4) EDAC MC0: UE - no information available: INTERNAL ERROR EDAC MC0: CE row 1, channel 3, label "": (Branch=1 DRAM-Bank=0 RDWR=Read RAS=1935 CAS=0, CE Err=0x1e000) EDAC i5000: THERMAL Error, bits= 0x780000 EDAC i5000: NON-Retry Errors, bits= 0xe00 EDAC i5000: NORTHBOUND CRC Error, bits= 0x20000 EDAC i5000: SPD Protocol Error, bits= 0x40000 EDAC i5000: DIMM-Spare Error, bits= 0x1800000
Rozwiązanie
Dokładne rozwiązanie niestety nie jest znane, w większości przypadków pomocne jest dodanie modułu EDAC do blacklist. Należy się jednak upewnić, że serwer poprawnie funkcjonuje. Przeprowadzić test pamięci.
Update: poprzez wyłączenie Quick Boot w BIOS-ie niektóre powiadomienia ponownie nie występują (jak w jednym powyższym przykładzie, serwer 1). Uruchomienie trwa przeciętnie 30-60 sekund dłużej przez RAM-Check, ale nie występuje powiadomienie o błędzie EDAC. [1]
Odnośniki
- ↑ EDAC spam in dmesg, edac-utils shows no erros komentarz #21