Losowe restarty serwerów z procesorami AMD EPYC

Z Thomas-Krenn-Wiki
Przejdź do nawigacji Przejdź do wyszukiwania
Uwaga: Prosimy zwrócić uwagę, że ten artykuł / kategoria nie jest już aktualizowana, gdyż odnosi się do starszych komponentów oprogramowania / sprzętu.
Ta strona jest nadal dostępna jedynie w celach informacyjnych.

Serwery z procesorami AMD EPYC mogą się losowo restartować podczas pracy systemu Linux z KVM. Po takim restarcie można znaleźć w syslogu rekordy z tabeli Boot Error Record Table (BERT) z uwagą fru_text: ProcessorError. W tym artykule znajdą Państwo szczegółowe informacje na temat tego błędu i proponowanych rozwiązań.

Problem fru_text: ProcessorError

Podczas korzystania z Linuksa z KVM na serwerach z procesorami AMD EPYC występują losowe restarty. Poniższe informacje można znaleźć w syslogu:

Nov 4 15:43:07 debian-10 kernel: [ 1.569903] BERT: Error records from previous boot:
Nov 4 15:43:07 debian-10 kernel: [ 1.570000] [Hardware Error]: event severity: info
Nov 4 15:43:07 debian-10 kernel: [ 1.570095] [Hardware Error]: Error 0, type: fatal
Nov 4 15:43:07 debian-10 kernel: [ 1.570191] [Hardware Error]: fru_text: ProcessorError
Nov 4 15:43:07 debian-10 kernel: [ 1.570288] [Hardware Error]: section_type: IA32/X64 processor error
Nov 4 15:43:07 debian-10 kernel: [ 1.570389] [Hardware Error]: Local APIC_ID: 0x0
Nov 4 15:43:07 debian-10 kernel: [ 1.570484] [Hardware Error]: CPUID Info:
Nov 4 15:43:07 debian-10 kernel: [ 1.570579] [Hardware Error]: 00000000: 00800f12 00000000 00300800 00000000
Nov 4 15:43:07 debian-10 kernel: [ 1.570682] [Hardware Error]: 00000010: 76d8320b 00000000 178bfbff 00000000
Nov 4 15:43:07 debian-10 kernel: [ 1.570786] [Hardware Error]: 00000020: 48ab7f57 4f6cdc34 b5b0d3a7 1443a7b0
Nov 4 15:43:07 debian-10 kernel: [ 1.570889] [Hardware Error]: Error Information Structure 0:
Nov 4 15:43:07 debian-10 kernel: [ 1.570988] [Hardware Error]: Error Structure Type: unknown
Nov 4 15:43:07 debian-10 kernel: [ 1.571087] [Hardware Error]: Error Structure Type: 00000001-0000-0000-2700-980000000000
Nov 4 15:43:07 debian-10 kernel: [ 1.571221] [Hardware Error]: Error 1, type: fatal
Nov 4 15:43:07 debian-10 kernel: [ 1.571316] [Hardware Error]: fru_text: ProcessorError
Nov 4 15:43:07 debian-10 kernel: [ 1.571412] [Hardware Error]: section_type: IA32/X64 processor error
Nov 4 15:43:07 debian-10 kernel: [ 1.571513] [Hardware Error]: Local APIC_ID: 0x1
Nov 4 15:43:07 debian-10 kernel: [ 1.571608] [Hardware Error]: CPUID Info:
Nov 4 15:43:07 debian-10 kernel: [ 1.571701] [Hardware Error]: 00000000: 00800f12 00000000 01300800 00000000
Nov 4 15:43:07 debian-10 kernel: [ 1.571805] [Hardware Error]: 00000010: 76d8320b 00000000 178bfbff 00000000
Nov 4 15:43:07 debian-10 kernel: [ 1.571908] [Hardware Error]: 00000020: a55701f5 43dee3ef 9b2472ac 2cad3f57
Nov 4 15:43:07 debian-10 kernel: [ 1.572011] [Hardware Error]: Error Information Structure 0:
Nov 4 15:43:07 debian-10 kernel: [ 1.572109] [Hardware Error]: Error Structure Type: unknown
Nov 4 15:43:07 debian-10 kernel: [ 1.572208] [Hardware Error]: Error Structure Type: 00000001-0000-0000-1f00-4d0600000000

Systemy, których dotyczy problem

W systemie z następującą konfiguracją, występuje opisany problem:

Forum Proxmoxa zawiera również informacje o losowych restartach z komunikatem o błędzie BERT "fru_text: ProcessorError":[1]

  • Supermicro H11SSL-i
  • Supermicro H11DSU-iN

Informacje o błędzie "fru_text: ProcessorError" można również znaleźć w forum Fedory:[2]

Propozycja dla rozwiązania problemu

W komentarzach na forum Fedory użytkownicy piszą, że dostosowanie następujących parametrów w BIOS-ie rozwiązało problem:[2]

Advanced -> NB Configuration -> IOMMU (change to Enabled)
Advanced -> PCIe/PCI/PnP Configuration -> SR-IOV Support (change to Enabled)

Generalnie zalecamy aktualizację do najnowszej wersji BIOS-u, która zawiera nowszą wersję AMD AGESA lub nowszy mikrokod.

Odnośniki

  1. Random Restarts (forum.proxmox.com)
  2. 2,0 2,1 first server error, reboot, what is this UUID ? (forums.fedoraforum.org)

Autor: Werner Fischer

Powiązane artykuły

Bug w sterowniku EDAC systemów Linux
Skrypt backupu na serwerze FTP
Tuning wydajności Apache