Losowe restarty serwerów z procesorami AMD EPYC
Uwaga: Prosimy zwrócić uwagę, że ten artykuł / kategoria nie jest już aktualizowana, gdyż odnosi się do starszych komponentów oprogramowania / sprzętu. Ta strona jest nadal dostępna jedynie w celach informacyjnych. |
---|
Serwery z procesorami AMD EPYC mogą się losowo restartować podczas pracy systemu Linux z KVM. Po takim restarcie można znaleźć w syslogu rekordy z tabeli Boot Error Record Table (BERT) z uwagą fru_text: ProcessorError. W tym artykule znajdą Państwo szczegółowe informacje na temat tego błędu i proponowanych rozwiązań.
Problem fru_text: ProcessorError
Podczas korzystania z Linuksa z KVM na serwerach z procesorami AMD EPYC występują losowe restarty. Poniższe informacje można znaleźć w syslogu:
Nov 4 15:43:07 debian-10 kernel: [ 1.569903] BERT: Error records from previous boot: Nov 4 15:43:07 debian-10 kernel: [ 1.570000] [Hardware Error]: event severity: info Nov 4 15:43:07 debian-10 kernel: [ 1.570095] [Hardware Error]: Error 0, type: fatal Nov 4 15:43:07 debian-10 kernel: [ 1.570191] [Hardware Error]: fru_text: ProcessorError Nov 4 15:43:07 debian-10 kernel: [ 1.570288] [Hardware Error]: section_type: IA32/X64 processor error Nov 4 15:43:07 debian-10 kernel: [ 1.570389] [Hardware Error]: Local APIC_ID: 0x0 Nov 4 15:43:07 debian-10 kernel: [ 1.570484] [Hardware Error]: CPUID Info: Nov 4 15:43:07 debian-10 kernel: [ 1.570579] [Hardware Error]: 00000000: 00800f12 00000000 00300800 00000000 Nov 4 15:43:07 debian-10 kernel: [ 1.570682] [Hardware Error]: 00000010: 76d8320b 00000000 178bfbff 00000000 Nov 4 15:43:07 debian-10 kernel: [ 1.570786] [Hardware Error]: 00000020: 48ab7f57 4f6cdc34 b5b0d3a7 1443a7b0 Nov 4 15:43:07 debian-10 kernel: [ 1.570889] [Hardware Error]: Error Information Structure 0: Nov 4 15:43:07 debian-10 kernel: [ 1.570988] [Hardware Error]: Error Structure Type: unknown Nov 4 15:43:07 debian-10 kernel: [ 1.571087] [Hardware Error]: Error Structure Type: 00000001-0000-0000-2700-980000000000 Nov 4 15:43:07 debian-10 kernel: [ 1.571221] [Hardware Error]: Error 1, type: fatal Nov 4 15:43:07 debian-10 kernel: [ 1.571316] [Hardware Error]: fru_text: ProcessorError Nov 4 15:43:07 debian-10 kernel: [ 1.571412] [Hardware Error]: section_type: IA32/X64 processor error Nov 4 15:43:07 debian-10 kernel: [ 1.571513] [Hardware Error]: Local APIC_ID: 0x1 Nov 4 15:43:07 debian-10 kernel: [ 1.571608] [Hardware Error]: CPUID Info: Nov 4 15:43:07 debian-10 kernel: [ 1.571701] [Hardware Error]: 00000000: 00800f12 00000000 01300800 00000000 Nov 4 15:43:07 debian-10 kernel: [ 1.571805] [Hardware Error]: 00000010: 76d8320b 00000000 178bfbff 00000000 Nov 4 15:43:07 debian-10 kernel: [ 1.571908] [Hardware Error]: 00000020: a55701f5 43dee3ef 9b2472ac 2cad3f57 Nov 4 15:43:07 debian-10 kernel: [ 1.572011] [Hardware Error]: Error Information Structure 0: Nov 4 15:43:07 debian-10 kernel: [ 1.572109] [Hardware Error]: Error Structure Type: unknown Nov 4 15:43:07 debian-10 kernel: [ 1.572208] [Hardware Error]: Error Structure Type: 00000001-0000-0000-1f00-4d0600000000
Systemy, których dotyczy problem
W systemie z następującą konfiguracją, występuje opisany problem:
- Płyta główna Supermicro H11DSi-NT
- 2x AMD EPYC 7401
- Debian 10 (z KVM)
- Jądro Linuksa: 4.19.0-6-amd64 #1 SMP Debian 4.19.67-2+deb10u1 (2019-09-20) x86_64 GNU/Linux
- Wersaj BIOS-u: BIOS 1.0c
Forum Proxmoxa zawiera również informacje o losowych restartach z komunikatem o błędzie BERT "fru_text: ProcessorError":[1]
- Supermicro H11SSL-i
- Supermicro H11DSU-iN
Informacje o błędzie "fru_text: ProcessorError" można również znaleźć w forum Fedory:[2]
- Supermicro H11SSL-i
- AMD EPYC 7301
- Ubuntu 18.04 LTS
- VMware Workstation
Propozycja dla rozwiązania problemu
W komentarzach na forum Fedory użytkownicy piszą, że dostosowanie następujących parametrów w BIOS-ie rozwiązało problem:[2]
Advanced -> NB Configuration -> IOMMU (change to Enabled) Advanced -> PCIe/PCI/PnP Configuration -> SR-IOV Support (change to Enabled)
Generalnie zalecamy aktualizację do najnowszej wersji BIOS-u, która zawiera nowszą wersję AMD AGESA lub nowszy mikrokod.
Odnośniki
- ↑ Random Restarts (forum.proxmox.com)
- ↑ 2,0 2,1 first server error, reboot, what is this UUID ? (forums.fedoraforum.org)
Autor: Werner Fischer