Random Reboots AMD EPYC Server

Aus Thomas-Krenn-Wiki
Zur Navigation springen Zur Suche springen

Auf Servern mit AMD EPYC CPUs kann es beim Betrieb von Linux mit KVM zu zufälligen Neustarts kommen. Im Syslog finden sich danach Einträge der Boot Error Record Table (BERT) mit dem Hinweis fru_text: ProcessorError. In diesem Artikel finden Sie Detailinformationen zu diesem Fehler und Lösungsvorschläge zur Behebung.

Problem fru_text: ProcessorError

Beim Betrieb von Linux mit KVM kommt es auf Servern mit AMD EPYC CPUs zu zufälligen Neustarts. Im Anschluss finden sich im Syslog folgende Hinweise (Log-Auszug vom November 2019):

Nov 4 15:43:07 debian-10 kernel: [ 1.569903] BERT: Error records from previous boot:
Nov 4 15:43:07 debian-10 kernel: [ 1.570000] [Hardware Error]: event severity: info
Nov 4 15:43:07 debian-10 kernel: [ 1.570095] [Hardware Error]: Error 0, type: fatal
Nov 4 15:43:07 debian-10 kernel: [ 1.570191] [Hardware Error]: fru_text: ProcessorError
Nov 4 15:43:07 debian-10 kernel: [ 1.570288] [Hardware Error]: section_type: IA32/X64 processor error
Nov 4 15:43:07 debian-10 kernel: [ 1.570389] [Hardware Error]: Local APIC_ID: 0x0
Nov 4 15:43:07 debian-10 kernel: [ 1.570484] [Hardware Error]: CPUID Info:
Nov 4 15:43:07 debian-10 kernel: [ 1.570579] [Hardware Error]: 00000000: 00800f12 00000000 00300800 00000000
Nov 4 15:43:07 debian-10 kernel: [ 1.570682] [Hardware Error]: 00000010: 76d8320b 00000000 178bfbff 00000000
Nov 4 15:43:07 debian-10 kernel: [ 1.570786] [Hardware Error]: 00000020: 48ab7f57 4f6cdc34 b5b0d3a7 1443a7b0
Nov 4 15:43:07 debian-10 kernel: [ 1.570889] [Hardware Error]: Error Information Structure 0:
Nov 4 15:43:07 debian-10 kernel: [ 1.570988] [Hardware Error]: Error Structure Type: unknown
Nov 4 15:43:07 debian-10 kernel: [ 1.571087] [Hardware Error]: Error Structure Type: 00000001-0000-0000-2700-980000000000
Nov 4 15:43:07 debian-10 kernel: [ 1.571221] [Hardware Error]: Error 1, type: fatal
Nov 4 15:43:07 debian-10 kernel: [ 1.571316] [Hardware Error]: fru_text: ProcessorError
Nov 4 15:43:07 debian-10 kernel: [ 1.571412] [Hardware Error]: section_type: IA32/X64 processor error
Nov 4 15:43:07 debian-10 kernel: [ 1.571513] [Hardware Error]: Local APIC_ID: 0x1
Nov 4 15:43:07 debian-10 kernel: [ 1.571608] [Hardware Error]: CPUID Info:
Nov 4 15:43:07 debian-10 kernel: [ 1.571701] [Hardware Error]: 00000000: 00800f12 00000000 01300800 00000000
Nov 4 15:43:07 debian-10 kernel: [ 1.571805] [Hardware Error]: 00000010: 76d8320b 00000000 178bfbff 00000000
Nov 4 15:43:07 debian-10 kernel: [ 1.571908] [Hardware Error]: 00000020: a55701f5 43dee3ef 9b2472ac 2cad3f57
Nov 4 15:43:07 debian-10 kernel: [ 1.572011] [Hardware Error]: Error Information Structure 0:
Nov 4 15:43:07 debian-10 kernel: [ 1.572109] [Hardware Error]: Error Structure Type: unknown
Nov 4 15:43:07 debian-10 kernel: [ 1.572208] [Hardware Error]: Error Structure Type: 00000001-0000-0000-1f00-4d0600000000

Betroffene Systeme

Uns ist ein System mit folgender Konfiguration bekannt, bei dem das geschilderte Problem auftritt:

  • Supermicro Mainboard H11DSi-NT
  • 2x AMD EPYC 7401
  • Debian 10 (mit KVM)
  • Linux Kernel: 4.19.0-6-amd64 #1 SMP Debian 4.19.67-2+deb10u1 (2019-09-20) x86_64 GNU/Linux
  • BIOS Version: BIOS 1.0c

Im Proxmox Forum finden sich ebenso Berichte über zufällige Reboots mit der BERT-Fehlermeldung "fru_text: ProcessorError":[1]

  • Supermicro H11SSL-i
  • Supermicro H11DSU-iN

Ebenso finden sich im Fedora Forum Bericht zur Fehlermeldung "fru_text: ProcessorError":[2]

Lösungsvorschlag

Im Posting im Fedora Forum schreiben Anwender, dass die Anpassung der folgenden BIOS-Parameter das Problem gelöst haben:[2]

Advanced -> NB Configuration -> IOMMU (change to Enabled)
Advanced -> PCIe/PCI/PnP Configuration -> SR-IOV Support (change to Enabled)

Allgemein empfehlen wir ein Update auf die aktuellste BIOS-Version. Diese enthalten neuere AMD AGESA Versionen bzw. Microcodes.

Weitere Informationen

Einzelnachweise

  1. Random Restarts (forum.proxmox.com)
  2. 2,0 2,1 first server error, reboot, what is this UUID ? (forums.fedoraforum.org)


Foto Werner Fischer.jpg

Autor: Werner Fischer

Werner Fischer arbeitet im Product Management Team von Thomas-Krenn. Er evaluiert dabei neueste Technologien und teilt sein Wissen in Fachartikeln, bei Konferenzen und im Thomas-Krenn Wiki. Bereits 2005 - ein Jahr nach seinem Abschluss des Studiums zu Computer- und Mediensicherheit an der FH Hagenberg - heuerte er beim bayerischen Server-Hersteller an. Als Öffi-Fan nutzt er gerne Bus & Bahn und genießt seinen morgendlichen Spaziergang ins Büro.


Das könnte Sie auch interessieren

Hardwareinfos mit dmidecode auslesen
Linux Root Passwort wiederherstellen
Linux-Tool top