Hardware error from APEI Generic Hardware Error Source
Beim Auftreten von Hardware-Fehlern können Betriebssysteme mit Hilfe der ACPI Platform Error Interfaces (APEI) Details zu den Fehlern in Logdateien dokumentieren. In diesem Artikel zeigen wir, wie damit unter Linux beispielsweise ein Netzwerkkartenfehler anhand der Meldung "Hardware error from APEI Generic Hardware Error Source" lokalisiert werden kann.
Grundlagen und Begriffe
Die ACPI Spezifikation sieht mit den ACPI Platform Error Interfaces (APEI) umfangreiche Möglichkeiten zur Fehlerberichterstattung vor.[1] Betriebssysteme wie Linux, Windows oder FreeBSD können damit Informationen über Hardware-Fehler in Logdateien protokollieren.[2]
In diesem Umfeld häufig verwendete Begriffe sind:
- ACPI: Advanced Configuration and Power Interface
- APEI: ACPI Platform Error Interfaces
- OSPM: OS-directed configuration and power management
Beispiel
Der folgende Logeintrag von /var/log/syslog eines Ubuntu 18.04 Systems zeigt einen Fehler mit einer Netzwerkkarte:
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 514 [Do Mär 26 07:38:49 2020] {2}[Hardware Error]: It has been corrected by h/w and requires no further action [Do Mär 26 07:38:49 2020] {2}[Hardware Error]: event severity: corrected [Do Mär 26 07:38:49 2020] {2}[Hardware Error]: Error 0, type: corrected [Do Mär 26 07:38:49 2020] {2}[Hardware Error]: section_type: PCIe error [Do Mär 26 07:38:49 2020] {2}[Hardware Error]: port_type: 0, PCIe end point [Do Mär 26 07:38:49 2020] {2}[Hardware Error]: version: 0.2 [Do Mär 26 07:38:49 2020] {2}[Hardware Error]: command: 0x0406, status: 0x0010 [Do Mär 26 07:38:49 2020] {2}[Hardware Error]: device_id: 0000:43:00.0 [Do Mär 26 07:38:49 2020] {2}[Hardware Error]: slot: 0 [Do Mär 26 07:38:49 2020] {2}[Hardware Error]: secondary_bus: 0x00 [Do Mär 26 07:38:49 2020] {2}[Hardware Error]: vendor_id: 0x8086, device_id: 0x1563 [Do Mär 26 07:38:49 2020] {2}[Hardware Error]: class_code: 020000 [Do Mär 26 07:38:49 2020] {2}[Hardware Error]: bridge: secondary_status: 0x0000, control: 0x0000 [Do Mär 26 07:38:49 2020] {2}[Hardware Error]: Error 1, type: corrected [Do Mär 26 07:38:49 2020] {2}[Hardware Error]: section_type: PCIe error [Do Mär 26 07:38:49 2020] {2}[Hardware Error]: port_type: 0, PCIe end point [Do Mär 26 07:38:49 2020] {2}[Hardware Error]: version: 0.2 [Do Mär 26 07:38:49 2020] {2}[Hardware Error]: command: 0x0406, status: 0x0010 [Do Mär 26 07:38:49 2020] {2}[Hardware Error]: device_id: 0000:43:00.1 [Do Mär 26 07:38:49 2020] {2}[Hardware Error]: slot: 0 [Do Mär 26 07:38:49 2020] {2}[Hardware Error]: secondary_bus: 0x00 [Do Mär 26 07:38:49 2020] {2}[Hardware Error]: vendor_id: 0x8086, device_id: 0x1563 [Do Mär 26 07:38:49 2020] {2}[Hardware Error]: class_code: 020000 [Do Mär 26 07:38:49 2020] {2}[Hardware Error]: bridge: secondary_status: 0x0000, control: 0x0000 [Do Mär 26 07:38:49 2020] ixgbe 0000:43:00.0: AER: aer_status: 0x00001000, aer_mask: 0x00000000 [Do Mär 26 07:38:49 2020] ixgbe 0000:43:00.0: AER: [12] Timeout [Do Mär 26 07:38:49 2020] ixgbe 0000:43:00.0: AER: aer_layer=Data Link Layer, aer_agent=Transmitter ID [Do Mär 26 07:38:49 2020] ixgbe 0000:43:00.1: AER: aer_status: 0x00001000, aer_mask: 0x00000000 [Do Mär 26 07:38:49 2020] ixgbe 0000:43:00.1: AER: [12] Timeout [Do Mär 26 07:38:49 2020] ixgbe 0000:43:00.1: AER: aer_layer=Data Link Layer, aer_agent=Transmitter ID
In den Logeinträgen sind folgende Informationen enthalten:
- Hardware error from APEI Generic Hardware Error Source: 514
- section_type: PCIe error
- device_id: 0000:43:00.0
- vendor_id: 0x8086, device_id: 0x1563
- ixgbe 0000:43:00.0 [...] aer_layer=Data Link Layer
Die Ausgabe von lspci -nn zeigt, dass in diesem Beispielsystem eine Dual-Port X550 Netzwerkkarte betroffen ist:
lspci -nn | grep 1563 43:00.0 Ethernet controller [0200]: Intel Corporation Ethernet Controller 10G X550T [8086:1563] (rev 01) 43:00.1 Ethernet controller [0200]: Intel Corporation Ethernet Controller 10G X550T [8086:1563] (rev 01)
Mögliche Ursachen
In diesem Beispiel sind drei Ursachen möglich:
- Probleme bei der Steckverbindung.
- Die Dual-Port X550 Netzwerkkarte selbst.
- Probleme beim Mainboard.
Zur Fehlerbehebung empfehlen wir in derartigen Fällen:
- Aus- und Einstecken der betroffenen Erweiterungskarte.
- Austausch der betroffenen Erweiterungskarte (wie Netzwerkkarte in diesem Beispiel).
- Austausch des Mainboards.
Weitere Informationen
- Unified Extensible Firmware Interface Forum - Specifications (uefi.org)
- Some PCIe errors not surfaced through rasdaemon (bugs.launchpad.net)
- PCIe AER [Advanced Error Reporting and ACS [Access Control Services] BIOS Settings for vGPUs that Support SR-IOV] (enterprise-support.nvidia.com, 13.10.2021)
- virtualization function under OS on my H11/H12 series motherboard: Which BIOS items should I enable or disable under BIOS (www.supermicro.com/support/faqs)
Einzelnachweise
- ↑ 1,0 1,1 Advanced Configuration and Power Interface (ACPI) Specification Version 6.3 (uefi.org, 01/2019) Kapitel 18 ACPI Platform Error Interfaces (APEI) (Seite 834 ff.)
- ↑ APEI Generic Hardware Error Source support (github.com/torvalds/linux)
Autor: Werner Fischer Werner Fischer arbeitet im Product Management Team von Thomas-Krenn. Er evaluiert dabei neueste Technologien und teilt sein Wissen in Fachartikeln, bei Konferenzen und im Thomas-Krenn Wiki. Bereits 2005 - ein Jahr nach seinem Abschluss des Studiums zu Computer- und Mediensicherheit an der FH Hagenberg - heuerte er beim bayerischen Server-Hersteller an. Als Öffi-Fan nutzt er gerne Bus & Bahn und genießt seinen morgendlichen Spaziergang ins Büro.
|