Hardware error from APEI Generic Hardware Error Source

Aus Thomas-Krenn-Wiki
Zur Navigation springen Zur Suche springen

Beim Auftreten von Hardware-Fehlern können Betriebssysteme mit Hilfe der ACPI Platform Error Interfaces (APEI) Details zu den Fehlern in Logdateien dokumentieren. In diesem Artikel zeigen wir, wie damit unter Linux beispielsweise ein Netzwerkkartenfehler anhand der Meldung "Hardware error from APEI Generic Hardware Error Source" lokalisiert werden kann.

Grundlagen und Begriffe

Die ACPI Spezifikation enthält in Kapitel 18 umfangreiche Informationen zur Fehlerberichterstattung via ACPI Platform Error Interfaces (APEI).[1]

Die ACPI Spezifikation sieht mit den ACPI Platform Error Interfaces (APEI) umfangreiche Möglichkeiten zur Fehlerberichterstattung vor.[1] Betriebssysteme wie Linux, Windows oder FreeBSD können damit Informationen über Hardware-Fehler in Logdateien protokollieren.[2]

In diesem Umfeld häufig verwendete Begriffe sind:

  • ACPI: Advanced Configuration and Power Interface
  • APEI: ACPI Platform Error Interfaces
  • OSPM: OS-directed configuration and power management

Beispiel

Der folgende Logeintrag von /var/log/syslog eines Ubuntu 18.04 Systems zeigt einen Fehler mit einer Netzwerkkarte:

[Do Mär 26 07:38:49 2020] {2}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 514
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]: It has been corrected by h/w and requires no further action
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]: event severity: corrected
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]:  Error 0, type: corrected
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]:   section_type: PCIe error
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]:   port_type: 0, PCIe end point
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]:   version: 0.2
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]:   command: 0x0406, status: 0x0010
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]:   device_id: 0000:43:00.0
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]:   slot: 0
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]:   secondary_bus: 0x00
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]:   vendor_id: 0x8086, device_id: 0x1563
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]:   class_code: 020000
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]:   bridge: secondary_status: 0x0000, control: 0x0000
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]:  Error 1, type: corrected
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]:   section_type: PCIe error
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]:   port_type: 0, PCIe end point
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]:   version: 0.2
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]:   command: 0x0406, status: 0x0010
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]:   device_id: 0000:43:00.1
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]:   slot: 0
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]:   secondary_bus: 0x00
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]:   vendor_id: 0x8086, device_id: 0x1563
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]:   class_code: 020000
[Do Mär 26 07:38:49 2020] {2}[Hardware Error]:   bridge: secondary_status: 0x0000, control: 0x0000
[Do Mär 26 07:38:49 2020] ixgbe 0000:43:00.0: AER: aer_status: 0x00001000, aer_mask: 0x00000000
[Do Mär 26 07:38:49 2020] ixgbe 0000:43:00.0: AER:    [12] Timeout              
[Do Mär 26 07:38:49 2020] ixgbe 0000:43:00.0: AER: aer_layer=Data Link Layer, aer_agent=Transmitter ID
[Do Mär 26 07:38:49 2020] ixgbe 0000:43:00.1: AER: aer_status: 0x00001000, aer_mask: 0x00000000
[Do Mär 26 07:38:49 2020] ixgbe 0000:43:00.1: AER:    [12] Timeout              
[Do Mär 26 07:38:49 2020] ixgbe 0000:43:00.1: AER: aer_layer=Data Link Layer, aer_agent=Transmitter ID

In den Logeinträgen sind folgende Informationen enthalten:

  • Hardware error from APEI Generic Hardware Error Source: 514
  • section_type: PCIe error
  • device_id: 0000:43:00.0
  • vendor_id: 0x8086, device_id: 0x1563
  • ixgbe 0000:43:00.0 [...] aer_layer=Data Link Layer

Die Ausgabe von lspci -nn zeigt, dass in diesem Beispielsystem eine Dual-Port X550 Netzwerkkarte betroffen ist:

lspci -nn | grep 1563
43:00.0 Ethernet controller [0200]: Intel Corporation Ethernet Controller 10G X550T [8086:1563] (rev 01)
43:00.1 Ethernet controller [0200]: Intel Corporation Ethernet Controller 10G X550T [8086:1563] (rev 01)

Mögliche Ursachen

In diesem Beispiel sind drei Ursachen möglich:

  1. Probleme bei der Steckverbindung.
  2. Die Dual-Port X550 Netzwerkkarte selbst.
  3. Probleme beim Mainboard.

Zur Fehlerbehebung empfehlen wir in derartigen Fällen:

  1. Aus- und Einstecken der betroffenen Erweiterungskarte.
  2. Austausch der betroffenen Erweiterungskarte (wie Netzwerkkarte in diesem Beispiel).
  3. Austausch des Mainboards.

Weitere Informationen

Einzelnachweise

  1. 1,0 1,1 Advanced Configuration and Power Interface (ACPI) Specification Version 6.3 (uefi.org, 01/2019) Kapitel 18 ACPI Platform Error Interfaces (APEI) (Seite 834 ff.)
  2. APEI Generic Hardware Error Source support (github.com/torvalds/linux)


Foto Werner Fischer.jpg

Autor: Werner Fischer

Werner Fischer arbeitet im Product Management Team von Thomas-Krenn. Er evaluiert dabei neueste Technologien und teilt sein Wissen in Fachartikeln, bei Konferenzen und im Thomas-Krenn Wiki. Bereits 2005 - ein Jahr nach seinem Abschluss des Studiums zu Computer- und Mediensicherheit an der FH Hagenberg - heuerte er beim bayerischen Server-Hersteller an. Als Öffi-Fan nutzt er gerne Bus & Bahn und genießt seinen morgendlichen Spaziergang ins Büro.


Das könnte Sie auch interessieren

Machine Check Exception
Sicherheitshinweise zu AMI-SA-2023009 LogoFail
System Event Log auslesen