ASUS RS500A-E10-RS12U Bootschleife beheben

Aus Thomas-Krenn-Wiki
Zur Navigation springen Zur Suche springen

Bei ASUS RS500A-E10-RS12U Servern kann es mit älteren BIOS Versionen zu Problemen beim Hinzufügen von zusätzlichen NVMe SSDs geben. Die Probleme äußern sich bei einem Hot-Add durch SATA Fehlermeldungen, bei einem Cold-Add bleibt das System beim Startversuch in einer Bootschleife hängen. Ein Update auf BIOS 4301 behebt das Problem.

Betroffene Hardware

  • ASUS RS500A-E10-RS12U mit EPYC 7402P in folgender Konfiguration:
    • BIOS Version 0501 (Release Date: 11/07/2019) sowie 4003 (07/20/2020) getestet (bei beiden Versionen trat das Problem auf)
    • Slot 11 + 12: SATA SSDs (Samsung MZ7KH240HAHQ-00005)
      • NVMe Adapter-Karte für Slot 11 + 12 ausgebaut (in Slot kam eine zweite Mellanox 25GbE ConnectX-5 EN SFP28 Dual Port Netzwerkkarte)
    • Asus 10 Gigabit RJ45 Dual Port Mezzanine Netzwerkkarte
    • 8x 64 GB RAM LDRIMM Samsung
    • 1x Intel P4500 SSDPE2KX020T7
    • 4x Intel P4510 SSDPE2KX020T8

Beim Ergänzen folgender NVMe SSD wurden die Probleme beobachtet:

  • 1x Intel/Solidigm D7-P5520 SSDPF2KX019T1M

Probleme

Hot-Add

Bei einem System mit BIOS Version 0501 (Release Date: 11/07/2019) trat folgendes Problem auf, als im laufenden Betrieb eine sechste NVMe SSD an die Backplane angeschlossen wurde (hot-add). Genau 30 Sekunden nach dem erkennen der nvme5 kam es zu SATA Fehlern in dmesg. Es kam zu einem Reset sämtlicher SATA Verbindungen, wodurch die beiden SATA-SSDs des Betriebssystems (konfiguriert als Software RAID 1) auch zurückgesetzt wurden:

[Fr Okt  7 08:10:09 2022] pcieport 0000:40:01.4: pciehp: Slot(5-1): Card present
[Fr Okt  7 08:10:09 2022] pcieport 0000:40:01.4: pciehp: Slot(5-1): Link Up
[...]
[Fr Okt  7 08:10:09 2022] nvme nvme5: pci function 0000:42:00.0
[Fr Okt  7 08:10:09 2022] nvme 0000:42:00.0: enabling device (0000 -> 0002)
[Fr Okt  7 08:10:12 2022] nvme nvme5: 133/0/2 default/read/poll queues
[Fr Okt  7 08:10:39 2022] ata16.00: exception Emask 0x52 SAct 0x0 SErr 0xffffffff action 0xe frozen
[Fr Okt  7 08:10:39 2022] ata16: SError: { RecovData RecovComm UnrecovData Persist Proto HostInt PHYRdyChg PHYInt CommWake 10B8B Dispar BadCRC Handshk LinkSeq TrStaTrns UnrecFIS DevExch }
[Fr Okt  7 08:10:39 2022] ata16.00: failed command: FLUSH CACHE EXT
[Fr Okt  7 08:10:39 2022] ata16.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 10
                                   res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x56 (ATA bus error)
[Fr Okt  7 08:10:39 2022] ata16.00: status: { DRDY }
[Fr Okt  7 08:10:39 2022] ata16: hard resetting link
[Fr Okt  7 08:10:39 2022] ahci 0000:48:00.0: AHCI controller unavailable!
[Fr Okt  7 08:10:40 2022] ata16: failed to resume link (SControl FFFFFFFF)
[Fr Okt  7 08:10:40 2022] ata16: SATA link down (SStatus FFFFFFFF SControl FFFFFFFF)
[Fr Okt  7 08:10:45 2022] ata16: hard resetting link
[Fr Okt  7 08:10:45 2022] ahci 0000:48:00.0: AHCI controller unavailable!
[Fr Okt  7 08:10:45 2022] ata15.00: exception Emask 0x52 SAct 0x2 SErr 0xffffffff action 0xe frozen
[Fr Okt  7 08:10:45 2022] ata15: SError: { RecovData RecovComm UnrecovData Persist Proto HostInt PHYRdyChg PHYInt CommWake 10B8B Dispar BadCRC Handshk LinkSeq TrStaTrns UnrecFIS DevExch }
[Fr Okt  7 08:10:45 2022] ata15.00: failed command: READ FPDMA QUEUED
[Fr Okt  7 08:10:45 2022] ata15.00: cmd 60/60:08:b0:52:45/00:00:01:00:00/40 tag 1 ncq dma 49152 in
                                   res 40/00:01:00:00:00/00:00:00:00:00/00 Emask 0x56 (ATA bus error)
[Fr Okt  7 08:10:45 2022] ata15.00: status: { DRDY }
[Fr Okt  7 08:10:45 2022] ata15: hard resetting link
[Fr Okt  7 08:10:45 2022] ahci 0000:48:00.0: AHCI controller unavailable!
[Fr Okt  7 08:10:47 2022] ata15: failed to resume link (SControl FFFFFFFF)
[Fr Okt  7 08:10:47 2022] ata15: SATA link down (SStatus FFFFFFFF SControl FFFFFFFF)
[Fr Okt  7 08:10:52 2022] ata15: hard resetting link
[...]
[Fr Okt  7 08:11:03 2022] md: super_written gets error=10
[Fr Okt  7 08:11:03 2022] md/raid1:md1: Disk failure on sdb3, disabling device.
                          md/raid1:md1: Operation continuing on 1 devices.
[...]
[Fr Okt  7 08:11:04 2022] sd 14:0:0:0: [sda] Stopping disk
[Fr Okt  7 08:11:04 2022] sd 14:0:0:0: [sda] Start/Stop Unit failed: Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
[Fr Okt  7 08:11:04 2022] md/raid1:md0: sda2: unrecoverable I/O read error for block 1638400
[Fr Okt  7 08:11:04 2022] md: super_written gets error=10
[Fr Okt  7 08:11:04 2022] md: super_written gets error=10
[...]

Cold-Add

Ebenso treten Probleme auf, wenn die sechste NVMe SSD im ausgeschalteten Serverzustand ergänzt wird. Der Server bleibt in der Folge beim Hochfahren in einer Bootschleife hängen.

Wir konnten das Problem auch mit der BIOS Version 4003 (07/20/2020) und BMC Version 2.03.1 nachstellen.

Lösung BIOS 4301

Ein BIOS Update auf Version 4301 (11/19/2021) und BMC Version 2.03.1 behebt die Probleme.

Der folgende dmesg Auszug zeigt das Hinzufügen einer siebten NVMe SSD:

[Mi Dez 14 18:54:02 2022] pcieport 0000:40:01.3: pciehp: Slot(6): Card present
[Mi Dez 14 18:54:02 2022] pcieport 0000:40:01.3: pciehp: Slot(6): Link Up
[Mi Dez 14 18:54:02 2022] pci 0000:41:00.0: [8086:0b60] type 00 class 0x010802
[Mi Dez 14 18:54:02 2022] pci 0000:41:00.0: reg 0x10: [mem 0x00000000-0x00003fff 64bit]
[Mi Dez 14 18:54:02 2022] pci 0000:41:00.0: reg 0x30: [mem 0x00000000-0x0000ffff pref]
[Mi Dez 14 18:54:02 2022] pci 0000:41:00.0: enabling Extended Tags
[Mi Dez 14 18:54:02 2022] pci 0000:41:00.0: Adding to iommu group 28
[Mi Dez 14 18:54:02 2022] pci 0000:41:00.0: BAR 6: assigned [mem 0xb1100000-0xb110ffff pref]
[Mi Dez 14 18:54:02 2022] pci 0000:41:00.0: BAR 0: assigned [mem 0xb1110000-0xb1113fff 64bit]
[Mi Dez 14 18:54:02 2022] pcieport 0000:40:01.3: PCI bridge to [bus 41]
[Mi Dez 14 18:54:02 2022] pcieport 0000:40:01.3:   bridge window [io  0x4000-0x4fff]
[Mi Dez 14 18:54:02 2022] pcieport 0000:40:01.3:   bridge window [mem 0xb1100000-0xb11fffff]
[Mi Dez 14 18:54:02 2022] pcieport 0000:40:01.3:   bridge window [mem 0x20080200000-0x200803fffff 64bit pref]
[Mi Dez 14 18:54:02 2022] nvme nvme6: pci function 0000:41:00.0
[Mi Dez 14 18:54:02 2022] nvme 0000:41:00.0: enabling device (0000 -> 0002)
[Mi Dez 14 18:54:05 2022] nvme nvme6: 48/0/2 default/read/poll queues

Weitere Informationen


Foto Werner Fischer.jpg

Autor: Werner Fischer

Werner Fischer arbeitet im Product Management Team von Thomas-Krenn. Er evaluiert dabei neueste Technologien und teilt sein Wissen in Fachartikeln, bei Konferenzen und im Thomas-Krenn Wiki. Bereits 2005 - ein Jahr nach seinem Abschluss des Studiums zu Computer- und Mediensicherheit an der FH Hagenberg - heuerte er beim bayerischen Server-Hersteller an. Als Öffi-Fan nutzt er gerne Bus & Bahn und genießt seinen morgendlichen Spaziergang ins Büro.


Das könnte Sie auch interessieren

ASUS P12R-I BIOS Update
ASUS RS500A-E10-RS12U mit PCIe 4.0 NVMe SSD Hardware error from APEI Generic Hardware Error Source 514
ASUS Server BIOS Einstellungen via Web