Nvidia-healthmon
Hinweis: Bitte beachten Sie, dass dieser Artikel / diese Kategorie sich entweder auf ältere Software/Hardware Komponenten bezieht oder aus sonstigen Gründen nicht mehr gewartet wird. Diese Seite wird nicht mehr aktualisiert und ist rein zu Referenzzwecken noch hier im Archiv abrufbar. |
---|
Nvidia-healthmon ist Teil des Tesla Deployment Kits und ein Werkzeug zur Überwachung und Kontrolle von Tesla-GPUs in HPC-Umgebungen. Der Fokus bei der Analyse liegt auf Software- und System-Konfigurations-Ebene und nur eingeschränkt auf Hardware-Fehler.
Installation
Die aktuelle Version kann von der Tesla-Deployment-Webseite herunter geladen werden: https://developer.nvidia.com/tesla-deployment-kit
$ wget https://developer.nvidia.com/sites/default/files/akamai/cuda/files/CUDADownloads/NVML/tdk_3.304.5.tar.gz $ tar xzf tdk_3.304.5.tar.gz $ cd tdk_3.304.5/ tdk_3.304.5$ ls nvidia-healthmon nvml README.txt $ cd nvidia-healthmon/ tdk_3.304.5/nvidia-healthmon$ ls config.ini COPYING.txt doc nvidia-healthmon nvidia-healthmon_x86 README.txt
Konfiguration
Die Konfigurations-Datei gibt an, welche Tests durchgeführt werden. Die beiden pdf-Dateien im "/doc" Verzeichnis, "nvidia-healthmon_Best_Practices_Guide.pdf" und "nvidia-healthmon_User_Guide.pdf" geben nähere Informationen über die Konfiguration und Verwendung von nvidia-healthmon. Folgende Beispiel-Konfiguration prüft die PCIe-Link-Einstellungen:
$ cat K20.conf [global] devices.tesla.count = 1 drivers.blacklist = nouveau [Tesla K20c] pci.gen = 2 pci.width = 16 temperature.warn = 95
Starten eines Tests
nvidia-healthmon kann in einem Quick- und einem Extended-Modus ausgeführt werden. Beide Modi haben gemein, dass unter Umständen eine CUDA-Context erzeugt wird und dadurch Probleme mit GPUs im Exclusive Mode entstehen könnten. Im Extended Modus findet außerdem ein Speicher-Test statt, der einiges an GPU-Speicher allokiert. Es empfiehlt sich daher:
- Nvidia-healthmon im Quick-Modus neben anderen GPU-Applikationen im Default-Modus laufen zu lassen.
- Von Zeit zu Zeit, wenn keine GPU-Applikationen laufen, nvidia-healthmon im extended Modus zu starten.
tdk_3.304.5/nvidia-healthmon$ ./nvidia-healthmon -c K20.conf Loading Config: SUCCESS Global Tests Black-Listed Drivers: SUCCESS Load NVML: SUCCESS Load CUDA: SUCCESS NVML Sanity: SUCCESS Tesla Devices Count: SUCCESS Global Test Results: 5 success, 0 errors, 0 warnings, 0 did not run ----------------------------------------------------------- GPU 0000:83:00.0 #0 : Tesla K20c (Serial: 0334312003221) NVML Sanity: SUCCESS InfoROM: SKIPPED GEMINI InfoROM: SKIPPED ECC: SUCCESS CUDA Sanity: SUCCESS PCIe Maximum Link Generation: SUCCESS PCIe Maximum Link Width: SUCCESS PCI Bandwidth: SKIPPED Memory: SKIPPED Device Results: 5 success, 0 errors, 0 warnings, 4 did not run System Results: 10 success, 0 errors, 0 warnings, 4 did not run One or more tests didn't run.
Autor: Georg Schönberger Georg Schönberger, Abteilung DevOps bei der XORTEX eBusiness GmbH, absolvierte an der FH OÖ am Campus Hagenberg sein Studium zum Bachelor Computer- und Mediensicherheit, Studium Master Sichere Informationssysteme. Seit 2015 ist Georg bei XORTEX beschäftigt und arbeitet sehr lösungsorientiert und hat keine Angst vor schwierigen Aufgaben. Zu seinen Hobbys zählt neben Linux auch Tennis, Klettern und Reisen.
|