Nvidia-healthmon

Aus Thomas-Krenn-Wiki
Wechseln zu: Navigation, Suche

Nvidia-healthmon ist Teil des Tesla Deployment Kits und ein Werkzeug zur Überwachung und Kontrolle von Tesla-GPUs in HPC-Umgebungen. Der Fokus bei der Analyse liegt auf Software- und System-Konfigurations-Ebene und nur eingeschränkt auf Hardware-Fehler.

Installation

Die aktuelle Version kann von der Tesla-Deployment-Webseite herunter geladen werden: https://developer.nvidia.com/tesla-deployment-kit

$ wget https://developer.nvidia.com/sites/default/files/akamai/cuda/files/CUDADownloads/NVML/tdk_3.304.5.tar.gz
$ tar xzf tdk_3.304.5.tar.gz
$ cd tdk_3.304.5/
tdk_3.304.5$ ls
nvidia-healthmon  nvml  README.txt
$ cd nvidia-healthmon/
tdk_3.304.5/nvidia-healthmon$ ls
config.ini  COPYING.txt  doc  nvidia-healthmon  nvidia-healthmon_x86  README.txt

Konfiguration

Die Konfigurations-Datei gibt an, welche Tests durchgeführt werden. Die beiden pdf-Dateien im "/doc" Verzeichnis, "nvidia-healthmon_Best_Practices_Guide.pdf" und "nvidia-healthmon_User_Guide.pdf" geben nähere Informationen über die Konfiguration und Verwendung von nvidia-healthmon. Folgende Beispiel-Konfiguration prüft die PCIe-Link-Einstellungen:

$ cat K20.conf 
[global]
devices.tesla.count = 1
drivers.blacklist = nouveau
[Tesla K20c]
pci.gen = 2
pci.width = 16
temperature.warn = 95

Starten eines Tests

nvidia-healthmon kann in einem Quick- und einem Extended-Modus ausgeführt werden. Beide Modi haben gemein, dass unter Umständen eine CUDA-Context erzeugt wird und dadurch Probleme mit GPUs im Exclusive Mode entstehen könnten. Im Extended Modus findet außerdem ein Speicher-Test statt, der einiges an GPU-Speicher allokiert. Es empfiehlt sich daher:

  • Nvidia-healthmon im Quick-Modus neben anderen GPU-Applikationen im Default-Modus laufen zu lassen.
  • Von Zeit zu Zeit, wenn keine GPU-Applikationen laufen, nvidia-healthmon im extended Modus zu starten.
tdk_3.304.5/nvidia-healthmon$ ./nvidia-healthmon -c K20.conf 

Loading Config: SUCCESS
Global Tests
   Black-Listed Drivers: SUCCESS
   Load NVML: SUCCESS
   Load CUDA: SUCCESS
   NVML Sanity: SUCCESS
   Tesla Devices Count: SUCCESS
   Global Test Results: 5 success, 0 errors, 0 warnings, 0 did not run

-----------------------------------------------------------

GPU 0000:83:00.0 #0 : Tesla K20c (Serial: 0334312003221)
   NVML Sanity: SUCCESS
   InfoROM: SKIPPED
   GEMINI InfoROM: SKIPPED
   ECC: SUCCESS
   CUDA Sanity: SUCCESS
   PCIe Maximum Link Generation: SUCCESS
   PCIe Maximum Link Width: SUCCESS
   PCI Bandwidth: SKIPPED
   Memory: SKIPPED
   Device Results: 5 success, 0 errors, 0 warnings, 4 did not run

System Results: 10 success, 0 errors, 0 warnings, 4 did not run
One or more tests didn't run.
Foto Georg Schönberger.jpg

Autor: Georg Schönberger

Georg Schönberger, Abteilung DevOps bei der XORTEX eBusiness GmbH, absolvierte an der FH OÖ am Campus Hagenberg sein Studium zum Bachelor Computer- und Mediensicherheit, Studium Master Sichere Informationssysteme. Seit 2015 ist Georg bei XORTEX beschäftigt und arbeitet sehr lösungsorientiert und hat keine Angst vor schwierigen Aufgaben. Zu seinen Hobbys zählt neben Linux auch Tennis, Klettern und Reisen.


Das könnte Sie auch interessieren

CUDA
CUDA Installation
CUDA Programmierung