In einem Ceph-Cluster mit einer Speicherauslastung von 75% oder mehr besteht die Gefahr, dass eine oder mehrere OSDs bei einem Node-Ausfall voll laufen. Dies geschieht durch die automatische Verteilung der Placement Groups (PGs) des ausgefallenen Nodes auf die verbleibenden OSDs. Wenn einzelne OSDs dabei 95% oder mehr ihrer Kapazität erreichen, werden diese von Ceph gestoppt. Dadurch sind das Ceph-Cluster und die darauf gespeicherten virtuellen Maschinen (VMs) nicht mehr funktionsfähig.
In diesem Artikel erfahren Sie, wie Sie dieses Szenario vermeiden können und welchen Risiken und Einschränkungen im Betrieb Ihres Ceph Clusters damit einhergehen.

Bei einem Node-Ausfall ohne manuelle Intervention beginnt Ceph automatisch mit der Wiederherstellung der PGs auf anderen Nodes. Dies kann bei hoher Speicherauslastung dazu führen, dass:
Dies kann durch das norecover Flag verhindert werden.
Um das Problem zu umgehen, kann das Setzen des Flags norecover unter Manage Global Flags in der Ceph OSD-Ansicht helfen. Dies verhindert, dass Ceph automatisch mit der Wiederherstellung der PGs beginnt. Die PGs der ausgefallenen Node werden nicht auf andere OSDs verschoben, wodurch ein Überlaufen verhindert wird. Das restliche Storage bleibt funktionsfähig.
Die folgende Bildergalerie zeigt, wie Sie das norecover Flag aktivieren.
norecover flag.Wichtig: Nach dem Ausfall eines Nodes hat man etwa 10 Minuten Zeit, um das Flag norecover zu aktivieren!
Die Nutzung des norecoverFlags birgt Risiken, z.B. die Gefahr eines Datenverlustes:
|
Autor: Samuel Müller Samuel Müller ist seit 2024 im Product Management Team bei der Thomas-Krenn tätig. Dabei beschäftigt sich Herr Müller mit Proxmox VE, Proxmox Mail Gateway und Proxmox Datacenter Manager und unter anderem mit dem Thomas-Krenn-Wiki. |