Festplattenausfall bei Adaptec RAID Controller mit ARCCONF beheben

Aus Thomas-Krenn-Wiki
Zur Navigation springen Zur Suche springen

Dieser Artikel beinhaltet das empfohlene Vorgehen bei einem Festplattenausfall an einem Adaptec RAID Controller mit installierten ARCCONF (Command Line Interface für Adaptec RAID Controller).

Problem

An einem Serversystem mit einem Adaptec RAID Controller und installiertem ARCCONF ist eine Festplatte ausgefallen. Die Folge dieses Ausfalles ist, dass das entsprechende Logical Device in den Status degraded übergeht. Denkbare Ursachen für einen Festplattenausfall können z. B. sein:

  • Die Festplatte hat mehrere defekte Sektoren. (media errors)
  • Die Festplatte reagiert nicht innerhalb der vom Controller vorgegebenen Zeit auf Kommandos. (timeouts)

Hinweis: RAID Controller und Festplatten haben Mechanismen, welche einzelne defekte Sektoren ausgrenzen können und diese Sektoren durch Sektoren aus einem Sparebereich ersetzen können. Überschreitet die Anzahl der defekten Sektoren einen gewissen Schwellwert, akzeptiert der RAID Controller die Festplatte nicht mehr und sie muss gegen eine neue ausgetauscht werden.

Anleitung

Schritt 1: Rescan

Da es in sehr seltenen Fällen vorkommen kann, dass Festplatten, die eigentlich völlig in Ordnung sind, nicht rechtzeitig auf Kommandos des Controllers antworten (timeouts), muss nicht zwangsläufig die Festplatte gegen eine neue ausgetauscht werden. Aus diesem Grund sollte zunächst ein Rescan am Controller durchgeführt werden:

ARCCONF RESCAN <Controller#>

Beispiel:

ARCCONF RESCAN 1

Wenn die Festplatte noch in Ordnung ist bzw. keinen elektrischen oder mechanischen Defekt hat, findet sie der Controller wieder und sie wird zumindest bei den Physical Devices wieder mit angezeigt:

ARCCONF GETCONFIG <Controller#> PD

Beispiel:

ARCCONF GETCONFIG 1 PD

Anmerkung:

Da der obige Parameter bei einer großen Anzahl von Festplatten eine sehr lange Ausgabe bringt, kann man diese (unter Linux) auf die wichtigsten Infos kürzen:

 arcconf getconfig 1 pd|egrep "Device #|State\>|Reported Location|Reported Channel|S.M.A.R.T. warnings"

Ist der Bereich mit den Meta-Daten auf der Festplatte noch in Ordnung, wird die Festplatte in den meisten Fällen wieder als Member von dem entsprechenden Logical Device angezeigt. Der Status des Logical Device bleibt dann aber im Status degraded, da es durch den Ausfall der Festplatte mit sehr hoher Wahrscheinlichkeit nicht mehr konsistent ist. Aus diesem Grund muss man einen Rebuild des Logical Device per Hand anstoßen.

Wird die Festplatte nach dem Rescan nicht mehr erkannt, kann das folgende Ursachen haben:

  • Die Festplatte ist defekt.
  • Das Kabel vom Controller zur Festplatte bzw. zur Backplane ist defekt.
  • Die Backplane ist defekt.
  • Der Controller ist defekt.

Schritt 2: Clear und Verify

Wird nach dem Rescan von Schritt 1 die Festplatte wieder erkannt, muss man den Rebuild per Hand anstoßen. Dabei muss zunächst der Bereich mit den Meta-Daten der ausgefallenen Festplatte gelöscht werden:

ARCCONF TASK START <Controller#> DEVICE <Channel#> <ID#> CLEAR

Beispiel:

ARCCONF TASK START 1 DEVICE 0 0 CLEAR

Ist der Clear-Task durchgelaufen, wird ein anschließender Verify der Festplatte empfohlen, um sie auf defekte Sektoren hin zu überprüfen:

ARCCONF TASK START <Controller#> DEVICE <Channel#> <ID#> VERIFY

Beispiel:

ARCCONF TASK START 1 DEVICE 0 0 VERIFY

Um bei dieser Gelegenheit evtl. defekte Sektoren zu reparieren kann man statt der Option VERIFY auch die Option VERIFY_FIX verwenden.

Schritt 3: erneuter Rescan

Nun sollte die Festplatte bei einem erneuten Rescan als verfügbare Festplatte angezeigt werden, und der Rebuild startet an dieser Stelle schon automatisch - vorausgesetzt die Automatic Failover Funktion ist aktiviert. Ob dieses Feature aktiviert ist, können Sie mit folgenden Kommando abfragen:

ARCCONF GETCONFIG <Controller#> AD

Beispiel:

ARCCONF GETCONFIG 1 AD

Aktivieren oder Deaktivieren der Automatic Failover Funktion:

ARCCONF FAILOVER <Controller#> <on|off>

Beispiel:

ARCCONF FAILOVER 1 on

Schritt 4: designated Hotspare

Für den Fall, dass die Automatic Failover Funktion nicht aktiviert ist, und Sie diese auch nicht aktivieren wollen, gibt es noch die Möglichkeit die verfügbare Festplatte als designated Hotspare zu definieren. Auf diese Weise können Sie die verfügbare Festplatte dem entsprechenden Logical Device zuordnen und der Rebuild startet anschließend automatisch:

ARCCONF SETSTATE <Controller#> DEVICE <Channel#> <ID#> HSP LOGICALDRIVE <LD#>

Beispiel:

ARCCONF SETSTATE 1 DEVICE 0 0 HSP LOGICALDRIVE 1

Weblinks

Adaptec RAID Controller Command Line Utility User's Guide (v6.10)

Das könnte Sie auch interessieren

Adaptec RAID Controller
Adaptec RAID Controller in VMware überwachen mit MaxView Storage Manager
Adaptec RAID Monitoring Plugin