Festplatte überprüfen

zuglufttier

Well-Known Member
Ahoi,

ich setze hier gerade ein FreeNAS 9.10 (also FreeBSD 10.3 Unterbau) ein. Dabei nutze ich natürlich auch ZFS.

Zwei (von drei...) Platten verschwinden immer wieder mal und "zpool status" sagt folgendes:

Code:
raidz1-0  UNAVAIL  0  13  0
    16756919193846390593  REMOVED  0  0  0  was /dev/ada2p2
    18291109539031997786  REMOVED  0  0  0  was /dev/gptid/8f9f46af-d28a-11e5-95c1-b05ada875574
    gptid/913e7b49-d28a-11e5-95c1-b05ada875574  ONLINE  0  0  0

Nach einem "zpool clear" sind sie allerdings wieder online!

Code:
raidz1-0  ONLINE  0  0  0
    ada2p2  ONLINE  0  0  0
    gptid/8f9f46af-d28a-11e5-95c1-b05ada875574  ONLINE  0  0  0
    gptid/913e7b49-d28a-11e5-95c1-b05ada875574  ONLINE  0  0  0

Auch "dmesg" meldet das Verschwinden der Platten:

Code:
ada2 at ahcich3 bus 0 scbus3 target 0 lun 0
ada2: <WDC WD10EADS-00M2B0 01.00A01> s/n WD-WCAV51762196 detached
(ada2:ahcich3:0:0:0): Periph destroyed
ada2 at ahcich3 bus 0 scbus3 target 0 lun 0
ada2: <WDC WD10EADS-00M2B0 01.00A01> ATA8-ACS SATA 2.x device
ada2: Serial Number WD-WCAV51762196
ada2: 300.000MB/s transfers (SATA 2.x, UDMA6, PIO 8192bytes)
ada2: Command Queueing enabled
ada2: 953869MB (1953525168 512 byte sectors)
ada2: Previously was known as ad10

Die Platten sind allesamt schon ein paar Tage älter und könnten deswegen wirklich eine Macke haben. Der Server, HP Microserver Gen8, dagegen ist erst ein, zwei Monate alt. Die interne RAID-Funktion auf dem Mainboardhabe ich ausgeschaltet.

Die Daten sind alle gesichert aber ich will nun möglichst genau überprüfen, ob es wirklich die Platten sind oder ob es nicht vielleicht doch einfach der Controller ist. Habt ihr da ein paar Ideen? Testläufe mit SMART?
 
"smartmontools" aus den Ports/pkg installieren und dann mal mit "smartctl -a /dev/adaX" die Smartwerte auslesen und mit "smartctl -t short /dev/adaX" einen kurzen Smart-Selbsttest durchfuehren und dann wieder mit erstem Kommando das Resultat nach ca. 2-3 Minuten begutachten.

Koennte evtl auch einfach ein Wackelkontakt der Platten auf der Backplane im Microserver dafuer verantwortlich sein? Vielleicht auch einfach mal den Sitz der Platten ueberpruefen.
 
Den Kurztest schaffen sie alle, dabei oder danach waren sie allerdings wieder weg... Ein "zpool clear" und schon sind sie wieder da!

Das ist höchst merkwürdig. Dann kann ich auch wieder ganz normal auf meine Daten zugreifen.
 
ZFS ist sicher nicht das Wunder-Allheilmittel-für-alle-Probleme mit Festplatten.
Obwohl es ein sehr modernes Dateisystem ist, geht es ihm nicht anders, als alten Dateisystemen auch: sie setzen auf HW auf und das geht nur gut, wenn diese HW auch funktioniert. Verschwinden die Platten aus dem System, weil sie defekt sind, weil sie nicht mehr angesprochen werden können, da sie vielleicht keinen Strom mehr bekommen oder weil ihr eigener Kontroller sich mal verabschiedet, dann kann auch ZFS nichts mehr mit diesen Platten anfangen. Gerade, dass sie auch in dmesg als verschwunden angezeigt werden lässt ZFS zunächst vollkommen unschuldig aussehen und die Fehlersuche in ganz andere Richtungen ist angesagt.

Platten selbst, Kabel und Kontakte, Spannungsversorgung sind die ersten Anlaufpunkte.
Was mir auf SW-Seite noch einfällt (wofür ich aber keine Hinweise habe), sind sich widersprechende Dienste. Wenn etwa ein Dienst eine Platte schlafen legt, ZFS aber nun diese Platte braucht, dann kommt sich das in die Quere. Was FreeNAS in dieser Richtung evtl wie macht, weiß ich gar nicht, aber es könnte eben ein weiterer Tip sein, hiernach mal zu sehen. Da wäre es unter Umständen ein Hinweis, wenn der Fehler erst mit einer bestimmten Version einer SW eingezogen ist.
 
Ich habe das Problem auch mit Version 9.3 von FreeNAS, daran liegt es mit hoher Wahrscheinlichkeit nicht. Die Platten sind auch ständig online.

Ich denke auch, dass es hier wirklich um die Hardware geht. Deswegen suche ich ja nach Tipps wie ich die Hardware überprüfen kann.
 
Da kann man leider nur sehr wenig direkt prüfen und messen, weil ein einmaliger, kurzer Spannungsabfall genügen kann, um solche Fehler zu verursachen. Misst oder prüft man außerhalb der Fehler-aktiven Zeit, dann sieht man alles in wunderbarer Ordnung und kommt so nicht weiter.
Gleiches gilt für diverse SW-Tools. Die Verlässlichkeit einen vorliegenden Defekt damit zu sehen liegt wohl etwa 60% und umgekehrt werden viele Fehler übersehen. Vermutlich ist das nicht viel besser, als Würfel zu werfen und auf die fifty-fifty Auswahl zu setzen.

Es ist fast nur das Beobachten des Fehlers unter unterschiedlichen Voraussetzungen möglich und sinnvoll und dann daraus logische Schlüsse abzuleiten.
Fallen immer die gleichen Platten aus?
Hängen die immer am gleichen Netzteil, an der gleichen Leitung mit den gleichen Kabeln?
Wie verhält sich das nach einem Tausch der jeweiligen Komponente, "wandert der Fehler mit"?
Beim Tausch kann man nun ohne zusätzlichen HW-Aufwand fast nur die Kabel hernehmen. Das ist eine eingeschränkte Suche. Besser wäre, man hätte auch ein weiteres Netzteil und weitere Platten und womöglich sogar einen kompletten weiteren PC, von und nach dem man Komponenten tauschen und dann dort beobachten kann.

Manchmal verschwinden derartige Fehler dann auf mysteriöse Weise bei der Fehlersuche. Dann waren fast immer Kontaktprobleme mit den Kabeln die Ursache. Deshalb schadet es nichts, diese mehrmals ein- und wieder aus- stöpseln und dann auf sicheren Sitz achten. Die Kabel sollten günstigerweise mit etwas Vorspannung gegen die Platte drücken, aber hier wurde auch schon der gute Rat erteilt, sie mit einem Tropfen Heißkleber zusätzlich zu sichern (natürlich erst nach einer Fehlersuche).
 
Hallo, zuglufttier,

sind die drei Platten vom gleichen Modell? Verschwinden die beiden Problemplatten gleichzeitig oder in grober Näherung gleichzeitig - oder völlig unabhängig voneinander?
Kannst Du ohne großen Aufwand mal die "gute" Platte mit einer der anderen beiden vertauschen, und zwar die Spannungsversorgung oder das Datenkabel oder beides?
Die Platten sind allesamt schon ein paar Tage älter und könnten deswegen wirklich eine Macke haben.
Daß aber zwei gleichzeitig eine identische oder sehr ähnliche Macke haben, ist unwahrscheinlich.
 
Es sind drei unterschiedliche Modelle und die zwei Platten verschwinden gleichzeitig. Über Nacht habe ich mal einen langen SMART Test laufen lassen. Das Ergebnis kann ich nachher aber erst in Erfahrung bringen.

Ich werde dann als nächsten Schritt mal die Platten untereinander auswechseln, um zu sehen, ob nicht immer die selben Ports ausfallen. Es handelt sich ja um eine Backplane, so dass ich nur Spannungsversorgung und Datenkabel gleichzeitig austauschen kann. Es geht nur ein Kabel vom Mainboard zur Backplane, siehe hier: http://www.silentpcreview.com/article1377-page3.html

Wenn die Ausfälle also auch bei der gewechselten Platte auftreten, muss es an den Anschlüssen liegen...
 
OK... Ich habe letztens tatsächlich die Ausgabe von "smartctl -a" falsch gelesen... Bei den beiden sprunghaften Platten steht dort:

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed: read failure 90% 8803 876921920
# 2 Extended offline Completed: read failure 60% 8781 876921920
# 3 Short offline Completed without error 00% 8779 -
# 4 Short offline Completed without error 00% 8779 -
# 5 Extended offline Aborted by host 90% 1983 -
# 6 Short offline Completed without error 00% 1983 -
# 7 Conveyance offline Completed without error 00% 0 -

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed: read failure 90% 11860 53383591
# 2 Extended offline Completed: read failure 90% 11837 53383591
# 3 Extended offline Completed: read failure 90% 11836 53383591
# 4 Short offline Completed: read failure 90% 11836 53383591
# 5 Conveyance offline Completed: read failure 90% 11836 53383591
# 6 Short offline Completed: read failure 90% 11812 53383591

Soll heißen selbst die kurzen Tests sind schon fehlerhaft gewesen! Ich lasse nun mal ein "zpool scrub" laufen, um etwas Last auf dem System zu forcieren. Mal schauen, ob und wann die Platten ausfallen. Ich habe vorher die Ports getauscht, um zu sehen, ob es auch daran liegen könnte.
 
Hoi,

bei den WD10EADS gabs mal Probleme mit einer bestimmten Platten Firmware, welche dann öfter zu Aussetzern oder red timeout error geführt hatte. An die genaue Versionsnummer erinnere ich mich bärig leider nimmer. Prüf oifach mal ob Deine Platten Firmware auf dem aktuellen Stand ist.

Gruß Bummibär
 
Die Firma hat folgende Bezeichnung: 01.00A01
Aber ich wüsste noch nicht mal, ob man das selber aktualisieren kann... Derzeit schmieren die Platten auch gar nicht ab. Vorher liefen sie auch mehrere Wochen problemlos durch.
Ich würde noch gerne mal einen Ausfall provozieren und lasse den ZFS Pool mal ein bisschen was schreiben.
 
Was spricht dagegen vom Hersteller WDC auf der Support-Homepage nach einer aktuelleren Firmware zu schauen und ggf. ein Prüf-Programm zu laden? Sowohl Firmware-Update als auch Test-Software werden i.d.R. über ein zu bootendes DOS verwendet. Gehe auch davon aus dass deren Test aussagekräftiger ist als SMART
 
Wenn ich sowas finden würde, würde ich das glatt machen ;) Die Diagnose-Software von WD, die man so findet, scheint auch nur SMART zu befragen.
 
Hatte ich ähnlich und dann meine Holzhammer-Methode angewandt:

Frische Platte rein, resilvern und die 'fehlerhafte' Platte dann an einem anderen PC ausgiebiger testen. Mit der nächsten Platte dann genauso verfahren...
 
Seit einigen Tagen verhalten sich die Platten vollkommen ruhig... Hm, ich schließe jetzt aber mal den Controller aus und nehme an, dass meine Aktionen dazu geführt haben, dass ein paar Sektoren überschrieben bzw. ersetzt wurden und aktuell keine Probleme vorhanden sind. Aber wenn man der Studie von Google glauben mag führen die ersten Fehler sehr schnell zu weiteren ;)
 
Zurück
Oben