wie ernst nehmen wir READ-errors im Zpool?

Was ich fragen möchte ist: ob ihr neue Platten auch genauer untersucht, bevor ihr die einsetzt?
Macht ihr Schreib- Lese-Tests und/oder Performance-Tests und/oder smartctl-Untersuchungen mit jeder Platte, bevor ihr die benutzt? Selbst, wenn sie frisch ausgepackt wird?
Seit ich mal bei ner Lieferung von 5 Platten schon 2 quasi-DOA erhalten hatte, nehm ich mir die Zeit und mach ein "schreibendes" badblocks drauf
Code:
badblocks -wsv -b <blocksize> /dev/<device>
Dauert zwar etwas, aber das nehm ich in Kauf.
Es geistert auch noch das "solnet-array-test-v2"-Script durchs Netz, das macht zusätzlich noch nen Stress-Test und würde bei Benutzung über mehrere Platten (wenn man z.B. ein Array neu bestückt) noch eine Gewichtung über die Schreib-Lese-Performance per einzelne Platte ausgeben, z.B. um zu prüfen, ob Mindestanforderungen erfüllt werden;
 
Die meisten neuen Platten haben einen speziellen "Conveyance Test", der innerhalb ein paar Minuten durchläuft und recht zuverlässig Transportschäden erkennt. Ich führe den routinemäßig auf allen neuen Platten einmal aus, er hat schon so manche quasi-DOA Platte, die in den ersten Betriebsstunden verreckt wäre, gefunden: smartctl -t conveyance /dev/$device Zumindest seriöse Händler diskutieren dann auch nicht lange um kaputt oder eben nicht kaputt, sondern tauschen einfach um.
 
der Conveyance lief da lustigerweise durch...

keine Ahnung, was der intern testet - ob der nur die Beschleunigungssensoren ausliest - aber die Platten hatten definitiv gleich ab Start Probleme
 
Wenn ich nur die letzten Antworten mal nehme, muss ich mein Verhalten aber definitiv ändern: Neue Platten bleiben bei mir verpackt in der Schachtel, bis ich sie brauche. Das kann ja Jahre später erst der Fall sein und dann ist es doch schon zu spät, was reklamieren zu wollen.

Weil sich das nun irgendwie doof anhört: allzu oft musste ich erleben, dass ich eine gleiche HW nicht mehr bekommen kann und die Unterschiede können sogar Funktions-belastend sein, wenn da wild gemixt wird. Vielleicht nicht mehr so sehr mit ZFS, aber es geistert immer noch in meinem Hirn, möglichst gleiche Platten für einen RAID und dann natürlich auch einen Zpool zu verwenden.
Deshalb bestelle ich ich einen Ersatz immer gleich mit.
Also, wenn ich einen Pool mit drei Platten plane, bestelle ich eine als Ersatz mit und lege die in der Verpackung auf die Seite.
Bei einem Pool mit sechs Platten, bestelle ich zwei zusätzlich und lege die zur Seite und für den aktuell hier diskutierten Pool habe ich diesmal drei Ersatzplatten bestellt, nachdem die beiden ersten recht früh herhalten mussten.

Nun leite ich ab, dass ich die besser mal testen sollte und erst dann wieder verpacken und weg legen.
Positiv ist mir dabei aufgefallen, dass ich wohl ziemlich alle Tests auch über einen USB-Adapter laufen lassen kann. Das hatte ich anders in Erinnerung und es erleichtert die Sache doch sehr, gerade im Heim-Bereich, wo man nicht immer einen PC offen herum stehen hat, in den man mal schnell eine Platte rein hängen kann.
 
alle Tests auch über einen USB-Adapter laufen lassen kann. Das hatte ich anders in Erinnerung
Es ist so, dass nicht jeder Adapter die Platte 1:1 dem OS durchreicht und quasi SMART-Funktionen wegschluckt. Da hilft nur ausprobieren und nicht die ganz arg billigen verwenden. Es gibt zwar ein paar workarounds zum Ansteuern, aber die helfen nicht immer. Siehe https://www.smartmontools.org/browser/trunk/smartmontools/smartctl.8.in unter -d TYPE, --device=TYPE, usbjmicron, usbprolific, usbsunplus usw.
Edit: Hier gibts bebilderte Beispiele https://www.markus-gerber.ch/2015/04/festplatten-ueberwachung-und-test-mit-s-m-a-r-t/

die Unterschiede können sogar Funktions-belastend sein, wenn da wild gemixt wird. Vielleicht nicht mehr so sehr mit ZFS, aber es geistert immer noch in meinem Hirn, möglichst gleiche Platten für einen RAID und dann natürlich auch einen Zpool zu verwenden.
Ja. Allerdings, wenn sowas an einem klassischen Freitag passiert und man jetzt sofort wieder den pool healthy kloppen möchte, dann kann man auch (erstmal) mit einem abweichenden Medium agieren. Da tut es auch eine Platte mit anderer Drehzahl, sogar eine SSD, Speicherkärtchen oder USB-Stick. Es muss nur mindestens die gleiche Kapazität haben. Je nachdem zieht es die gewohnte Performance hoch oder runter (das langsamste device im vdev gibt den Ton an), aber die Redundanz ist wieder gegeben.

Sich ein paar Platten auf Halde legen ist immer eine gute Idee, man könnte aber auch drüber nachdenken, sich gleich mal größere hinzulegen um den pool nach der letzten kleineren Platte kapazitätsmäßig wachsen zu lassen.
allzu oft musste ich erleben, dass ich eine gleiche HW nicht mehr bekommen kann
Aber bei Festplatten und SSDs in zig Bauformen würde ich mir da keine Gedanken drum machen. Wenn es z.B. keine HDDs mehr zu kaufen gibt, dann tauscht man gegen SSDs aus. Kein Nachteil, nur Vorteile. :)
 
Zuletzt bearbeitet:
der Conveyance lief da lustigerweise durch...

keine Ahnung, was der intern testet - ob der nur die Beschleunigungssensoren ausliest - aber die Platten hatten definitiv gleich ab Start Probleme
Das ist interessant zu wissen. Und erschüttert etwas das Vertrauen. Was die Tests genau machen, weiß man ja nicht. Zumindest Seagate macht aber etwas Mechanisches, zumindest röddeln die Platten dabei recht exzessiv. Vielleicht Tests der Mechanik, rausfinden ob die Köpfe an die richtige Position schwenken, oder sowas.
 
hab grad mal testweise nen conveyance auf ner WD EFRX angeworfen, da kam sofort Rückmeldung, dass das Kommando erfolgreich abgesetzt werden konnte, am (sehr leisen) Laufgeräusch der Platte änderte das aber nichts - liest der conveyance Test ggf nur interne Register aus? Dauert aber scheinbar trotzdem ca. 5 Minuten - muss also dann doch wieder Mechanik im Spiel sein?
 
muss also dann doch wieder Mechanik im Spiel sein?
Man findet nix, sind also höchst geheime Interna. :p

https://www.hdsentinel.com/help/en/58_test.html sagt:
The Conveyance self test (if supported) performs manufacturer-specific test steps. This usually verifies the mechanical parts of the hard disk to ensure that no handling damage occured.
Da würde ich mal sagen, dass alles Bewegliche mind. 3x getriggert wird und die Zeit sowie Widerstände gemessen werden. Andererseits nützt mir ein bestandener conveyance-Test nix, wenn short oder long failen. In allen Fällen sollte sich ein Händler da nicht bockig zeigen.
 
bin eher zufällig wieder über sysutils/gsmartcontrol gestolpert, das ich mir irgendwann mal installiert, es aber kaum jemals benutzt hatte.
Nun gefällt es mir gerade mit dem USB-Adapter ganz gut als GUI, denn die oben erwähnten Tests können da schön nacheinander ausgewählt werden und man bekommt noch zur Unterhaltung eine Fortschrittsanzeige.
Die Ausgaben sind alle auch so übersichtlich gruppiert, dass ich sie schneller als auf Konsole erfasse UND die wichtigen Unstimmigkeiten sind farblich hervorgehoben und sofort offensichtlich.
 
ah? ich hab immer auf Konsole... muss ich mir bei Gelegenheit mal anschauen, das Tool;

danke für den Hinweis
 
Ergänzend gegen Hektik: Hier im Kaff gab es vor einigen Tagen einen Stromausfall. Neugierig wie ich bin, habe ich direkt danach einen außerplanmäßigen scrub gefahren. Zwei Platten zeigten jeweils einen Fehler bei CKSUM, der korrigiert wurde. Da ist es eindeutig, dass nicht die Platte defekt ist.
 
Zurück
Oben