Defekter ZFS Pool

Heinrich · 26 Januar 2019

Ich werde die Speichertesterei jetzt erstmal zurückstellen, das ESXi auf einer neuen Maschine neu aufsetzten und die Platten mit den VMs und dem ZFS Pool dorthin migrieren. Ist ja dank Virtualisierung problemlos. Ich bin auf einige der dort laufenden Services doch angewiesen (Pi-Hole, VDR, Musik-Server, VPN-Gateway, NAS...).
Ich weiss auch nicht, was es mir nützen sollte, wenn ich weiss, welcher Riegel in welchem Slot Probleme macht und in welchem nicht. Ich kann dann weder dem RAM noch dem Board trauen. Aber wie gesagt, momentan will ich erstmal den Server Wieder zum laufen kriegen.
Apropos memtest86: Wieso läuft es eigentlich nicht per default mit aktiviertem SMP? Welchen Sinn macht es, mit angezogener Handbremse zu laufen und dadurch potentielle RAM-Fehler nicht zu finden?

Heinrich · 26 Januar 2019

Ach so, fast vergessen: Danke noch mal für Eure Hilfe, habe auch wieder einiges dazugelernt

.

pit234a · 26 Januar 2019

ich weiß nicht, ob es eine allgemeingültige Regel für die Zuweisung des Speichers gibt. Jedenfalls lese ich das immer erst im Handbuch zum Motherboard durch. Dort ist meist die Zuordnung zu den Bänken erklärt und auch, in welcher Reihenfolge die einzelnen Bänke behandelt werden.
Zumindest war das früher so.

Für deinen Test ist ja einfach: bleibt der Fehler auf dem RAM, ist dieser defekt, Bleibt er auf dem Steckplatz, betrifft der Fehler das MB.
Deshalb auch der Tip (nehme ich an), einzeln zu prüfen.

mr44er · 26 Januar 2019

Heinrich schrieb:
Ich weiss auch nicht, was es mir nützen sollte, wenn ich weiss, welcher Riegel in welchem Slot Probleme macht und in welchem nicht.

Wenn ein Riegel in 3 von 4 Slots ohne Fehler durchläuft ist wahrscheinlich nicht der Riegel defekt. Wenn die anderen Riegel auch im dann 'vermuteten' Slot Fehler werfen...dann hast du deine Diagnose.
Umgedreht eben auch, wenn 3 Riegel in allen Slots laufen und nur Fehler bei dem einen Riegel auftreten.
Daher einzeln und per Ausschlußverfahren.

Heinrich schrieb:
Wieso läuft es eigentlich nicht per default mit aktiviertem SMP? Welchen Sinn macht es, mit angezogener Handbremse zu laufen und dadurch potentielle RAM-Fehler nicht zu finden?

Ohne SMP wird der Speicher genauer überprüft, was man ja eigentlich haben will (beim ersten Durchlauf). Mit SMP können memtest 'Flüchtigkeitsfehler' unterlaufen, somit kann es passieren, dass kein Speicherfehler gemeldet wird. Und ja, daher interessiert jetzt, ob mit aktiviertem SMP auch Fehler gemeldet werden, weil ich weiß, dass du mit 4 Riegeln und 4 Slots 16 Durchläufe brauchst und da etwas Geschwindigkeit vorteilhaft ist.

pit234a schrieb:
Deshalb auch der Tip (nehme ich an), einzeln zu prüfen.

Jep

Hier bin ich mir nicht sicher, man möge mich korrigieren: Was die Speicheradressen an sich betrifft, dürfte es keine Rolle spielen, wo ein Riegel steckt. Anders ausgedrückt: die Adressen sind nicht fest vorher definiert je Slot, der Hersteller kann ja nicht ahnen, welche Kapazität die Riegel haben, die draufgesteckt werden.

Heinrich · 26 Januar 2019

mr44er schrieb:
Hier bin ich mir nicht sicher, man möge mich korrigieren: Was die Speicheradressen an sich betrifft, dürfte es keine Rolle spielen, wo ein Riegel steckt. Anders ausgedrückt: die Adressen sind nicht fest vorher definiert je Slot, der Hersteller kann ja nicht ahnen, welche Kapazität die Riegel haben, die draufgesteckt werden.

Ja, aber man könnte schon angeben, welcher Riegel bei 4x4GB Bestückung der "unterste" ist und in welcher Reihenfolge die Riegel den Adressraum abdecken. Bei 4x8GB entsprechend. Dazu braucht der Hersteller die Kapazität gar nicht wissen, mich interessiert nur die Reihenfolge. Mit der Info hätte ich gleich nach dem ersten RAM-Test die fehlerhaften Riegel/Slots identifiziert, und hätte nur noch einmal tauschen müssen um fehlerhaften Riegel/Mainboard zu unterscheiden.

Naja, so muss ich bei Gelegenheit nochmal alles durchtesten.

Noch ein paar Worte zur Redundanz (Zaunpfähle): Man muss schon Aufwand/erwarteten Nutzen abwägen. Minimum wären 2 Platten als Mirror. Nun ersetzt ja ZFS kein Backup, also noch eine 3. Platte zum Backup (am besten extern und offline). In meinem Fall hätte ich also 9GB Platten für 3GB Daten. Außerdem im Server zusätzlichen SATA-Port, Platte, Stromverbrauch und Lärm.
Der Vorteil des Mirrors besteht hauptsächlich im geringeren Aufwand bei Platten-Defekt. Neue Platte einbauen, Resilver, fertig! Ohne Mirror muss ich die Datensicherung einspielen und noch gucken, welche Dateien ich seit der letzten Sicherung geändert habe.
Der Vorteil des Mirrors kommt natürlich nur zum Tragen, wenn ZFS richtig funktioniert. Wie wir nun gerade gesehen haben, ist das bei RAM-Fehlern auch nicht unbedingt der Fall.
Ich werd also erstmal bei der bestehenden Konfiguration bleiben.

mr44er · 27 Januar 2019

Heinrich schrieb:
Man muss schon Aufwand/erwarteten Nutzen abwägen.

Mir sind meine Daten wirklich heilig und wichtig, da kann ich nicht von 'Aufwand' sprechen. Da spielen die 'eigenen, unbezahlten Stunden' keine Rolle, Mehrkosten für Strom und mehrere Festplatten sowieso nicht.

Heinrich schrieb:
Der Vorteil des Mirrors besteht hauptsächlich im geringeren Aufwand bei Platten-Defekt. Neue Platte einbauen, Resilver, fertig!

Nicht ganz. Bei 3TB würde ich niemals nicht einen Mirror einsetzen. Mind. 3 oder 4 gespiegelte Platten. Hintergrund: Wenn du dann eine Platte tauschst nach Jahren und den resilver fährst, ist die Wahrscheinlichkeit hoch, dass diese Dauervollast die alte Platte auch in den Abgrund reißt und dann ist sowieso game over, wenn kein Kaltbackup vorhanden oder zu alt. Die Temperatur steigt ungewohnt hoch, die Mechanik wird gepeitscht usw. und bei 3TB wäre mir das Risikozeitfenster einfach zu lange.

Heinrich schrieb:
Der Vorteil des Mirrors kommt natürlich nur zum Tragen, wenn ZFS richtig funktioniert. Wie wir nun gerade gesehen haben, ist das bei RAM-Fehlern auch nicht unbedingt der Fall.

ZFS funktioniert richtig. Wenn eine Platte Fehler bei Checksummen gibt, wird gegen die anderen Redundanzplatten verglichen und korrigiert. ZFS hatte in dem Fall aber keine Chance dazu, weil nur eine Platte vorhanden war. Ja, beim Schreibvorgang ohne ECC mit Fehler wird 'Murks' geschrieben, aber bei geschriebenem 'Murks' würde ZFS ja nicht meckern, weil es es gar nicht besser weiß.
Ich kann deine Argumentation natürlich verstehen, aber ich bin da lieber save und beuge mit RAIDZ3, ECC-RAM und nächtlichem Backup an anderen Standort wiederum auf RAIDZ3 vor. Auf die Situation, wenn es schon gekracht hat mit kaltem Schweiß im Nacken habe ich echt keine Lust. 1x in meinem Leben gehabt, seitdem ZFS!

Yamagi · 27 Januar 2019

Es kommt letztendlich drauf an, was für Anforderungen man hat und welche Kompromisse man eingehen will. ECC-RAM ist beispielsweise immer eine schöne Sache, denn gekippte Bits haben alle möglichen unschönen Folgen. Aber ECC-RAM ist eben auch deutlich langsamer. Ryzen mit seinen nur 2 Speicherkanälen für 8 Kerne profitiert zum Beispiel sehr von höheren RAM-Takt, bei ECC-RAM ist bei DDR4-2666 Schluss, bei RAM ohne ECC geht es bis DDR4-4600 hoch. Man hat also die Wahl mit ECC sicher zu spielen und die Kiste auszubremsen, oder aber auf ECC zu versprichten und schon merklich mehr Geschwindigkeit zu erhalten.
Genauso bei Festplatten. Natürlich ist Redundanz schön, aber es bedeutete auch mindestens eine Festplatte mehr im Gehäuse. Bei mir steht die Kiste im Wohnraum, die Festplatten sind in Zeiten von Silent-Lüftern, passiven Netzteilen und so weiter die Abstand lautesten Komponenten. Die Wahl ist also zwischen einem etwas höheren Risiko hinsichtlich Datenverlust oder einer höheren Lärmbelastung.

Ich mache es im Moment so: Quellcodes, Dokumentationen, Konfigurationen und so weiter liegen in Git-Repos. Bis vor Kurzem hatte ich private Repos bei Bitbucket, nun bin ich auf die neuen privaten Repos bei Github umgezogen. Nach getaner Arbeit wird gepusht, damit ist automagisch ein Offsite-Backup erstellt.
Zu jeder Platte im System existiert eine Backup-Platte im Schrank. Immer Sonntags Abends sende ich alle Pools des System auf diese Backup-Platten. da sich abseits der Daten im Git unter der Woche kaum Änderung auf den Platten sind, ist das akzeptabel. Dazu kommt noch ein Satz Platten bei einem Bekannten im Schreibtisch, auf denen eine alle paar Monate mal aktualisierte Offsite-Kopie für Totalkatastrophen wir Wohnungsbrand liegt.

Natürlich bleiben dabei Risiken. Aber die halte ich für mich akzeptabel. Ich habe vor der aktuellen Lösung einige Zeit Tarsnap genutzt, aber das war mir auf Dauer zu teuer und wenn man etwas mehr Daten hat, macht das über einen DSL-Upstream gar nicht soviel Spaß.

Yamagi · 27 Januar 2019

Aber zum Thema: Wenn man an dem Punkt ist, dass potentiell korrumpierte Daten besser sind als gar keine Daten, kann man ZFS zwingen auch Daten mit Checksum-Fehlern rauszugeben. Schaut mal unter https://www.bsdforen.de/threads/backup-mit-zfs.29659/#post-254529

Heinrich · 29 Januar 2019

Ich hab jetzt noch mal in Ruhe getestet. Ergebnisse:

2x4GB Riegel laufen in Bank A ok, in Bank B Fehler
2x4GB von einem anderen Hersteller laufen auch in Bank B
Stecke ich dann dazu die Riegel von Test 1 in Bank A, gibt es wieder Fehler (s. Bilder)

Ich denke, das war's dann wohl mit dem Mainboard. Ich könnte vielleicht noch an den Versorgungsspannungen drehen, aber nicht bei einem Fileserver.

Die Corsair-Riegel laufen nur in einer Bank ok, die Kingston in beiden.

Defekter ZFS Pool

Heinrich

Guest

Heinrich

Guest

pit234a

Well-Known Member

mr44er

moderater Moderator

Heinrich

Guest

mr44er

moderater Moderator

Yamagi

Possessed With Psi Powers

Yamagi

Possessed With Psi Powers

Heinrich

Guest

Wir schützen deine Privatsphäre