Ist dann eine RAID-Z1-Lösung alleine deswegen nicht schon wesentlich besser/sicherer?
Es ging nicht um das write hole. Es ging um Festplattengröße / rebuild vs. Zeitfenster wenn währenddessen eine zweite Platte verglüht.
Anschauliches Beispiel:
Früher™ waren Festplatten viel teurer und die Kapazitätssprünge nicht so doll. raid5/raidz1 braucht nun mindestens 3 Platten. Der Einfachheit halber nehmen wir 3 Platten mit je 100GB. Brutto also 300GB und netto durch Parität 200GB nutzbar. Das hat man früher zähneknirschend eben hingenommen.
Wir schieben nun unsere Linux-ISOs und Urlaubsvideos aufs RAID, es passt zufällig genau drauf. Die 200GB sind also nun voll belegt.
Eine dieser Platten geht nun kaputt, zum Glück sind die Daten noch verfügbar, raid schützt ja vor allem!
Coole Nerds zaubern
sofort eine neue 100GB aus dem Ärmel, bauen die kaputte ein und starten den rebuild. Nach 10 Minuten ist das raid wieder gesund, es mussten ja nur 100GB geschrieben werden und ein bisschen Parität berechnet werden.
Nehmen wir nun das gleiche Beispiel mit 3x1000GB-Platten. 2000GB sind belegt, eine Festplatte ist kaputt. Wir starten sofort den rebuild, nachdem wir den Defekt bemerken und haben nun ein Zeitfenster von 100 Minuten. Naja ärgerlich, aber RAID schützt ja vor allem! Ohje, nach 93 Minuten stirbt die zweite Festplatte. Game over, raid kaputt.
Nicht jeder hat sofort eine Ersatzplatte parat, das Zeitfenster mit Schweiß auf der Stirn beginnt nämlich ab Defekt einer Platte und nicht ab rebuild. Die verbleibenden zwei gesunden Platten haben nun auch schon drei Jahre Laufzeit auf dem Buckel, ab und an Zugriffe erfahren, wenn mal ein Urlaubsvideo abgespielt wird. Nach 48 Stunden wird die Ersatzplatte geliefert, wir tauschen aus und starten den rebuild. Ein rebuild erfordert Vollgas auf den Platten, waren sie bisher nicht gewohnt. Somit steigt die Wahrscheinlichkeit des Totalausfalls nochmal. Ohje, wir erfahren das direkt. Nach 24 Minuten stirbt die zweite Festplatte. Game over, raid kaputt.
Clevere Sparfüchse haben sogar raid5 mit 8 oder mehr Platten gebaut, weil da ist der 'Verlust' der Kapazität einer Platte ja nicht so schlimm (8x100GB = 700GB netto nutzbar). Problem1 bei der Sache ist, dass von 8 Platten eher eine stirbt, als bei 3. Problem2 bei der Sache ist, dass wenn eine defekt ist und man den rebuild startet, von 7 Platten eher eine stirbt als bei 2.
Dazu kommt das verlängerte Zeitfenster je 'breiter' (mehr Platten=breiter) das raid ist, umso langsamer. Gerade hinsichtlich der Paritätsberechnung.
Du kannst frische, neue Platten mit 14TB-Kapazität haben. Wenn du damit raid5/raidz1 fährst und eine stirbt direkt am Anfang durch z.B. Produktionsfehler, hast du alleine schon durch die Kapazität ein ewig langes Zeitfenster.
Daher wirkt man mit raidz2 der Ausfallwahrscheinlichkeit entgegen. Dh. es können entweder zwei Platten auf einmal sterben oder es darf innerhalb des rebuild-Zeitfensters eine sterben.
raidz3 entsprechend dann mehr.
Wie immer: Backup, Backup, Backup!