Fehler im Dateisystem (zfs): wie evtl. beheben?

a propos @Yamagi - wenn ihr schon länger auf "nur-SSD" seid, wie sind eure Langzeit-Erfahrungen mit denen? Also, fallen die öfter aus als rotierender Rost, werden zum Ende der Lebensdauer hin langsamer etc..

Also, das mit der Ausfallrate ist schwer zu sagen und hängt sehr vom Einsatzzweck an. Wie ich oben schrieb, sind SSDs sehr zuverlässig, solange man innerhalb der garantierten 'Terabyte Written' bleibt. Nun sind die 'Terrabyte Written' aber ein nicht näher definierter Wert, der eher vom Marketing als von den Techniker kommen dürfte. So eine SSDs besteht ja aus mehreren Flash-Chips, in denen sich die NAND-Zellen befinden. Jede NAND-Zelle kann vielleicht ein paar hundert Mal geschrieben werden, bevor sie kaputt geht. Daher führt der Controller ein Wear Leveling durch, er versucht Schreiboperationen möglichst gleichmäßig über die vorhandenen NAND-Zellen zu verteilen. Kann er das gut, wird SSD ihre 'Terabyte Written' weit überschreiten, weil die Hersteller dort natürlich sehr konservative Angaben machen. Zumindest bei Datacenter-SSDs. Kann er das schlecht, wird die SSD eventuell schon vor erreichen der 'Terabyte Written' Probleme machen.

Nun kommunizieren alle mir bekannten SSDs aber eine Selbsteinschätzung über ihren Zustand per SMART. Der Wert heißt mal 'Percent Lifetime Remaining' oder 'Media Wearout Indicator' oder noch anders. Solange diese Selbsteinschätzung über Pi mal Daumen 5% bleibt, ist es zwar nicht ausgeschlossen, dass die SSD anfängt Probleme zu machen - es gibt keine 100% Sicherheit - aber unwahrscheinlich. Und das macht es wesentlich einfacher zu entscheiden, wann man austauschen muss, als es bei HDDs mit ihren verschiedenen, sich in der Interpretation teilweise noch zwischen Modellreihen unterscheidenden HDD der Fall ist.

Und die 'Terrabyte Written' sind eine gute Angabe einschätzen zu können, was man genau kaufen sollte. Bei HDDs gibt es nur diesen nichtssagenden 'MBTF'-Wert, sowie theoretische Fehlerraten... Das führt dann dazu, dass man häufig eher nur die Garantie schaut und daraus ableitet, dass eine HDD bit 5 Jahren Garantie wohl besser als eine HDD mit 2 Jahren Garantie sein wird.

All das vorweg gesagt:
  • SSDs haben bei uns eine mit sich innerhalb ihrer Garantiezeit befindenden HDD vergleichbare Ausfallrate, solange die 'Percent Lifetime Remaining' sich noch über 5% befindet. Danach ist es undefiniertes Niemandsland. Das kann man je nach Einsatzzweck akzeptieren und die SSD oder HDD nutzen, bis sie ausfällt oder man tauscht sie eben präventiv aus.
  • Werden SSDs langsamer, sind sie entweder für den Einsatzzweck ungeeignet (z.B. eine bilige SSD mit QLC-Flash und ein paar Gigabyte SLC-Emulation in ein RAID gesteckt) oder die Lesefehlerrate schießt gerade durch die Decke und sie wird bald ausfallen. Gesunde SSD sollten nicht nennenswert langsamer werden.
Als Fazit würde ich sagen: SSDs sind vielleicht nicht generell zuverlässiger als HDDs, aber auch nicht nennenswert unzuverlässiger. Vor allem lassen sie sich besser einschätzen, was die Verwaltung des Fuhrparks wesentlich einfacher macht. Allerdings sind sie auch im Betrieb anspruchsvoller. Wer das nicht beachtet, wird mit SSDs nicht glücklich werden. Das geht bei der Auswahl los (Wie viele Terabyte Written braucht es für den Einsatzzweck? Welche Flash-technologie soll es sein? Vertragen sich die SSD-Firmware und der HBA?), man muss sich Gedanken über Wear Leveling machen, etc. Aber all das auch natürlich nur, wenn man seine Systeme selber baut. Stellt man sich eine NetApp hin, kümmert sich Netapp um diese Fragen.
 
Danke für den interessanten Einblick. Nutzt ihr (selbstgebaute Server mit) ZFS oder nur NetApp?
Ich denke noch gerne an die NetApp F720 und FAS270 zurück - die waren über jeden Verdacht erhaben - und hatten die höchsten Uptimes im Netzwerk...
 
Wir nutzen nur selbstgebaute Systeme. NetApp und die meisten sind Alternativen sind für unsere Zwecke einfach zu teuer. Unten drunter ist es immer FreeBSD mit ZFS. Darauf läuft dann entweder die Anwendung direkt, NFS, iSCSI oder eben Minio. Rendundanzlevel und so werden je nach Einsatzzweck ausgewählt.
 
Wir haben in der Firma auch schon vor 6-7 Jahren großteils auf SSD anstatt SATA/SAS umgestellt. Wir nehnen nur günstige Consumer SSDs - großteils die Samsung EVO* Serie mit 1-4TB.

Wir haben auch zuvor nicht auf teure enterprise SAS gesetzt, sondern eher auf mittelpreisige SATA oder NL SAS. Ausfallsicherheit ist meist durch Raid 10 verhanden, Backups gibts genug da ich da eh übervorsichtig bin.

Mein Fazit (ist natürlich nicht statistisch signifikant): Bei normaler Last kein Unterschied zur SATA, bei viel random IOPS sehe ich die SSDs vorne was Langlebigkeit angeht.

Passend habe ich auch einen CT Artikel aus 2017 gefunden, wo consumer SSDs auf ihre Langlebigkeit getestet wurden. Alle haben die Hersteller TBW um mehrere 100%, tw. 1000% übertroffen bevor sie tot waren. Der Artikel hat damals gekostet, wer ihn möchte kann mich per PN anschreiben, im form einer Privatkopie kann ich den weitergeben. Ganz aktuell ist es natürlich nicht, aber denke die Richtung kann man gut ablesen.
 
Zurück
Oben