was ich Sonntag gelernt habe:
wende dein erworbenes Wissen an und zwar bedächtig!
Oder anders gesagt: bau keinen Riesenmist mit der Hoffnung, es wird schon gut gehen, weil du so ein Gefühl hast, gerade eben dran zu sein mit "Glück haben".
Was hatte ich verbockt?
Ich wollte meinen ziemlich alten RaidZ1 größere Platten geben (nach einiger Überlegung entschied ich mich hierfür).
Die erste getauschte Platte war die älteste im Verbund mit fünf Platten, über 100.000h und aus purer Kuriosität noch im Pool. Beim Resilver gab es einen ersten Fehler, eine Datei wurde an gemeckert. Nicht weiter wichtig. Bei der Gelegenheit erinnerte ich mich dann aber daran, dass ich gar keinen aktuellen Backup hatte!!!
Natürlich hatte ich Backups der "wichtigen Dinge", aber es waren nun mal im Laufe der Zeit auch unwichtige Dinge, die aber nett zu haben sind, hinzugekommen. Als Beispiel: noch ungesehene Filme. Außerdem fiel mir gerade ein, dass ich den Fileserver nicht alleine nutze und auch die Backups der wichtigen Dinge veraltet sein können (nein, sicher veraltet sind), weil eben Leute aus meiner Familie Daten abgelegt haben könnten.
Jeder weiß, dass ohne Backup nichts geht.
Ich weiß nicht, wie oft ich das schon gepredigt habe.
Man kann natürlich mal Gottvertrauen beweisen und schlampig damit umgehen, aber nicht vor einem geplanten Umbau!!!
Auch ich weiß das, natürlich, eigentlich...
Schon genug Mist gebaut?
Weit gefehlt.
Mir schwante, dass ich nun doch einen Backup haben wollte, bevor ich weiter umbaute. Wie das zu machen ist, war meine nächste Sorge, denn ich hatte kein externes Medium mehr herumliegen, das ausreichend Speicherplatz gehabt hätte. Wegen des Resilverings mit einer defekten Datei (die auch schon ersetzt worden war), hatte ich nebenbei einen scrub angeworfen. Nach einem Plattentausch ja grundsätzlich keine dumme Idee. Doch die nächste Idee war dafür umso dümmer. Ich hatte nämlich eine interne HD mit ausreichend Kapazität frei und wollte die zunächst in ein externes Gehäuse friemeln und dann über Netzwerk und USB3 meinen Backup machen, als mir so in den Sinn kam, dass direkt im Fileserver ja noch ein SATA-Port frei ist und dass es viel schneller und auch einfacher ist, die Platte im Server provisorisch zu verkabeln und das Backup direkt über SATA zu fahren. Die Idee gefiel mir gut, ich schnappte ein SATA-Kabel und verlegte es, stöpselte es ins Motherboard, pulte ein Spannungskabel hervor und legte es zur Platte, schloss mein SATA-Kabel an der Platte an und betrachtete das Spannungskabel und dachte bei mir selbst: "och, da wird ja schon nichts passieren, wenn ich die Platte nun im laufenden Betrieb (bei laufendem Scrub!) einfach mal anschließe"...
Und ja, ihr könnt euch eure Kommentare auch an der Stelle sparen: ich kenne sie alle! Ich habe es schon hunderttausendmal mit Kopfschütteln und Unverständnis Anderen erklärt und nie verstanden, wie man denn sooo dooof sein kann.
Und dann schnappte der Stecker auf den Anschluss und alle Festplatten stellten ihre Aktivität spontan ein, das System war nicht mehr erreichbar, die ssh-Konsolen hingen, nichts mehr, nur drehende Lüfter.
Auch nach einem Neustart keinen Kontakt mehr zum System.
Scheiße.
Oder?
Man kann da gar nicht sagen oder denken: Pech gehabt.
Das ist kein Pech, das ist Dummheit! Nein, dass ist Dummheit in beliebiger Potenz.
Nehmt das alle zum Anlass, nicht selbst dumm zu sein UND wider besseres Wissen zu handeln!
Ich möchte die Geschichte noch ein wenig weiter erzählen.
Der Fileserver ist ein altes FreeBSD, das niemals upgedatet wurde. Das ZFS darauf eines der ersten in FreeBSD benutzten. Ich sollte den vielleicht neu machen, bin aber zu faul. Jedenfalls gab es damals Probleme mit root on ZFS und ich entschied mich, auch aus anderen Gründen, das System auf einem Stick mit UFS zu betreiben. Von diesem Stick halte ich eine Kopie im Fileserver parat, für den Fall der Fälle. Den hatte ich nun ja. Also, Neustart mit alternativem Stick und ein Blick auf den zpool zeigte: drei Platten faulty, pool faulty, alles im Eimer, alles Hin.
Das war Sonntag.
Heute früh betrachtete ich mir den Bootvorgang mit dem ersten Stick (ich musste dazu eine GraKa einbauen) und sah, dass er ein defektes Dateisystem hatte. Stick in den PC, fsck, neuer Start vom Stick, Blick auf den Pool: ein neuer Scrub beginnt und der Pool ist nur ein wenig Degraded.
Inzwischen ist der Scrub durch und mein Pool meldet sich heil wieder.
Ich fasse nichts an! Derzeit läuft ein Backup, auf ein neu gekauftes, externes Medium. Lass es laufen, so lange es dauert!
Vielleicht ist das gerade so nochmal gut gegangen. Vielleicht werde ich weiteres Lehrgeld bezahlen müssen.
Glück gehört zum Leben, aber man kann sich nicht darauf verlassen und sollte es einfach nicht in Anspruch nehmen.
Wenn das nochmal gut geht und man daraus eine Lehre ziehen will: trust in ZFS
Allerdings gibt es vielleicht auch eine rein technische Lehre, denn offenbar schreibt ein Scrub nicht nur etwas auf die benutzten Datenplatten, sondern auch ins System (bei mir einen USB-Stick). Deshalb kann man nicht "in laufendem Betrieb" innerhalb eines Scrubs das System wechseln. Zumindest nicht so einfach, wie ich das machte.
Und noch was nebenbei, was dieser Aktion aber nicht bedurft hätte: mein nächster Pool hat >= zwei Platten Redundanz. Alles Andere ist Pfusch. Es wird ein Raidz2 werden, wenn irgendwie möglich.