Hallo!
Mein Fileserver läuft auf 7.1-Stable, mit einer 40 Gb PATA Platte (verschlüsselt mit Geli) für das OS und zwei 500 Gb SATAII Platten im RAID 1 für die Daten.
Die SATA Platten hängen an einem Promise FastTrack Sata300 TX4, /dev kennt sie als ad6 (von Seagate) und ad10 (von Samsung).
Das RAID wird realisiert über gmirror. Der Provider heisst gm0, dieser wurde mit geli verschlüsselt und HMAC/SHA256 findet Verwendung zur Integritätsprüfung.
Das ganze wird per USB-Stick, auf welchem sich auch die Schlüsseldateien für die Systemplatte und das RAID befinden, gebootet.
Soweit, so gut.
Nun lebe ich leider in einem alten Haus in einer relativ abgelegenen Gegend und unsere Stromversorgung bzw. die Elektroinstallation im Haus ist weiß Gott nicht die beste, und so passiert es von Zeit zu Zeit, dass hier mal ganz kurz der Strom weg ist (für grade mal zehn Sekunden oder so). Meine Mitbewohner kriegen das Ganze meistens garnicht mit, ich merk es auch nur, wenn ich heimkomm und der Server läuft nicht.
Ein paar dieser Stromausfälle hat der Server schon überstanden, mit dem üblichen run fsck manually etc.
Diesmal sah es auch so aus, mit dem Unterschied, dass er diesmal beim Prüfen etliche Fehlermeldungen über unlesbare Blöcke ausspuckte, in der Art:
Dazu parallel in der dmesg (in Wirklichkeit sind es etwa 50mal so viele Meldungen):
Mir schwant böses, ich bin mir nur nicht sicher, ob es diesmal wirklich beide Platten auf einmal gekillt hat oder ob ich was übersehen hab?
Mit gmirror forget gm0 passiert garnichts, auch wenn ich jeweils eine der Platten im RAID deaktiviere spuckt fsck tonnenweise Fehlermeldungen aus.
BTW: smartctl meldet die Platten als funktionstüchtig, keine Fehler.
Ich hab die Platten und die Daten bereits abgeschrieben. Ich möchte nur gerne ein paar von euren Expertenmeinungen dazu hören.
Thanks in advance.
Mein Fileserver läuft auf 7.1-Stable, mit einer 40 Gb PATA Platte (verschlüsselt mit Geli) für das OS und zwei 500 Gb SATAII Platten im RAID 1 für die Daten.
Die SATA Platten hängen an einem Promise FastTrack Sata300 TX4, /dev kennt sie als ad6 (von Seagate) und ad10 (von Samsung).
Das RAID wird realisiert über gmirror. Der Provider heisst gm0, dieser wurde mit geli verschlüsselt und HMAC/SHA256 findet Verwendung zur Integritätsprüfung.
Das ganze wird per USB-Stick, auf welchem sich auch die Schlüsseldateien für die Systemplatte und das RAID befinden, gebootet.
Soweit, so gut.
Nun lebe ich leider in einem alten Haus in einer relativ abgelegenen Gegend und unsere Stromversorgung bzw. die Elektroinstallation im Haus ist weiß Gott nicht die beste, und so passiert es von Zeit zu Zeit, dass hier mal ganz kurz der Strom weg ist (für grade mal zehn Sekunden oder so). Meine Mitbewohner kriegen das Ganze meistens garnicht mit, ich merk es auch nur, wenn ich heimkomm und der Server läuft nicht.
Ein paar dieser Stromausfälle hat der Server schon überstanden, mit dem üblichen run fsck manually etc.
Diesmal sah es auch so aus, mit dem Unterschied, dass er diesmal beim Prüfen etliche Fehlermeldungen über unlesbare Blöcke ausspuckte, in der Art:
Code:
#fsck -y /dev/mirror/gm0.elia
...snip...
CANNOT READ BLK: 868201376
CONTINUE? yes
THE FOLLOWING DISK SECTORS COULD NOT BE READ: 868201376, 868201377, 868201378, 868201379, 868201380, 868201381, 868201382, 868201383, 868201384, 868201385, 868201386, 868201387, 868201388, 868201389, 868201390, 868201391, 868201392, 868201393, 868201394, 868201395, 868201396, 868201397, 868201398, 868201399, 868201400, 868201401, 868201402, 868201403, 868201404, 868201405, 868201406, 868201407, 868201408, 868201409, 868201410, 868201411, 868201412, 868201413, 868201414, 868201415, 868201416, 868201417, 868201418, 868201419, 868201420, 868201421, 868201422, 868201423, 868201424, 868201425, 868201426, 868201427, 868201428, 868201429, 868201430, 868201431, 868201432, 868201433, 868201434, 868201435, 868201436, 868201437, 868201438, 868201439, 868201440, 868201441, 868201442, 868201443, 868201444, 868201445, 868201446, 868201447, 868201448, 868201449, 868201450, 868201451, 868201452, 868201453, 868201454, 868201455, 868201456, 868201457, 868201458, 868201459, 868201460, 868201461, 868201462, 868201463, 868201464, 868201465, 868201466, 868201467, 868201468, 868201469, 868201470, 868201471, 868201472, 868201473, 868201474, 868201475, 868201476, 868201477, 868201478, 868201479, 868201480, 868201481, 868201482, 868201483, 868201484, 868201485, 868201486, 868201487, 868201488, 868201489, 868201490, 868201491, 868201492, 868201493, 868201494, 868201495, 868201496, 868201497, 868201498, 868201499, 868201500, 868201501, 868201502, 868201503,
Dazu parallel in der dmesg (in Wirklichkeit sind es etwa 50mal so viele Meldungen):
Code:
#dmesg
...snip...
GEOM_ELI[0]: mirror/gm0.eli: 32768 bytes corrupted at offset 442399023104.
GEOM_ELI[0]: mirror/gm0.eli: 32768 bytes corrupted at offset 442752376832.
GEOM_ELI[0]: mirror/gm0.eli: 32768 bytes corrupted at offset 443105730560.
GEOM_ELI[0]: mirror/gm0.eli: 32768 bytes corrupted at offset 443459084288.
GEOM_ELI[0]: mirror/gm0.eli: 32768 bytes corrupted at offset 443812438016.
GEOM_ELI[0]: mirror/gm0.eli: 32768 bytes corrupted at offset 444165791744.
GEOM_ELI[0]: mirror/gm0.eli: 32768 bytes corrupted at offset 444519145472.
Mir schwant böses, ich bin mir nur nicht sicher, ob es diesmal wirklich beide Platten auf einmal gekillt hat oder ob ich was übersehen hab?
Mit gmirror forget gm0 passiert garnichts, auch wenn ich jeweils eine der Platten im RAID deaktiviere spuckt fsck tonnenweise Fehlermeldungen aus.
BTW: smartctl meldet die Platten als funktionstüchtig, keine Fehler.
Ich hab die Platten und die Daten bereits abgeschrieben. Ich möchte nur gerne ein paar von euren Expertenmeinungen dazu hören.
Thanks in advance.