GELI -> Adaptec RAID Controller stürzt ab

Morfio

Well-Known Member
Hallo,

ist jemanden bekannt, dass GELI unter Umständen fehlerbehaftet ist und zu einem Herunterfahren des RAID Controllers (in meinem Fall Adaptec 5445Z) führen kann?

Folgende Situation: auf einem FreeBSD 8 Stable ist ein Adaptec 5445Z eingebaut. Auf dem gibt es unter /server und unter /jails zwei Mounts, die mit GELI verschlüsselt sind.

Gestern Abend begann per CronJob eine Sicherung. Bei der wird eine USB-Festplatte (es handelt sich um eine SATAII-Festplatte, die mittels USB-Adapter innerhalb eines Wechselrahmens am Server hängt) mit GELI verschlüsselt und formatiert. Anschließend werden dann die Daten aus /server darauf kopiert.

Es kamen etliche Fehlermeldungen:

Jun 21 18:08:52 ernie kernel: (da0:umass-sim0:0:0:0): AutoSense failed

Jun 21 18:09:11 ernie kernel: GEOM_ELI: Crypto WRITE request failed (error=5). da0.eli[WRITE(offset=87665606656, length=16384)]
Jun 21 18:09:11 ernie kernel: GEOM_ELI: Crypto WRITE request failed (error=5). da0.eli[WRITE(offset=87665885184, length=16384)]
Jun 21 18:09:11 ernie kernel: GEOM_ELI: Crypto WRITE request failed (error=5). da0.eli[WRITE(offset=87666098176, length=16384)]
Jun 21 18:09:11 ernie kernel: GEOM_ELI: Crypto WRITE request failed (error=5). da0.eli[WRITE(offset=87666327552, length=16384)]
[... usw. usf.]
Jun 21 18:09:11 ernie kernel: g_vfs_done():da0.eli[WRITE(offset=85130739712, length=16384)]error = 5
Jun 21 18:09:11 ernie kernel: g_vfs_done():da0.eli[WRITE(offset=85130756096, length=16384)]error = 5
Jun 21 18:09:11 ernie kernel: g_vfs_done():da0.eli[WRITE(offset=85156536320, length=4096)]error = 5
Jun 21 18:09:11 ernie kernel: g_vfs_done():da0.eli[WRITE(offset=86543679488, length=16384)]error = 5
Jun 21 18:09:11 ernie kernel: g_vfs_done():da0.eli[WRITE(offset=86543695872, length=16384)]error = 5
Jun 21 18:09:11 ernie kernel: g_vfs_done():da0.eli[WRITE(offset=86550917120, length=4096)]error = 5
Jun 21 18:09:11 ernie kernel: g_vfs_done():da0.eli[WRITE(offset=86896807936, length=4096)]error = 5
Jun 21 18:09:11 ernie kernel: g_vfs_done():da0.eli[WRITE(offset=86896820224, length=4096)]error = 5
Jun 21 18:09:11 ernie kernel: g_vfs_done():da0.eli[WRITE(offset=86896824320, length=4096)]error = 5
Jun 21 18:09:11 ernie kernel: g_vfs_done():da0.eli[WRITE(offset=86896828416, length=4096)]error = 5
[... usw. usf.]

Das Backup beginnt um 18:00, um 18:08 begannen dann die Fehlermeldungen. Um ca. 18:09 fuhr der Server den RAID-Controller herunter (die genaue Fehlermeldung habe ich gerade leider nicht da, aber es war in etwa "could not synchronize cache").

Hat damit jemand Erfahrungen?

Viele Grüße, Morfio
 
Der Fehler ist reproduzierbar. Auf einem anderen Server mit anderer Adaptec-Karte selbes Problem (s. Anhang).

Vielleicht liegt es am Script:

Code:
#!/usr/local/bin/bash

LOG_DIR="/var/log"
LOG_FILE="backup_hdd.log"
LOG="${LOG_DIR}/${LOG_FILE}"
DEVICE="da0"
MOUNT="/mnt/backup"
KEY="/server/backup/keys/ernie.key"
BACKUP_DIR="/server"

echo `date` > ${LOG};
test -c "/dev/${DEVICE}" || ( echo "`date` Could not find /dev/${DEVICE}" >> ${LOG}; exit 1 ) || exit 1
geli init -P -s 4096 -K /server/backup/keys/ernie.key "/dev/${DEVICE}" || ( echo "`date` Could not encrypt /dev/${DEVICE}" >> ${LOG}; exit 1 ) || exit 1
geli attach -p -k "${KEY}" "/dev/${DEVICE}" || ( echo "`date` Could not attach /dev/${DEVICE}" >> ${LOG}; exit 1 ) || exit 3
test -c "/dev/${DEVICE}.eli" || ( echo "`date` /dev/${DEVICE}.eli not found" >> ${LOG}; exit 1 ) || exit 4
newfs -U -O2 "/dev/${DEVICE}.eli" || ( echo "`date` Could not format /dev/${DEVICE}.eli" >> ${LOG}; exit 1 ) || exit 5
mount "/dev/${DEVICE}.eli" "${MOUNT}" || ( echo "`date` Could not mount /dev/${DEVICE}.eli to ${MOUNT}" >> ${LOG}; exit 1 ) || exit 6
time cp -vfR "${BACKUP_DIR}" "${MOUNT}" >> ${LOG};
umount "${MOUNT}" || ( echo "`date` Could not unmount ${MOUNT}" >> ${LOG}; exit 1 ) || exit 7
geli detach "/dev/${DEVICE}.eli" || ( echo "`date` Could not detach /dev/${DEVICE}.eli" >> ${LOG}; exit 1 ) || exit 8
echo `date` >> ${LOG};
 
Ups, der Anhang
 

Attachments

  • Foto.webp
    Foto.webp
    359.4 KB · Views: 305
Ich bin einen Schritt weiter: bei der externen Platte meldet Smart Fehler. Der darf aber eigentlich dann doch nicht das ganze System mit wegreißen, oder?

Mit einer anderen Platte scheint es zu laufen.

Der Fehler:

Error 2 occurred at disk power-on lifetime: 138 hours (5 days + 18 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 2c 94 a1 02 00 Error: ICRC, ABRT 44 sectors at LBA = 0x0002a194 = 172436

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
35 03 80 40 a1 02 e5 00 35d+05:26:37.749 WRITE DMA EXT
35 03 80 c0 a0 02 e5 00 35d+05:26:37.735 WRITE DMA EXT
35 03 80 80 9f 02 e5 00 35d+05:26:37.720 WRITE DMA EXT
35 03 80 00 9f 02 e5 00 35d+05:26:37.706 WRITE DMA EXT
35 03 80 e0 9d 02 e5 00 35d+05:26:37.691 WRITE DMA EXT

Error 1 occurred at disk power-on lifetime: 124 hours (5 days + 4 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 15 eb 2c 57 00 Error: ICRC, ABRT 21 sectors at LBA = 0x00572ceb = 5713131

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
35 03 80 80 2c 57 ea 00 31d+14:19:13.585 WRITE DMA EXT
35 03 80 00 2c 57 e0 00 31d+14:19:13.572 WRITE DMA EXT
35 03 80 80 2b 57 ea 00 31d+14:19:13.559 WRITE DMA EXT
35 03 80 00 2b 57 e0 00 31d+14:19:13.546 WRITE DMA EXT
35 03 80 00 2a 57 ea 00 31d+14:19:13.533 WRITE DMA EXT

SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
 
Wir hatten hier doch schonmal diese Sache mit der fehlerhaften Firmware bei Adaptec RAID-Controllern, oder?! Könnte es das sein?
 
Wir hatten hier doch schonmal diese Sache mit der fehlerhaften Firmware bei Adaptec RAID-Controllern, oder?! Könnte es das sein?

Leider nicht, die Firmware ist auf dem aktuellen Stand. Es kann sein, dass es an den IDE/SATA zu USB Controllern liegt, ich suche aber noch.
 
Back
Top