GMIRROR/RAID1, ständig timeouts und degrading

Rosendoktor

Well-Known Member
Hallo,

ich betreibe auf einem alten Desktop PC ein FreeBSD 10.3 das mit gmirror auf zwei Platten gespiegelt läuft. Auf den beiden Festplatten (jeweils 500 GB sata) ist neben FreeBSD auch noch ein Linux installiert, das ebenfalls auf gespiegelten Partitionen läuft.

Die Partitionstabellen der beiden Platten ada0 und ada1 sehen so aus:
Code:
root@sirius:~# gpart show ada0
=>       34  976773101  ada0  GPT  (466G)
         34       2014        - free -  (1.0M)
       2048       2048     1  bios-boot  (1.0M)
       4096    1048576     2  efi  (512M)
    1052672   50331648     3  linux-data  (24G)
   51384320    8388608     4  linux-data  (4.0G)
   59772928    1048576     5  freebsd-boot  (512M)
   60821504   50331648     6  freebsd-ufs  (24G)
  111153152    8388608     7  freebsd-swap  (4.0G)
  119541760  377487360     8  linux-data  (180G)
  497029120  377487360     9  linux-data  (180G)
  874516480   83886080    10  freebsd-ufs  (40G)
  958402560    8388608    11  freebsd-ufs  (4.0G)
  966791168    8388608    12  freebsd-ufs  (4.0G)
  975179776    1593359        - free -  (778M)

Für ada1 identisch. Auf Partition 1 ist der GRUB2 Bootloader des Linux (der auch FreeBSD bootet), auf 2, 3, 4 und 8, 9 das Linux System und die Daten. Auf 5, 6, 7, 10, 11, 12 ist das FreeBSD System und die Daten.

Gespiegelt werden also die gpt Partitionen einzeln, nicht die gesamten Platten, unter Linux mit mdadm, unter FreeBSD eben mit gmirror.

Das sieht dann so aus:
Code:
root@sirius:~# gmirror status
          Name    Status  Components
mirror/boot  COMPLETE  ada0p5 (ACTIVE)
                        ada1p5 (ACTIVE)
mirror/root  COMPLETE  ada0p6 (ACTIVE)
                        ada1p6 (ACTIVE)
mirror/swap  COMPLETE  ada0p7 (ACTIVE)
                        ada1p7 (ACTIVE)
mirror/user1  COMPLETE  ada0p10 (ACTIVE)
                        ada1p10 (ACTIVE)
mirror/user2  COMPLETE  ada0p11 (ACTIVE)
                        ada1p11 (ACTIVE)
mirror/user3  COMPLETE  ada0p12 (ACTIVE)
                        ada1p12 (ACTIVE)

Ich weiss dass das nicht das übliche Setup ist, aber anders kann ich es nicht machen da FreeBSD und Linux sich eben diese Platten teilen.

Und im Grunde funktioniert es ja auch, die Mirrors werden aufgebaut und laufen soweit.

Leider ist die Spiegelung unter FreeBSD nicht stabil. Es kommt immer wieder vor, in den letzten Tagen etwa 2 bis 3 mal täglich, und auch bei unausgelastetem System, dass einzelne Mirrors in den "DEGRADED" Zustand gehen, oder gleich die ganze ada1 Platte abgemeldet wird. Das sieht dann beispielsweise so aus:
Code:
root@sirius:~# gmirror status
          Name    Status  Components
mirror/boot  DEGRADED  ada0p5 (ACTIVE)
mirror/root  DEGRADED  ada0p6 (ACTIVE)
mirror/swap  COMPLETE  ada0p7 (ACTIVE)
                        ada1p7 (ACTIVE)
mirror/user1  DEGRADED  ada1p10 (ACTIVE)
mirror/user2  COMPLETE  ada0p11 (ACTIVE)
                        ada1p11 (ACTIVE)
mirror/user3  COMPLETE  ada0p12 (ACTIVE)
                        ada1p12 (ACTIVE)

Hier sind einzelne Mirror im "DEGRADED" Zustand, und ja, es fallen wirklich sowohl auf ada0 als auch auf ada1 Partitionen weg.

Wenn dagegen die ganze ada1 Platte abgemeldet wird (also auch unter /dev nicht mehr erscheint), sieht es so aus:
Code:
root@sirius:~# gmirror status
          Name    Status  Components
mirror/boot  DEGRADED  ada0p5 (ACTIVE)
mirror/root  DEGRADED  ada0p6 (ACTIVE)
mirror/swap  DEGRADED  ada0p7 (ACTIVE)
mirror/user1  DEGRADED  ada0p10 (ACTIVE)
mirror/user2  DEGRADED  ada0p11 (ACTIVE)
mirror/user3  DEGRADED  ada0p12 (ACTIVE)

Die SMART Werte der beiden Platten sind soweit in Ordnung, auch habe ich wenn das Linux gebootet ist keinerlei Probleme mit den Festplatten und den mdadm RAIDs. Habe es extra nochmal ausprobiert unter hoher Last.

Beim nächsten Bootvorgang gehen dann einige der Mirrors automatisch in den resync, die verbleibenden (meist root und user1, das bin ich) kann ich mit gmirror forget und gmirror insert manuell wieder aufbauen.

Auch fällt mir beim Booten von FreeBSD auf, dass die Mirrors meist, aber nicht immer, aufgrund eines Timeouts nur mit einer Platte erzwungenermassen ("forcing...") gestartet werden. Ist das System hochgefahren, laufen die Mirrors dann aber korrekt mit zwei Platten.

Ich habe beim googeln nach dem Problem einiges gefunden zu gmirror+timeout+degraded, anscheinend kommt das öfter vor, war aber nichts dabei was mir helfen würde das Problem zu identifizieren oder zu beheben.

Weiss jemand was da passiert, und was ich dagegen machen könnte?

Danke&Grüsse,

Robert
 
Steht was in den Logs, wenn die Platte aussteigt? Wenn ein /dev Node nicht erscheint, muss GEOM irgendein Problem mit der Partition haben und melden. Wenn ganze Platte plötzlich nicht angezeigt wird, sollte das auch gemeldet werden. Du steckst aber zwischen den Boots nicht etwas ein und aus, sodass sich an der ada(4)-Nummerierung was ändert? Sind die Stecker alle Fest? Ist das Netzteil und die Mainboard-Spannungen alle heile? Guck trotzdem mal danach, weil Linux ist vielleicht in Fehlerfällen der Hardware toleranter.
 
Steht was in den Logs, wenn die Platte aussteigt? Wenn ein /dev Node nicht erscheint, muss GEOM irgendein Problem mit der Partition haben und melden. Wenn ganze Platte plötzlich nicht angezeigt wird, sollte das auch gemeldet werden. Du steckst aber zwischen den Boots nicht etwas ein und aus, sodass sich an der ada(4)-Nummerierung was ändert? Sind die Stecker alle Fest? Ist das Netzteil und die Mainboard-Spannungen alle heile? Guck trotzdem mal danach, weil Linux ist vielleicht in Fehlerfällen der Hardware toleranter.

Ja, in den Logs steht das:

Code:
May 22 21:12:14 sirius kernel: (ada1:ahcich1:0:0:0): READ_FPDMA_QUEUED. ACB: 60 80 80 3a 74 40 04 00 00 00 00 00
May 22 21:12:14 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Uncorrectable parity/CRC error
May 22 21:12:14 sirius kernel: (ada1:ahcich1:0:0:0): Retrying command
May 22 21:12:14 sirius kernel: (ada1:ahcich1:0:0:0): READ_FPDMA_QUEUED. ACB: 60 40 00 42 74 40 04 00 00 00 00 00
May 22 21:12:14 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Uncorrectable parity/CRC error
May 22 21:12:14 sirius kernel: (ada1:ahcich1:0:0:0): Retrying command
May 22 21:12:14 sirius kernel: (ada1:ahcich1:0:0:0): READ_FPDMA_QUEUED. ACB: 60 40 00 47 74 40 04 00 00 00 00 00
May 22 21:12:14 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Uncorrectable parity/CRC error
May 22 21:12:14 sirius kernel: (ada1:ahcich1:0:0:0): Retrying command
May 22 21:12:14 sirius kernel: (ada1:ahcich1:0:0:0): READ_FPDMA_QUEUED. ACB: 60 80 80 54 74 40 04 00 00 00 00 00
May 22 21:12:14 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Uncorrectable parity/CRC error
May 22 21:12:14 sirius kernel: (ada1:ahcich1:0:0:0): Retrying command
May 22 21:12:15 sirius kernel: (ada1:ahcich1:0:0:0): READ_FPDMA_QUEUED. ACB: 60 80 80 54 74 40 04 00 00 00 00 00
May 22 21:12:15 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Uncorrectable parity/CRC error
May 22 21:12:15 sirius kernel: (ada1:ahcich1:0:0:0): Retrying command
May 22 21:12:15 sirius kernel: (ada1:ahcich1:0:0:0): READ_FPDMA_QUEUED. ACB: 60 80 80 54 74 40 04 00 00 00 00 00
May 22 21:12:15 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Uncorrectable parity/CRC error
May 22 21:12:15 sirius kernel: (ada1:ahcich1:0:0:0): Retrying command
May 22 21:12:15 sirius kernel: (ada1:ahcich1:0:0:0): READ_FPDMA_QUEUED. ACB: 60 80 80 54 74 40 04 00 00 00 00 00
May 22 21:12:15 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Uncorrectable parity/CRC error
May 22 21:12:15 sirius kernel: (ada1:ahcich1:0:0:0): Retrying command
May 22 21:12:15 sirius kernel: (ada1:ahcich1:0:0:0): READ_FPDMA_QUEUED. ACB: 60 80 80 54 74 40 04 00 00 00 00 00
May 22 21:12:15 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Uncorrectable parity/CRC error
May 22 21:12:15 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Retries exhausted
May 22 21:12:15 sirius kernel: GEOM_MIRROR: Request failed (error=5). ada1p6[READ(offset=7122518016, length=65536)]
May 22 21:12:15 sirius kernel: GEOM_MIRROR: Device root: provider ada1p6 disconnected.
May 22 21:12:45 sirius kernel: ahcich1: Timeout on slot 28 port 0
May 22 21:12:45 sirius kernel: ahcich1: is 04000000 cs f07fffff ss ffffffff rs ffffffff tfd 40 serr 00380000 cmd 0004db17
May 22 21:12:45 sirius kernel: (ada1:ahcich1:0:0:0): READ_FPDMA_QUEUED. ACB: 60 01 ff 0f a0 40 06 00 00 00 00 00
May 22 21:12:45 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Command timeout
May 22 21:12:45 sirius kernel: (ada1:ahcich1:0:0:0): Retrying command
May 22 21:12:46 sirius kernel: GEOM_MIRROR: Component gptid/131d3914-8998-4435-847c-3ad9bfb92ecf (device root) broken, skipping.
May 22 21:12:46 sirius kernel: GEOM_MIRROR: Cannot add disk gptid/131d3914-8998-4435-847c-3ad9bfb92ecf to root (error=22).
May 22 21:12:57 sirius kernel: (ada1:ahcich1:0:0:0): READ_FPDMA_QUEUED. ACB: 60 40 c0 11 90 40 03 00 00 00 00 00
May 22 21:12:57 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Uncorrectable parity/CRC error
May 22 21:12:57 sirius kernel: (ada1:ahcich1:0:0:0): Retrying command
May 22 21:12:57 sirius kernel: (ada1:ahcich1:0:0:0): READ_FPDMA_QUEUED. ACB: 60 40 c0 11 90 40 03 00 00 00 00 00
May 22 21:12:57 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Uncorrectable parity/CRC error
May 22 21:12:57 sirius kernel: (ada1:ahcich1:0:0:0): Retrying command
May 22 21:12:57 sirius kernel: (ada1:ahcich1:0:0:0): READ_FPDMA_QUEUED. ACB: 60 40 c0 11 90 40 03 00 00 00 00 00
May 22 21:12:57 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Uncorrectable parity/CRC error
May 22 21:12:57 sirius kernel: (ada1:ahcich1:0:0:0): Retrying command
May 22 21:12:57 sirius kernel: (ada1:ahcich1:0:0:0): READ_FPDMA_QUEUED. ACB: 60 40 c0 11 90 40 03 00 00 00 00 00
May 22 21:12:57 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Uncorrectable parity/CRC error
May 22 21:12:57 sirius kernel: (ada1:ahcich1:0:0:0): Retrying command
May 22 21:12:58 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 00 c0 ce 97 40 03 00 00 01 00 00
May 22 21:12:58 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Uncorrectable parity/CRC error
May 22 21:12:58 sirius kernel: (ada1:ahcich1:0:0:0): Retrying command
May 22 21:12:58 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 00 00 65 98 40 03 00 00 01 00 00
May 22 21:12:58 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Uncorrectable parity/CRC error
May 22 21:12:58 sirius kernel: (ada1:ahcich1:0:0:0): Retrying command
May 22 21:13:23 sirius kernel: pid 20568 (install), uid 0 inumber 866 on /.boot: filesystem full
May 22 21:14:10 sirius kernel: ahcich1: Timeout on slot 22 port 0
May 22 21:14:10 sirius kernel: ahcich1: is 04000000 cs fe3fffff ss ffffffff rs ffffffff tfd 40 serr 00380000 cmd 0004d817
May 22 21:14:10 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 40 c4 99 40 03 00 00 00 00 00
May 22 21:14:10 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Command timeout
May 22 21:14:10 sirius kernel: (ada1:ahcich1:0:0:0): Retrying command
May 22 21:14:43 sirius kernel: ahcich1: AHCI reset: device not ready after 31000ms (tfd = 000000ff)
May 22 21:15:13 sirius kernel: ahcich1: Timeout on slot 22 port 0
May 22 21:15:13 sirius kernel: ahcich1: is 00000000 cs 00400000 ss 00000000 rs 00400000 tfd 77 serr 00180000 cmd 0004d617
May 22 21:15:13 sirius kernel: (aprobe0:ahcich1:0:0:0): ATA_IDENTIFY. ACB: ec 00 00 00 00 40 00 00 00 00 00 00
May 22 21:15:13 sirius kernel: (aprobe0:ahcich1:0:0:0): CAM status: Command timeout
May 22 21:15:13 sirius kernel: (aprobe0:ahcich1:0:0:0): Retrying command
May 22 21:15:13 sirius kernel: (aprobe0:ahcich1:0:0:0): ATA_IDENTIFY. ACB: ec 00 00 00 00 40 00 00 00 00 00 00
May 22 21:15:13 sirius kernel: (aprobe0:ahcich1:0:0:0): CAM status: Uncorrectable parity/CRC error
May 22 21:15:13 sirius kernel: (aprobe0:ahcich1:0:0:0): Error 5, Retries exhausted
May 22 21:15:47 sirius kernel: ahcich1: AHCI reset: device not ready after 31000ms (tfd = 000000ff)
May 22 21:16:16 sirius kernel: ahcich1: Timeout on slot 24 port 0
May 22 21:16:16 sirius kernel: ahcich1: is 00000000 cs 01000000 ss 00000000 rs 01000000 tfd 77 serr 00180000 cmd 0004d817
May 22 21:16:16 sirius kernel: (aprobe0:ahcich1:0:0:0): ATA_IDENTIFY. ACB: ec 00 00 00 00 40 00 00 00 00 00 00
May 22 21:16:16 sirius kernel: (aprobe0:ahcich1:0:0:0): CAM status: Command timeout
May 22 21:16:16 sirius kernel: (aprobe0:ahcich1:0:0:0): Error 5, Retry was blocked
May 22 21:16:17 sirius kernel: (aprobe0:ahcich1:0:0:0): ATA_IDENTIFY. ACB: ec 00 00 00 00 40 00 00 00 00 00 00
May 22 21:16:17 sirius kernel: (aprobe0:ahcich1:0:0:0): CAM status: Uncorrectable parity/CRC error
May 22 21:16:17 sirius kernel: (aprobe0:ahcich1:0:0:0): Error 5, Retry was blocked
May 22 21:16:47 sirius kernel: ahcich1: Timeout on slot 26 port 0
May 22 21:16:47 sirius kernel: ahcich1: is 00000000 cs 04000000 ss 00000000 rs 04000000 tfd 1d0 serr 00980000 cmd 0004da17
May 22 21:16:47 sirius kernel: (aprobe0:ahcich1:0:0:0): ATA_IDENTIFY. ACB: ec 00 00 00 00 40 00 00 00 00 00 00
May 22 21:16:47 sirius kernel: (aprobe0:ahcich1:0:0:0): CAM status: Command timeout
May 22 21:16:47 sirius kernel: (aprobe0:ahcich1:0:0:0): Error 5, Retry was blocked
May 22 21:16:47 sirius kernel: ada1 at ahcich1 bus 0 scbus1 target 0 lun 0
May 22 21:16:47 sirius kernel: ada1: <WDC WD5000AAKS-00UU3A0 01.03B01> s/n WD-WCAYUM719442
May 22 21:16:47 sirius kernel: detached
May 22 21:16:47 sirius kernel: GEOM_MIRROR: Request failed (error=6). ada1p5[WRITE(offset=389840896, length=32768)]
May 22 21:16:47 sirius kernel: GEOM_MIRROR: Device boot: provider ada1p5 disconnected.
May 22 21:16:47 sirius kernel: (aprobe0:ahcich1:0:0:0): ATA_IDENTIFY. ACB: ec 00 00 00 00 40 00 00 00 00 00 00
May 22 21:16:47 sirius kernel: (aprobe0:ahcich1:0:0:0): CAM status: Uncorrectable parity/CRC error
May 22 21:16:47 sirius kernel: (aprobe0:ahcich1:0:0:0): Retrying command
May 22 21:16:47 sirius kernel: (aprobe0:ahcich1:0:0:0): ATA_IDENTIFY. ACB: ec 00 00 00 00 40 00 00 00 00 00 00
May 22 21:16:47 sirius kernel: (aprobe0:ahcich1:0:0:0): CAM status: Uncorrectable parity/CRC error
May 22 21:16:47 sirius kernel: (aprobe0:ahcich1:0:0:0): Error 5, Retries exhausted
May 22 21:17:06 sirius kernel: ahcich1: Poll timeout on slot 30 port 0
May 22 21:17:06 sirius kernel: ahcich1: is 04000000 cs 40000000 ss 00000000 rs 40000000 tfd 1d0 serr 00380000 cmd 0004de17
May 22 21:17:06 sirius kernel: (aprobe0:ahcich1:0:0:0): NOP. ACB: 00 00 00 00 00 00 00 00 00 00 00 00
May 22 21:17:06 sirius kernel: (aprobe0:ahcich1:0:0:0): CAM status: Command timeout
May 22 21:17:06 sirius kernel: (aprobe0:ahcich1:0:0:0): Error 5, Retries exhausted
May 22 21:17:07 sirius kernel: (aprobe0:ahcich1:0:0:0): ATA_IDENTIFY. ACB: ec 00 00 00 00 40 00 00 00 00 00 00
May 22 21:17:07 sirius kernel: (aprobe0:ahcich1:0:0:0): CAM status: Uncorrectable parity/CRC error
May 22 21:17:07 sirius kernel: (aprobe0:ahcich1:0:0:0): Retrying command
May 22 21:17:40 sirius kernel: ahcich1: AHCI reset: device not ready after 31000ms (tfd = 000000ff)
May 22 21:18:09 sirius kernel: ahcich1: Timeout on slot 2 port 0
May 22 21:18:09 sirius kernel: ahcich1: is 00000000 cs 00000004 ss 00000000 rs 00000004 tfd f7 serr 00980000 cmd 0004c217
May 22 21:18:09 sirius kernel: (aprobe0:ahcich1:0:0:0): ATA_IDENTIFY. ACB: ec 00 00 00 00 40 00 00 00 00 00 00
May 22 21:18:09 sirius kernel: (aprobe0:ahcich1:0:0:0): CAM status: Command timeout
May 22 21:18:09 sirius kernel: (aprobe0:ahcich1:0:0:0): Error 5, Retries exhausted
May 22 21:18:43 sirius kernel: ahcich1: AHCI reset: device not ready after 31000ms (tfd = 000000ff)
May 22 21:18:43 sirius kernel: (aprobe0:ahcich1:0:0:0): NOP. ACB: 00 00 00 00 00 00 00 00 00 00 00 00
May 22 21:18:43 sirius kernel: (aprobe0:ahcich1:0:0:0): CAM status: ATA Status Error
May 22 21:18:43 sirius kernel: (aprobe0:ahcich1:0:0:0): ATA status: f7 (BSY DRDY DF SERV CORR IDX ERR), error: 00 ()
May 22 21:18:43 sirius kernel: (aprobe0:ahcich1:0:0:0): RES: f7 00 ff ff ff ff ff ff ff ff ff
May 22 21:18:43 sirius kernel: (aprobe0:ahcich1:0:0:0): Error 5, Retries exhausted
May 22 21:19:12 sirius kernel: ahcich1: Timeout on slot 5 port 0
May 22 21:19:12 sirius kernel: ahcich1: is 00000000 cs ffffffdf ss ffffffff rs ffffffff tfd 1d0 serr 00980000 cmd 0004c617
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 40 c4 99 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Command timeout
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 00 50 9b 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 40 36 9b 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 00 28 9b 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 40 a2 9b 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 40 9d 9b 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 40 bc 99 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 40 b3 99 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 30 00 46 94 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 08 c0 0f a0 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 40 05 9a 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 c0 fb 99 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 00 f1 99 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 40 ec 99 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 c0 e7 99 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 00 e3 99 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 80 d9 99 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 40 cf 99 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 c0 78 9a 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 40 74 9a 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 c0 4e 9a 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 80 4a 9a 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 80 41 9a 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 00 b1 9a 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 00 a2 9a 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 00 12 9b 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 c0 09 9b 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 40 00 9b 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 00 d4 9a 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 c0 cf 9a 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 c0 57 9b 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 00 54 9b 40 03 00 00 00 00 00
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Unconditionally Re-queue Request
May 22 21:19:12 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:19:12 sirius kernel: GEOM_MIRROR: Device user2: provider ada1p11 disconnected.
May 22 21:19:12 sirius kernel: GEOM_MIRROR: Device swap: provider ada1p7 disconnected.GEOM_MIRROR
May 22 21:19:12 sirius kernel: : Device user3: provider ada1p12 disconnected.
May 22 21:19:12 sirius kernel: GEOM_MIRROR: Device user1: provider ada1p10 disconnected.
May 22 21:19:46 sirius kernel: ahcich1: AHCI reset: device not ready after 31000ms (tfd = 000000ff)
May 22 21:19:46 sirius kernel: (aprobe0:ahcich1:0:0:0): NOP. ACB: 00 00 00 00 00 00 00 00 00 00 00 00
May 22 21:19:46 sirius kernel: (aprobe0:ahcich1:0:0:0): CAM status: ATA Status Error
May 22 21:19:46 sirius kernel: (aprobe0:ahcich1:0:0:0): ATA status: f7 (BSY DRD
Y DF SERV CORR IDX ERR), error: 00 ()
May 22 21:19:46 sirius kernel: (aprobe0:ahcich1:0:0:0): RES: f7 00 ff ff ff ff ff ff ff ff ff
May 22 21:19:46 sirius kernel: (aprobe0:ahcich1:0:0:0): Error 5, Retries exhausted
May 22 21:20:16 sirius kernel: ahcich1: Timeout on slot 7 port 0
May 22 21:20:16 sirius kernel: ahcich1: is 04000000 cs 00000080 ss 00000000 rs 00000080 tfd f7 serr 00380000 cmd 0004c717
May 22 21:20:16 sirius kernel: (ada1:ahcich1:0:0:0): SETFEATURES ENABLE RCACHE. ACB: ef aa 00 00 00 40 00 00 00 00 00 00
May 22 21:20:16 sirius kernel: (ada1:ahcich1:0:0:0): CAM status: Command timeout
May 22 21:20:16 sirius kernel: (ada1:ahcich1:0:0:0): Error 5, Periph was invalidated
May 22 21:20:16 sirius kernel: (ada1:ahcich1:0:0:0): Periph destroyed
May 22 21:20:49 sirius kernel: ahcich1: AHCI reset: device not ready after 31000ms (tfd = 000000ff)

Sieht aus als würde die Platte tatsächlich komplett aussteigen. :( Ich schaue mir die Stecker alle mal an, wollte sowieso versuchen die RAID Platten an verschiedene Controller zu hängen. Spannungsschwankungen kann ich nicht ausschliessen, in dem Midi Tower sind 6 Festplatten verbaut und zwei PCI/PCIe Karten. Wobei die nicht benötigten Platten angehalten werden, in FreeBSD mit ataidle, in Linux mit hdparm und in Windows auch irgendwie.
 
Okay, habe jetzt mal die Kabel überprüft und die vier Platten, von denen je zwei gespiegelt werden, mal "über Kreuz" an die Onboard- und PCIe SATA Controller gehängt. Vorher hatte ich beim Booten fast immer das:

Code:
May 19 17:43:10 sirius kernel: GEOM_MIRROR: Force device boot start due to timeout.
May 19 17:43:10 sirius kernel: GEOM_MIRROR: Device mirror/boot launched (1/2).
May 19 17:43:10 sirius kernel: GEOM_MIRROR: Force device root start due to timeout.
May 19 17:43:10 sirius kernel: GEOM_MIRROR: Force device swap start due to timeout.
May 19 17:43:10 sirius kernel: GEOM_MIRROR: Device mirror/root launched (1/2).
May 19 17:43:10 sirius kernel: GEOM_MIRROR: Device mirror/swap launched (1/2).
May 19 17:43:10 sirius kernel: GEOM_MIRROR: Force device user1 start due to timeout.
May 19 17:43:10 sirius kernel: GEOM_MIRROR: Force device user2 start due to timeout.
May 19 17:43:10 sirius kernel: GEOM_MIRROR: Device mirror/user1 launched (1/2).
May 19 17:43:10 sirius kernel: GEOM_MIRROR: Device mirror/user2 launched (1/2).
May 19 17:43:10 sirius kernel: GEOM_MIRROR: Force device user3 start due to timeout.
May 19 17:43:10 sirius kernel: GEOM_MIRROR: Device mirror/user3 launched (1/2).

Und jetzt stabil das:

Code:
GEOM_MIRROR: Cancelling unmapped because of ada4p5.
GEOM_MIRROR: Device mirror/boot launched (2/2).
GEOM_MIRROR: Cancelling unmapped because of ada4p6.
GEOM_MIRROR: Device mirror/root launched (2/2).
GEOM_MIRROR: Cancelling unmapped because of ada4p7.
GEOM_MIRROR: Device mirror/swap launched (2/2).
GEOM_MIRROR: Cancelling unmapped because of ada4p10.
GEOM_MIRROR: Device mirror/user1 launched (2/2).
GEOM_MIRROR: Cancelling unmapped because of ada4p11.
GEOM_MIRROR: Device mirror/user2 launched (2/2).
GEOM_MIRROR: Cancelling unmapped because of ada4p12.
GEOM_MIRROR: Device mirror/user3 launched (2/2).

Die Mirrors werden jetzt also gleich mit beiden Platten gestartet. Neu ist aber diese "Cancelling unmapped..." Meldung, Google gibt nicht viel her dazu, scheint ein neues Feature in FreeBSD 10 zu sein das der alte Onboard Controller vielleicht nicht beherrscht?

Na ja, mal sehen ob's auch im Betrieb jetzt stabil läuft.

Gruss,
Robert
 
Auf jeden Fall ist das ein ganz übler Zustand. Das sieht nach einem Kommunikationsfehler aus zwischen dem Mainboard und dem Festplatten-Controller. Das kann natürlich ein Problem sein, wie FreeBSD den Controller-Treiber implementiert, aber könnte auch einfach ein Hardware-Problem sein.

Kannst Du vielleicht mal die Ausgabe von
Code:
sysctl -a|grep ahci

pasten? Ich würde mal gerne wissen was das für Controller bei Dir sind. Beachte bitte auch, dass einige BIOSe dedizierte Steckplätze und extra Controller haben um so ein Billig-RAID-0/1 zusammenzustellen. Es könnte bei solchen Sachen Reibereien geben. Die Steckplätze auf den Mainboards kommen oft paarweise und haben andere Farbe als die Standard SATA-Anschlüsse.
 
Code:
fev.ahcich.1.%parent: ahci0
dev.ahcich.1.%pnpinfo: 
dev.ahcich.1.%location: channel=1
dev.ahcich.1.%driver: ahcich
dev.ahcich.1.%desc: AHCI channel
dev.ahcich.0.%parent: ahci0
dev.ahcich.0.%pnpinfo: 
dev.ahcich.0.%location: channel=0
dev.ahcich.0.%driver: ahcich
dev.ahcich.0.%desc: AHCI channel
dev.ahcich.%parent: 
dev.ahci.0.%parent: atapci0
dev.ahci.0.%pnpinfo: 
dev.ahci.0.%location: channel=-1
dev.ahci.0.%driver: ahci
dev.ahci.0.%desc: JMicron JMB363 AHCI SATA controller
dev.ahci.%parent: 
dev.atapci.2.%parent: pci0
dev.atapci.2.%pnpinfo: vendor=0x8086 device=0x2651 subvendor=0x1734 subdevice=0x105c class=0x01018f
dev.atapci.2.%location: pci0:0:31:2 handle=\_SB_.PCI0.SATA
dev.atapci.2.%driver: atapci
dev.atapci.2.%desc: Intel ICH6 SATA150 controller
dev.atapci.1.%parent: pci0
dev.atapci.1.%pnpinfo: vendor=0x8086 device=0x266f subvendor=0x1734 subdevice=0x105c class=0x01018a
dev.atapci.1.%location: pci0:0:31:1 handle=\_SB_.PCI0.IDE_
dev.atapci.1.%driver: atapci
dev.atapci.1.%desc: Intel ICH6 UDMA100 controller
dev.atapci.0.%parent: pci9
dev.atapci.0.%pnpinfo: vendor=0x197b device=0x2363 subvendor=0x197b subdevice=0x2363 class=0x010601
dev.atapci.0.%location: pci0:9:0:0
dev.atapci.0.%driver: atapci
dev.atapci.0.%desc: JMicron JMB363 UDMA133 controller
dev.atapci.%parent:

Seit ich die Platten umgesteckt habe, läuft das hier stabil.
 
Zurück
Oben