Hallo,
kleine Warnung vor dem LSI SAS 1068E, der hat mir in letzter Zeit einiges an Arbeit beschert. Wir habe hier einige Sun Fire X4150 und zum Teil sind die mit obigen HBAs ausgerüstet.
Wenn sie laufen gibt es keine Probleme, aber wehe eine Platte im Spiegel fällt aus.
Mir hat es schon einige Male (unter Solaris 10) das RAID zerbröselt und einge Male das System in den Abgrund gerissen. Die zweite Hälfte des Spiegels war zwar intakt, das System ist trotzdem in den Maintenace-Mode gegangen und ich durfte im Single-User-Mode das ganze Programm mit fsck abfeuern.
Eklig ist auch der Fall, wenn eine Platte ausfällt und das System darum neustartet. Es kommt nicht mehr hoch sondern hängt mir größer werdenden Abständen mit der Meldung:
run interrupt driven hooks: still waiting for xpt_config
Irgendwann geht dann auch FreeBSD (8.3) in den Maintenance-Mode.
Einzige Abhilfe ist das Ziehen der defekten Platte.
Glaubt mir, der Controller kann schon ne Menge grauer Haare verursachen...
Gruß
marmorkuchen
p.s. der HBA kann die Platten als HW-RAID und als einzelne Platten ansprechen, daher ist der eigentlich für ZFS geeignet, von wegen 8-Ports; fürs RAID kann man aber nur von ihm abraten
Moin :-)
Vielleicht kann mir jemand einen Tipp geben, ich habe hier eine X4540 mit 48 Platten unter FreeBSD 9.2 laufen - sie nutzt auch den LSI 1068E. Vorher lief alles unter Solaris 11, die einzige Maschine, die im Laufe der Jahre schon nahezu 50% aller Platten gefressen hat - d.h. ich musste sie austauschen. Nach der Reinstallation von FreeBSD monatelang keine Probleme. Nun häuft es sich langsam auch wieder:
# tail /var/log/messages
Jul 24 09:23:34 MELON kernel: (da0:mpt0:0:0:0): WRITE(10). CDB: 2a 00 07 81 98 58 00 00 08 00
Jul 24 09:23:34 MELON kernel: (da0:mpt0:0:0:0): CAM status: SCSI Status Error
Jul 24 09:23:34 MELON kernel: (da0:mpt0:0:0:0): SCSI status: Check Condition
Jul 24 09:23:34 MELON kernel: (da0:mpt0:0:0:0): SCSI sense: UNIT ATTENTION asc:29,0 (Power on, reset, or bus device reset occurred)
Jul 24 09:23:34 MELON kernel: (da0:mpt0:0:0:0): Retrying command (per sense data)
Jul 24 09:24:34 MELON kernel: mpt0: request 0xffffff8000c61c40:41255 timed out for ccb 0xfffffe0009990000 (req->ccb 0xfffffe0009990000)
Jul 24 09:24:34 MELON kernel: mpt0: attempting to abort req 0xffffff8000c61c40:41255 function 0
Jul 24 09:24:34 MELON kernel: mpt0: mpt_wait_req(1) timed out
Jul 24 09:24:34 MELON kernel: mpt0: mpt_recover_commands: abort timed-out. Resetting controller
Jul 24 09:24:42 MELON kernel: mpt0: mpt_cam_event: 0x80
Jul 24 09:24:42 MELON kernel: mpt0: completing timedout/aborted req 0xffffff8000c61c40:41255
Jul 24 09:24:42 MELON kernel: mpt0: SAS discovery error: Port: 0x02 Status: 0x00004002
Zuerst macht die Platte da2 ein Problem, danach, scheinen alle Platten am Controller mpt0 sich immer mal wieder zu melden.
# zpool status
raidz2-0 ONLINE 0 0 0
da1 ONLINE 0 0 0
da9 ONLINE 0 0 0
da17 ONLINE 0 0 0
da25 ONLINE 0 0 0
da33 ONLINE 0 0 0
da41 ONLINE 0 0 0
raidz2-1 DEGRADED 0 0 0
8121190255889061643 REMOVED 0 0 0 was /dev/da2
da10 ONLINE 0 0 0
da18 ONLINE 0 0 0
da26 ONLINE 0 0 0
da34 ONLINE 0 0 0
da42 ONLINE 0 0 0
...
Das Bios aller (Seagate) Platten habe ich vor ca. 3 Monaten auf den neuesten Stand gebracht. Das der Controller auch. Oder vielleicht auch nicht?? mmhhmmm...
# pciconf -lv
mpt0@pci0:2:0:0: class=0x010000 card=0x10001000 chip=0x00581000 rev=0x04 hdr=0x00
vendor = 'LSI Logic / Symbios Logic'
device = 'SAS1068E PCI-Express Fusion-MPT SAS'
class = mass storage
subclass = SCSI
# dmesg
mpt0: <LSILogic SAS/SATA Adapter> port 0xb800-0xb8ff mem 0xdf7fc000-0xdf7fffff,0xdf7e0000-0xdf7effff irq 17 at device 0.0 on pci2
mpt0: MPI Version=1.5.20.0
Kann mir jemand sagen, ob der Fehler mit einem Firmware upgrade evtl. zu beseitigen ist? Es scheint der Fall zu sein, dass wenn eine Platte (also die da2) am Controller Probleme macht, dann die anderen auch darunter "leiden"...
Habe ich zu viel geschrieben oder mich unklar ausgedrueckt?
Vielen Dank!! :-) Norbert