Adaptec RAID-Controller bleibt stehen

Morfio

Well-Known Member
Hallo zusammen,

ich habe hier zwei Server (SuperMicro von Thomas Krenn). Auf beiden läuft FreeBSD 8.0 Stable. Beide haben einen Adaptec ASR5445Z 4x intern / 4x extern SAS/SATA (0,1,10,1E,5,50,5EE,6,60) inkl. ZMCP im RAID 5. Sobald Last auf die Platten kommt (mehrere cp, scp, dd) wird der Controller "heruntergefahren" und die Maschine ist damit nicht mehr nutzbar.

Zuerst dachten wir, es liegt an GELI, aber wenn das abgeschaltet ist, passiert das selbe. Ich kann die Meldung, die auf der Konsole kommt, nicht genau widergeben. Irgendwas mit "aacd0" (das ist der Controller) stopped.

Hat vielleicht jemand das selbe Problem oder eine Idee?

Viele Grüße, Morfio
 
Hier mal die Fehlermeldung (die Hex-Zahlen variieren):

aac0: COMMAND 0xffffff80005ea440 (TYPE 502) TIMEOUT AFTER 362 SECONDS
 
Um es kurz zu machen. Der aac(4)-Treiber hat sei 8.0 im letzten Herbst eine Menge Aktualisierungen erfahren. Bevor ich lange weiter Suche, würde ich erst einmal den treiber aus 8-STABLE (bald 8.1-BETA1) probieren. Du musst ja nicht einmal vollständig aktualisieren, einfach den neuen Kernel booten und schauen, ob es geht.

Hilft das nicht, gibt es auch die Option des Herstellertreibers. aac(4), welcher FreeBSD beliegt, basiert auf dem, Adaptec selbst bietet jedoch eine neuere Version an. Du findest sie unter http://www.adaptec.com/en-US/downloads/unix/freebsd?productId=SAS-5445&dn=Adaptec+RAID+5445 Das Paket enthält den Treiber als Blob, den du schnell und einfach laden kannst (du benötigst aber einen Kern ohne den FreeBSD beiligenden aac(4)) und den Quellcode zum selbstbauen.
 
Ich kann zwar nicht mit Adaptec im Zusammenhang mit FreeBSD sprechen, aber unter Linux hatten wir schon recht häufig Probleme im Zusammenhang mit IRQs. Platten flogen aus Raids, wurden ohne Grund heruntergefahren und solche Späße.
 
Also, ich habe jetzt aac aus dem Kernel herausgenommen, aacu64_load="YES" in /boot/loader.conf geschrieben und neugestartet. Das Verhalten hat sich leider nicht geändert, nach ca. 10 bis 15 Minuten unter Last raucht der Controller weg.

Muss ich vllt. noch etwas anderes beachten?
 
Ich habe gerade mal mit Adaptec gesprochen. Das kann sehr gut an der Firmware liegen. Die Fehler sind unter Linux und FreeBSD bekannt.

Sie ist jetzt geflashed, neue Tests laufen.
 
Ähm, ist das ein generelles Adaptec-Problem? Ich will nämlich ein FreeNAS aufsetzen und dort nen RAID 5 mit nem ICP Vortex SATA/SAS ICP5085BL PCIe RAID-Controller einsetzen. Und da ICP ja auch Adaptec ist, stellt sich mir nun die Frage ... :confused:
 
Ähm, ist das ein generelles Adaptec-Problem? Ich will nämlich ein FreeNAS aufsetzen und dort nen RAID 5 mit nem ICP Vortex SATA/SAS ICP5085BL PCIe RAID-Controller einsetzen. Und da ICP ja auch Adaptec ist, stellt sich mir nun die Frage ... :confused:

Kann ich dir leider nicht sagen. Dazu kannst du aber den Adaptec-Support einfach anrufen und nachfragen.

Bei uns wurde das Problem bestätigt, dass es vor Firmware-Version 17544 unter Linux und FreeBSD (bei Linux konnte das mit irgendeinem Patch umgangen werden) unter IO-Last auf die Platten eben zum Verabschieden des Controllers führte (und das auf zwei unterschiedlichen Controllern). Mit 17544 auf dem Adaptec RAID 5445Z hatte ich aber auch noch diese Probleme. Ich habe jetzt ein Upgrade auf 17899 gemacht, bei denen die Probleme laut Support wech sein sollten. Ebenso habe ich die von Adaptec bereitgestellten Treiber genommen. Die Tests liefen jetzt eine Stunde fehlerfrei unter der selben Last bzw. mit den selben Befehlen (ein cp, ein tar (entpacken), ein dd und ein scp). Es kann also gut aussehen, genaueres kann ich aber erst sagen, wenn das alles mal ein wenig länger läuft.

Ich finde es allerdings zum einen peinlich von Thomas Krenn, uns Server zu liefern, die extra für FreeBSD bestellt waren und die solche Zicken machen und von Adaptec, die anscheinend ihren Kram auch nicht vernünftig testen ... . (Sorry, ich bin sauer und das musste mal gesagt werden)
 
Ist zwar stark subjektiv, aber wer Thomas Krenn Systeme kauft ist IMHO selber schuld. Auch wenn es in diesem Fall Adaptec betrifft, so muss der Systemhersteller seine Fremdkomponenten des Server einfach im Griff haben. Ja, passiert auch bei HP, in letzter Zeit irgendwie häufiger. Dürfte wohl an Budgetkürzungen des QM liegen. Eigentlich eine Frechheit 24/7 Systeme so in die Welt zu schicken!

Aufgrund genau solcher Mätzchen, egal ob HP oder Thomas Krenn sehen wir uns gerade Oracle Sun genauer an. Preislich zwar happiger, aber wenn die Qualität stimmt sind die paar Euros wurscht! :ugly:

Edit: meine letzte Erfahrung mit einem von den Krenn Servern war, dass der 3Ware Controller (welche "normalerweise" in anderen Systemen immer anstandslos funktioniert haben) in diesen Servern alle paar Wochen die Festplatten aus dem Verbund geschmissen haben. Diese waren aber NICHT defekt. Strange...
 
Ist zwar stark subjektiv, aber wer Thomas Krenn Systeme kauft ist IMHO selber schuld.

Wir haben jetzt drei Server von denen. Deine Aussage finde ich natürlich jetzt recht beunruhigend. Mal abgesehen von den Controllern, hast du sonst auch noch schlechte Erfahrungen mit denen gemacht?
 
Ich kann nur aus den Erfahrungswerten sprechen welche ich gemacht habe. Ich meine solange die Teile funktionieren gibts eh kein Problem.

Da wir im Bereich KMU Dienstleister sind und schon einiges an Servern ausgeliefert bzw. in Betrieb haben, zeigt sich immer wieder welche Hersteller bzw. Preisschiene Probleme macht. Und da muss ich einfach sagen dass es einen Unterschied macht, ob man nun die billigere Variante nimmt, oder die "gleichen Eckdaten" zum erhöhten Preis einkauft.

Unsere Kunden verstehen meist nicht, warum sie auf unseren Angeboten meist zwei Server stehen haben. Eine günstige Variante (als Vergleich) und eine qualitativ vernünftige die wir schwer ans Herz legen. Beide von den Leistungswerten her ähnlich, unter der Haube aber sehr verschieden!

Ich würde auf jeden Fall auf entsprechenden Herstellersupport achten (Teile + Arbeit vor Ort), bzw. so wie ihr es halt benötigt.

Kleine Notiz am Rande, ich dachte ich spinne: Oracle Sun hat das Supportmodell anscheinend vereinheitlicht. Möchte man nun statt dem einen Jahr vor Ort Service (welches bei den Sun Fire Kisten dabei ist) 3 Jahre haben, muss man die "deluxe" Variante nehmen: 24x7 Support mit Techniker vor Ort - Händlereinkaufspreis 1.800 Euro!!! Was anderes gibt es anscheinend nicht mehr... Happig!
 
@worel

die Probleme mit 3ware beziehen sich nicht zufaellig auf WDs 10.000rpm 2,5er Serie, oder?
Das Problem soll bekannt sein und in aktueller Firmware des 3ware angeblich behoben sein.
 
Zurück
Oben