[Gelöst]: Boot von HP-Server schlägt fehl

m4rkus

Well-Known Member
Hallo,

ich habe aktuell ein kleines Problem mit einem Server bei webtropia.

Gestern gab es wohl einen Stromausfall und der Reboot erfolgte leider nicht, wie gewünscht.
Das System bleibt hängen bzw. stürzt ab (und trennt die Netzwerkverbindung zum iLO-Port), bei der unten angehangenen Fehlermeldung.

Laut Support ist das "beim Laden des Kernelmoduls für die Netzwerkkarte".
Was kann ich da tun?

Edit: Ich habe direkt auf 10-p3 aktualisiert, als es rauskam und einmal rebootet... (vor mehreren Tagen)

Danke und Gruß
Markus
Bildschirmfoto 2014-05-22 um 17.12.54.png
 
Fehlermeldung sehe ich keine. Das Bild sieht aber in dem Forum-Bildviewer auch nicht OK aus (Firefox hier).

Kannst Du ohne Module booten?
 
Ferndiagnosen sind natürlich immer so eine Sache. Wie Nakal sehe ich auch keine Fehlermeldung, aber vielleicht hat der Support auf der lokalen Konsole noch ein wenig mehr Ausgabe. Wenn das System anstandslos lief und nach einem Stromausfall nicht mehr bootet (wieso hat ein Rechenzentrum Stromausfall?), kommen da natürlich gleich mal zwei Dinge in den Sinn:
- Eine Spannungsspitze hat die NIC gegrillt, nun initialisiert sie nicht mehr. Ist mir leider schon passiert, als ein Switch-Netzteil explodiert ist.
- Die IPMI-Firmware oder was ähnliches hat sich weggehängt. In dem Fall hilft meist stromlos machen, 10 Minuten warten und zurück auf Start.

Ich würde auf Nakal hören und es erstmal ohne Module probieren. Wenn das nicht hilft, von einem externen Medium starten. Wenn er mit FreeBSD partout nicht mehr kommt, mal einen anderen Kernel probieren und schauen, was der sagt. Ein neueres Sprichwort sagt nicht ohne Grund "Linux vergibt Hardwarefehler, Django nicht".
 
Wenn der Kernel plötzlich nicht mehr bootet, dann ist zu 95% ein Hardware-Schaden passiert.

Du kannst aber auch "verbose" booten. Da wird vielleicht noch mehr klar.

Wo der tatsächlich sitzt ist schwierig herauszufinden. Man kann aber wenigstens alles an Hardware herausrupfen, was man herausrupfen kann. Insbesondere Erweiterungskarten. Wenn es immer noch nicht bootet, dann wird's eine Stufe schwieriger, insbesondere wenn man nicht Einzelteile auf Lager hat.
 
Wie boote ich denn vollständig OHNE Module?

Es gibt keine Fehlermeldung - er steigt (wie gesagt laut Support) beim Laden der Kernelmodule aus, trennt die LAN-Verbindung und ist dann "weg".
Wenn in den Rescue-Modus gebootet wird (Debian xy), scheint er zu laufen...

Gruß
Markus
 
Wenn du ein Modul in der /boot/loader.conf lädst, per "disable-module $modulname" am Loader-Prompt. Ist es fest im Kernel muss der Treiber eine Funktion zum Deaktivieren bieten. Müsste dann hoffentlich in der Manpage stehen.
 
Wenn Du serielle Konsole hast, dann kannst Du den Bootloader anhalten (Esc). Dann "unload" schreiben und den Kernel laden mit "load /boot/kernel/kernel", dann "boot" und es geht weiter. Wenn es kein Modul ist, sondern der Treiber für den NIC im Kernel ist (so wie es üblicherweise ist), dann muss man etwas mehr fummeln.
 
Alles klar, ich muss erstmal wieder auf das iLO kommen und dann werde ich per ESC anhalten.

Dann schaue ich mal weiter.

Gruß
Markus
 
Also nochmal zum Verständnis: Wenn ich eine Standard-Installation vom 10-Release-Memstick-Image durchgeführt habe (mit GELI Raidz1), dann sollte doch im Normalfall "all inclusive" sein, was wiederum bedeuten würde, dass ich nicht der Einzige sein dürfte, der ein Problem mit einem HP-Server und Broadcom-NICs hätte, oder?

Das letzte war wie gesagt ein Update auf Patchlevel 3 im Zuge der libxml2-Sicherheitslücke...

Gruß
Markus
 
Ja. Aber Du hast doch gesagt, dass Du einen Reboot schon erfolgreich gemacht hast oder? Sonst kannst Du auch mit dem alten Kernel booten. Einfach "load /boot/kernel.old/kernel" sonst wie oben.
 
Wobei ich fast sicher bin, dass es nicht am Kernel liegt. Zwischen 10.0 und 10.0-p3 lag nichts, was die Netzwerktreiber angefasst hätte. Selbst wenn es an dem TCP-Patch liegen sollte, müsste die Karte wenigstens versuchen zu initialisieren. Außerdem hätte dann schon jemand geschrien. Da das iLO ja auch klemmt, würde ich tatsächlich auf spackende Firmware tippen. Ist die NIC womöglich noch in-band, also teilen sich das System und iLO den RJ45-Anschluss? Zumindest ich würde nun mal probieren - wenn denn umsetzbar - die Kiste für ~10 Minuten vom Strom zu trennen. 10 Minuten, damit auch der letzte Puffer leerläuft. Danach wieder starten, er sollte dann iLO neu initialisieren. Wenn er dann noch immer nicht bootet, könnte man vielleicht an Software-Ärger glauben.
 
Vor der Installation wurde dem Server nicht zufaellig das volle Programm an Firmware Updates (ILO, NICs, P4x0 Controller, etc) mittels HP-SSP CD namens 2014.02 verpasst? Ich hoffe die Antwort lautet "nein".
 
Es kann nicht eine Änderung am Kernel sein. Es kann aber ein beschädigter Kernel sein.
 
Hallo noch mal.

Letzter Stand war, dass die Hardware bis auf die Festplatten getauscht wurde und das Problem immer noch bestehen soll.
Leider komme ich immer noch nicht auf das iLo.
Weiterhin handelt es sich wohl um ein Inband-iLo. Testweise wurde das mal dediziert verkabelt - läuft aber immer noch nicht... Da muss morgen die Netzwerktechnik dran.

Ich werde die genannten Hinweise mal weitergeben und hoffen zeitnah morgen wieder online zu kommen.

@j_t: Was gab es denn für Probleme mit dem Firmwareupdate?

Gruß
Markus
 
Ein Update des Servers mit besagten Firmware Updates versenkt die verbauten Broadcom NICs - fuer immer. Es ist ein Bug, welcher erst kuerzlich gefixt wurde.
 
So, seit 9 läuft der Server wieder.
Warte noch auf die Zusammenfassung der gemachten Maßnahmen. Wie gedacht, musste ich nichts am OS ändern.

Ich schreib nachher nochmal. Danke erstmal bis hierhin für die Unterstützung!

Edit: Laut Anbieter war es ein Hardware-Fehler. Nach dem Austausch bestand weiterhin ein Fehler mit dem Netzwerkkabel, welcher erst nach Austausch desselben behoben werden konnte.
 
Zuletzt bearbeitet:
Darf man erfahren, ob das Mainboard getauscht wurde, weil alle Broadcom NICs zuvor durch ein Firmware Update gehimmelt wurden?
 
Das kann ich dir leider nicht beantworten, allerdings waren bei beiden Servern die Firmware laut iLO von November 2013...

Gruß
Markus
 
wäre mal interessant wie HP solche "Garantiefälle" behandelt. Ich konnte das Servicepack nicht herunterladen da mein Server keine Garantie mehr hat und ich keinen Supportvertrag habe.

Gruß ré
 
Hallo,

meine erfahrungen mit dem HP Service ist bisher immer Super gewesen,
habe mit deswegen auch ein HP NB mit 3 Jahre Vorort Support zu Weinachten geleistet.

Grüße

Jörg
 
Zurück
Oben