FreeBSD Server hängt

soul_rebel

ist immer auf der flucht
Ich glaube ich hatte dazu schoneinmal einen Thread, finde ich aber nicht mehr.

Das System:
- VIA EPIA Board, 666Mhz, 1GBRam
- FreeBSD 7.2-Release
- NFS-Server, cupsd, sftp-server
- keine firewall


Die Symptome:
- immermal wieder hängt das System und must hart neugestartet werden
- es reagiert auf pings, aber ansonsten geht garnichts
- es gibt keine kernel-dumps, keine Einträge in irgendwelchen Logs

Mehr neue Details:
- heute hing kurz das NFS, da konnte ich mich noch anmelden auf der Kiste
- ein su-Prozess schluckte 100%CPU
- ich habe lange versucht ihn zu killen, erfolglos
- aufeinmal starb er doch und NFS ging wieder
- ein bisschen später konnte ich mich auf einmal nicht mehr anmelden per SSH, eine andere SSH-Verbindung war aber noch auf
- mit dieser stellte ich fest, dass der SSH-Dienst jetzt 100% CPU verbrauchte (das ganze übrigens immer System-Load, nicht User-load)
- der ließ sich irgendwann killen, woraufhin sh dann 100% CPU-verbrauchte, der lies sich nicht killen
- ich dachte, irgendwie dummerweise, das wäre meine aktuelle Session gewesen und habe mich abgemeldet -> jetzt komme ich garnicht mehr rein
- der PC ist jetzt in dem oben beschriebenen Zustand (keine Reaktion außer auf Ping)
- per com0 kriegt man übrigens ein login form, wenn man dann aber versucht sich anzumelden hängt er da auch
- überraschenderweise funktionieren die NFS-Connections, die vor dem "crash" aufgebaut wurden

Das Problem habe ich jetzt schon ca. ein halbes Jahr(schon mit 7.1), mal öfter (1 pro Woche), mal seltener (1 pro 2Monate) und es nervt gewaltig! :grumble:

Weiß jemand weiter?

Auf der Hardware, hatte ich früher ein FreeBSD-6 das problemlos lief, daran liegt es glaube ich nicht.

Danke für jede Hilfe

P.S: als ich die aktive Verbindung zum kaputten System hatte, habe ich natürlich auch ein sockstat und netstat gemacht. Verbindungen nach draußen/Internet gab es keine (zumindest laut den tools).

edit: die NFS-Verbindungen hängen jetzt auch. Also zumindest funktioniert der directory-lookup nicht. der musicpd der auf der NFS-Share läuft geht noch :confused:
 
du kannst versuchen dem System mit munin auf den Zahn zu fühlen.
Ich vermute dass ein Kernellimit erreicht wurde. Ansonsten rechne ich mit Speicher(leck)problemen, oder einem fehlerhaften NIC Treiber.
 
Ich hatte bei mir auch schon einige wenige Male die Situation das das System sich "aufgehängt" hat, die System-Last lag bei 20++. Lange genug warten hat meistens geholfen -- das waren aber immer Dinge die ich selbst, mehr oder weniger unabsichtlich, verbockt habe...:ugly:

Hast Du dir mal die Mühe gemacht mit dtrace an die Sache ranzugehen?
 
Ich hatte vor kurzem so etwas ähnliches. Es gab NFS-Probleme. Ich habe den NFS-Server viele mal neu gestartet, weil Sachen nicht funktioniert haben (Server läuft nämlich mit CURRENT und da hacken die gerade derbe rum). Die NFS-Clients haben sich alle nach und nach festgehängt.

Dabei wurde NFS gar nicht fürs Einloggen gebraucht, aber sshd hing, Pings gingen, einloggen am Client auch nicht mehr.

NFS greift ziemlich tief in den Kernel, was ich voll Kacke finde. Es friert Dir auch alles ein, wenn Du nicht nett zum NFS-Client bist.
 
Das klingt nach einem Livelock. Ich würde einmal schauen, ob ich ein Lock-Profiling rauszuiehen kann, wenn er hängt. Und dann gucken, ob darin Schleifen oder ähnliches zu finden sind.
 
du kannst versuchen dem System mit munin auf den Zahn zu fühlen.
Ja, könnte ich machen. Ich bin aber relativ sicher, dass es auf 100% Performance hing. Das NFS ging noch aber halt seeeehr langsam.
Ich vermute dass ein Kernellimit erreicht
Ich hab mal die kern.maxfiles auf 20K hochgeschraubt. Was für andere Limits kommen da denn in Frage? Ich meine die Kist idled haupstächlich rum und macht halt NFS.
wurde.Ansonsten rechne ich mit Speicher(leck)problemen, oder einem fehlerhaften NIC Treiber.
NIC kann ich mit ziemlicher Sicherheit ausschließen, die hat früher auch problemlos getan, eine usb-nic, die ich letztens mal dran hatte, reagiere auch nicht.

Hast Du dir mal die Mühe gemacht mit dtrace an die Sache ranzugehen?
Ne, mit dtrace habe ich mich noch nie beschäftigt :S

NFS greift ziemlich tief in den Kernel, was ich voll Kacke finde. Es friert Dir auch alles ein, wenn Du nicht nett zum NFS-Client bist.
Ja, NFS ist schon so ne Sache. Leider habe ich aber auch nie was besseres gefunden. Aber mit 8.0 soll ja alles besser werden, Welftfrieden und so :D

Das klingt nach einem Livelock. Ich würde einmal schauen, ob ich ein Lock-Profiling rauszuiehen kann, wenn er hängt. Und dann gucken, ob darin Schleifen oder ähnliches zu finden sind.
Öhm, was ist ein Livelock, und wie ziehe ich ein Lock-profiling raus :confused:
 
Zurück
Oben