Server hängt beim Reboot

raver-softi

Active Member
Hallo BSD Gemeinde,
ich habe folgendes Problem:
Ich hab mir einen Samba-Fileserver mit nem gvinum RAID5 mit ca. 900GB gebaut.
Zur Administration der Shares habe ich noch Webmin installiert.
Aus irgendeinem Grund funkioniert nach ca. 24 h Samba nicht mehr.
Wenn ich das System neustarten will, kommt eine Meldung das irgendein Prozess den rebbot verhindert und ich soll mit ps axl feststellen können wodran das liegt.
Nach dieser Meldung hilft dann nur noch der Resetknopf.
Jetzt hab ich mal ein ps axl gemacht, als der Samba wieder hing und hier ist die Ausgabe:

UID PID PPID CPU PRI NI VSZ RSS MWCHAN STAT TT TIME COMMAND
0 0 0 3 96 0 0 0 - WLs ?? 0:00.00 [swapper]
0 1 0 85 8 0 724 240 wait ILs ?? 0:00.02 /sbin/init
0 2 0 0 -8 0 0 8 - DL ?? 0:01.57 [g_event]
0 3 0 0 -8 0 0 8 - DL ?? 0:04.57 [g_up]
0 4 0 0 -8 0 0 8 - DL ?? 0:04.40 [g_down]
0 5 0 0 8 0 0 8 - DL ?? 0:00.00 [thread tas
0 6 0 0 8 0 0 8 - DL ?? 0:00.00 [kqueue tas
0 7 0 0 -16 0 0 8 psleep DL ?? 0:00.20 [pagedaemon
0 8 0 3 20 0 0 8 psleep DL ?? 0:00.00 [vmdaemon]
0 9 0 0 171 0 0 8 pgzero DL ?? 0:04.16 [pagezero]
0 10 0 0 -16 0 0 8 ktrace DL ?? 0:00.00 [ktrace]
0 11 0 58 171 0 0 8 - RL ?? 483:50.30 [idle]
0 12 0 0 -84 0 0 8 - WL ?? 0:00.00 [irq0: clk]
0 13 0 0 -60 0 0 8 - WL ?? 0:00.00 [irq1: atkb
0 14 0 0 -21 0 0 8 - WL ?? 0:00.00 [irq3:]
0 15 0 0 -68 0 0 8 - WL ?? 0:00.19 [irq4: rl0]
0 16 0 0 -64 0 0 8 - WL ?? 0:00.49 [irq5: atap
0 17 0 0 -21 0 0 8 - WL ?? 0:00.00 [irq6:]
0 18 0 0 -21 0 0 8 - WL ?? 0:00.00 [irq7:]
0 19 0 0 -84 0 0 8 - WL ?? 0:00.00 [irq8: rtc]
0 20 0 0 -21 0 0 8 - WL ?? 0:00.00 [irq9:]
0 21 0 0 -21 0 0 8 - WL ?? 0:00.00 [irq10:]
0 22 0 0 -21 0 0 8 - WL ?? 0:00.00 [irq11:]
0 23 0 0 -60 0 0 8 - WL ?? 0:00.00 [irq12: psm
0 24 0 0 -21 0 0 8 - WL ?? 0:00.00 [irq13:]
0 25 0 0 -64 0 0 8 - WL ?? 0:00.81 [irq14: ata
0 26 0 0 -64 0 0 8 - WL ?? 0:00.00 [irq15: ata
0 27 0 1 -32 0 0 8 - WL ?? 0:27.27 [swi4: cloc
0 28 0 0 -36 0 0 8 - WL ?? 0:00.00 [swi3: vm]
0 29 0 0 -44 0 0 8 - WL ?? 0:00.10 [swi1: net]
0 30 0 0 -16 0 0 8 - DL ?? 0:01.85 [yarrow]
0 31 0 0 -28 0 0 8 - WL ?? 0:00.00 [swi5:+]
0 32 0 0 -40 0 0 8 - WL ?? 0:00.00 [swi2: camb
0 33 0 0 -24 0 0 8 - WL ?? 0:00.00 [swi6: task
0 34 0 0 -24 0 0 8 - WL ?? 0:00.00 [swi6:+]
0 35 0 0 -48 0 0 8 - WL ?? 0:00.00 [swi0: sio]
0 36 0 0 -16 0 0 8 psleep DL ?? 0:05.05 [bufdaemon]
0 37 0 0 -4 0 0 8 vlruwt DL ?? 0:00.14 [vnlru]
0 38 0 0 -4 0 0 8 nbufkv DL ?? 0:00.58 [syncer]
0 39 0 3 8 0 0 8 - IL ?? 0:00.00 [nfsiod 0]
0 40 0 3 8 0 0 8 - IL ?? 0:00.00 [nfsiod 1]
0 41 0 3 8 0 0 8 - IL ?? 0:00.00 [nfsiod 2]
0 42 0 3 8 0 0 8 - IL ?? 0:00.00 [nfsiod 3]
0 43 0 0 96 0 0 8 - DL ?? 0:01.63 [schedcpu]
0 44 0 0 -8 0 0 8 - DL ?? 0:01.05 [gv_d eins]
0 45 0 0 -8 0 0 8 - DL ?? 0:20.79 [gv_p backu
0 46 0 0 -8 0 0 8 - DL ?? 0:01.08 [gv_d zwei]
0 47 0 0 -8 0 0 8 - DL ?? 0:01.06 [gv_d drei]
0 48 0 0 -8 0 0 8 - DL ?? 0:01.06 [gv_d vier]
0 49 0 0 -8 0 0 8 - DL ?? 0:01.06 [gv_v backu
0 154 1 107 20 0 1172 444 pause Is ?? 0:00.00 adjkerntz -
0 239 1 61 103 0 500 256 select Is ?? 0:00.00 /sbin/devd
0 268 1 0 96 0 1292 592 select Ss ?? 0:00.16 /usr/sbin/s
0 378 1 92 107 0 3352 1072 select Is ?? 0:00.01 /usr/sbin/s
0 395 1 0 8 0 1312 760 nanslp Is ?? 0:00.23 /usr/sbin/c
0 416 1 0 96 0 4832 1404 select Ss ?? 0:00.96 /usr/local/
0 420 1 0 96 0 7532 1676 select Is ?? 0:00.02 /usr/local/
0 427 420 55 20 0 7532 1656 pause I ?? 0:00.00 /usr/local/
0 431 1 0 96 0 5780 4472 select Ss ?? 0:00.90 /usr/local/
0 450 1 85 106 0 1208 576 select Is ?? 0:00.00 /usr/sbin/m
0 519 481 0 -4 4 1264 612 nbufkv DN ?? 0:02.16 fsck_ufs -p
1001 1455 420 0 -4 0 7816 2700 nbufkv D ?? 0:00.03 /usr/local/
0 484 1 0 8 0 1592 1084 wait Is v0 0:00.05 login [pam]
0 1456 484 1 8 0 3160 1728 wait S v0 0:00.04 -bash (bash
0 1457 1456 1 96 0 1396 720 - R+ v0 0:00.01 ps axl
0 485 1 85 5 0 1264 692 ttyin Is+ v1 0:00.01 /usr/libexe
0 486 1 85 5 0 1264 692 ttyin Is+ v2 0:00.01 /usr/libexe
0 487 1 85 5 0 1264 692 ttyin Is+ v3 0:00.01 /usr/libexe
0 488 1 85 5 0 1264 692 ttyin Is+ v4 0:00.01 /usr/libexe
0 489 1 85 5 0 1264 692 ttyin Is+ v5 0:00.01 /usr/libexe
0 490 1 85 5 0 1264 692 ttyin Is+ v6 0:00.01 /usr/libexe
0 491 1 85 5 0 1264 692 ttyin Is+ v7 0:00.01 /usr/libexe
0 479 1 85 8 0 1780 844 wait I+ con- 0:00.00 sh /etc/rc
0 480 1 0 -8 0 1188 596 piperd I+ con- 0:00.01 logger -p d
0 481 479 0 8 4 1200 648 wait IN+ con- 0:00.02 fsck -B -p
und noch ein uname -a brachte
FreeBSD filez.evil 6.0-RC1 FreeBSD 6.0-RC1 #0: Sun Oct 9 20:32:57 UTC 2005 root@x64.samsco.home:/usr/obj/usr/src/sys/GENERIC i386

Hat jemand ne Idee welcher Prozess da hängt bzw. was da schief läuft?
 
raver-softi said:
Jetzt hab ich mal ein ps axl gemacht, als der Samba wieder hing und hier ist die Ausgabe:

Code:
...
 0 481 479 0 8 4 1200 648 wait IN+ con- 0:00.02 [B]fsck[/B] -B -p
...
und noch ein uname -a brachte


Hat jemand ne Idee welcher Prozess da hängt bzw. was da schief läuft?
fsck versucht untersucht gerade die Festplatten. Boot into Single User und manuelles fsck hilft ungemein. Ja, mit soviel Plattenplatz dauert ein fsck durchaus mehrere Stunden -- je mehr kleine Dateien draufliegen um so länger.
 
Ich mach jedesmal ein manuelles fsck im Singel User Mode. Es wird auch alles als clean markiert und beim hochfahren wird es auch so angezeigt. Trotzdem läuft dieses fsck die ganze Zeit, obwohl alles clean war. Ich hab dazu immer den Befehl fsck -y abgesetzt. Sollte ich vielleicht einen anderen nehmen?
Hab jetzt mal die automatischen Filechecks in der rc.conf ausgestellt.
Mal schauen obs was bringt.
 
Last edited:
raver-softi said:
Ich mach jedesmal ein manuelles fsck im Singel User Mode. Es wird auch alles als clean markiert und beim hochfahren wird es auch so angezeigt. Trotzdem läuft dieses fsck die ganze Zeit, obwohl alles clean war. Ich hab dazu immer den Befehl fsck -y abgesetzt. Sollte ich vielleicht einen anderen nehmen?
Machst Du das für alle Filesysteme?
Hab jetzt mal die automatischen Filechecks in der rc.conf ausgestellt.
Das ist keine gute Idee.
Mal schauen obs was bringt.
Unter Umständen irreparable Fehler in einem Filesystem.

Zur weiteren Analyse bitte relevante Fehlermeldungen aus /var/log// einfügen.
 
Die Platten sind hardwareseitig schon in Ordung, oder? Nicht das die dein Dateisystem zerstören. Z.B. kann Überhitzung oder extreme Vibrationen zu Datenverlust führen...
 
Also die Platten sind alle gerademal nen Monat alt und sind extra für den RAID betrieb ausgelegt. Ist auch extra ein Servergehäuse mit vielen Lüftern drin, so dass ich Überhitzung und Vibration mal ausschließe.
fsck schaut ja meines Wissens in die fstab rein und da stehen alle Filesysteme drin, die gemounted waren, also schließe ich das auch aus.
Springt der automatische Filecheck denn sporadisch an? Ich kenn das nur, dass er beim Booten nach 60sec anspringt. Danach sollte doch nix mehr kommen oder?
Naja ich habe das jetzt so eingestellt, dass er beim reboot den befehl fsck -y selber ausfüheren soll, wenn was schief gelaufen ist.
Ich hab jetzt nochmal bei /var/log nachgeschaut ich finde da keine Fehlereinträge.
Hab eben auch noch mal ein reboot gemacht und alles ging gut. Mal weiter beobachten...
 
Back
Top