server friert nach unbest. zeit willkürlich ein

[gelöst] server friert nach unbest. zeit willkürlich ein

SOO einen hals hab ich... :grumble:

moin erstmal, brauche dringenst euren rat.

hab seit einigen monaten einen freebsd 6.2-RELEASE server (dient als router):
  • jetway 615df mini-itx board
  • irgendwelchen ram (2x 128mb)
  • p3 tualatin 1,3ghz
  • fujitsu-platte, 80gb, 2,5zoll
  • travla-mini-itx case mit 90w nt

soweit lief er auch stabil, viele stunden - manchmal auch das komplette wochenende.
vor ein paar tagen fing es dann aber an:
war gerade am optimieren meiner pf.conf und wollte mcedit schließen + änderungen speichern. da friert das ganze system prompt ein, nix ging mehr. also reset.
danach war dann natürlich die pf.conf futsch - nix mehr drin.
dann fing ich wieder an, die pf.conf neu zu bestücken, bis das system wieder hingen blieb. reset.
jetzt bekam ich mein booten aber den netten hinweis "panic: ufs_dirbad" und landete an der komischen geht-nix-rescue-shell.
dort fsck und alles war wieder fein.

seit dem verging aber keine uptime ohne einfrieren - auch ohne, dass ich am system arbeitete - nur netzwerktraffic. ;'(

die festplatte habe ich gecheckt - in ordnung.
memtest lief 15 stunden - keine fehler.

inzwischen habe ich das system bestimmt schon 4x neu installiert - immer von vorn angefangen - immer das gleiche.
am device_polling (musste ich für die zweite nic aktivieren) liegt's auch nicht.
er friert einfach willkürlich ein. auf der console bekomme ich keine fehler, syslog meldet auch sonst nichts.

was kann ich tun? wo liegt der hund begraben? wie kann das so plötzlich kommen?
 
Zuletzt bearbeitet:
Ziemlich eindeutiger Fall von defekter Hardware, wobei es mehrere Möglichkeiten gibt:
- defekter RAM. Memtest ist gut und schön, aber er übersieht auch gern Fehler...
- defektes Mainboard. Oftmals trocknen Kondensatoren aus und dann ist dein Board hin...
- CPU-Problem. Sie überhitzt, sie war mal überhitzt, hat zu viel oder zu wenig Strom...
- Netzteil. Liefert nicht genug Saft, da es einen Knacks hat oder unterdimensioniert ist...
 
ich glaube nicht, dass diese "notebook"-hardware die 90w überschreitet.
cpu, mainboard? hmm, es lief die ganze zeit stabil und auf einmal... handelt sich jedoch um gebrauchtzeug von ebay - und die cpu läuft immer so bei 50°c

*grml* ich kann doch nich alles neu kaufen... das ding hat gut 400 glocken gekostet!

edit: ich vergass zu erwähnen, dass ich im "frozen" zustand noch strg+alt+entf drücken kann und laut hdd-led am gehäuse tut sich danach kurz was - neustarten tut er allerdings nicht.
außerdem lief er diese nacht ohne absturz, als ich eben jedoch ddclient installieren wollte (ports), blieb er hängen - glaube beim kompilieren.
 
Zuletzt bearbeitet:
So ärgerlich es ist, du wirst nicht umhin kommen, Schritt für Schritt die Hardware durchzutesten. Da du 2 RAM Riegel drin hast, nimm doch mal je einen raus und probiere es dann mal. Ansonsten ist es hilfreich Hardwarereste wie Netzteil oder andere Komponenten zum Testen zur Verfügung zu haben, ggf. Freunde und Bekannte fragen, die auch mal selbst am Rechner schrauben.

Viel Erfolg..
 
also ich würde da ein paar Fehlerquellen vermuten

a.) die Wärmeleitpaste mit der der Wärmeleiter und die CPU verbunden sind
trocknet aus, und es bilden sich Hohlräume und Risse, d.h. Du erhälst
kleine Hotspots während die Temperatur der CPU nicht ansteigt

b.) Speicherfehler

Prime95 soll besser sein als memtest86

c.) Festplatte stirbt "S.M.A.R.T."
ließ doch mal via "smartctl" den Fehlerspeicher der Festplatte aus,

moderne Festplatten können sich Sektoren wo lese/schreibfehler
auftreten merken und diese ausblenden, dass müsste im Smart vermerkt sein

d.) guck doch mal im "/var/log/messages" nach ob vor dem reboot
irgendwas vorgefallen ist.
 
neue erkenntnisse
nach dem der vermeindliche freeze eingetreten ist, kann ich wie gesagt nichts mehr eingeben.
jedoch: wenn ich nach dem tippen auf der tastatur den power-button am gehäuse drücke, kommt eine meldung die mit "acpi:" beginnt und meint, er könne den suspend-request nicht ausführen, da er noch nicht soweit ist... also ganz tot ist das system nicht, nur gibt es keinen input mehr...

update: an der cpu liegt es nicht, da sie zuvor schon wegen schlechter belüftung den rechner runterfahren ließ. außerdem habe ich die wärmepaste erneuert und er blieb eben wieder hängen.

update 2: festplatte ist's auch nich. hab sie eben mal an meinen win-pc gehangen und gecheckt - auch smart sieht die sache gelassen.
am itx-system habe ich jetzt eine uralte 4gb-platte - ist vorhin auch stehen geblieben, als ich den mc schließen und änderungen speichern wollte...
sieht echt so aus, als ob das board futsch is.

also ich würde da ein paar Fehlerquellen vermuten

a.) die Wärmeleitpaste mit der der Wärmeleiter und die CPU verbunden sind
trocknet aus, und es bilden sich Hohlräume und Risse, d.h. Du erhälst
kleine Hotspots während die Temperatur der CPU nicht ansteigt
gesagt, getan. furchtbarer wärmeleitpad-rotz klebte da drauf. hat gut 40min gedauert, dass da runter zu "kratzen"... ma schaun.
b.) Speicherfehler

Prime95 soll besser sein als memtest86
ich habe gestern nochmal einige ram-riegel getestet und festgestellt, dass das board ziemlich zickig ist und nicht jeden ram frisst... werde mal bei ebay nach einem passenden paar suchen.
c.) Festplatte stirbt "S.M.A.R.T."
ließ doch mal via "smartctl" den Fehlerspeicher der Festplatte aus,
moderne Festplatten können sich Sektoren wo lese/schreibfehler
auftreten merken und diese ausblenden, dass müsste im Smart vermerkt sein
hab ich mir schon angeschaut... sah alles i.o. aus - werde es später noch hier posten.
d.) guck doch mal im "/var/log/messages" nach ob vor dem reboot
irgendwas vorgefallen ist.
da steht echt nix drin... nur natürliches log-zeug (bind, dhcp, usw)


bis auf weiteres VIELEN DANK euch!
 
Zuletzt bearbeitet:
so, habe ein neues board (pd10000) und neuen ram.
er bleibt trotzdem willkürlich hängen, meldet beim drücken des netzschalters aber: suspend request ignored (not ready yet).
komplett weg issa also nicht... any suggestions?

LÖSUNG
es lag am aktivierten ftp-proxy in verbindung mit pf. ähnliches ist hier schonmal vorgefallen.
wo und an welcher miskonfiguration die sache hängt, konnte ich noch nicht herausfinden.
 
Zuletzt bearbeitet:
Zurück
Oben