Sporadische spontane Abstürze

thorwin

Well-Known Member
Moin,

mein Server (9-STABLE) fing gestern an, gelegentlich spontan und ohne nähere Motivation zu booten. Nach den reboot findet sich das hier in /var/log/messages:

Code:
Jun  7 18:48:28 gandalf kernel: Fatal trap 12: page fault while in kernel mode
Jun  7 18:48:28 gandalf kernel: cpuid = 0; apic id = 00
Jun  7 18:48:28 gandalf kernel: fault virtual address   = 0x38
Jun  7 18:48:28 gandalf kernel: fault code              = supervisor read data, page not present
Jun  7 18:48:28 gandalf kernel: instruction pointer     = 0x20:0xffffffff81567301
Jun  7 18:48:28 gandalf kernel: stack pointer           = 0x28:0xffffff81a6dc3d40
Jun  7 18:48:28 gandalf kernel: frame pointer           = 0x28:0xffffff81a6dc3d70
Jun  7 18:48:28 gandalf kernel: code segment            = base 0x0, limit 0xfffff, type 0x1b
Jun  7 18:48:28 gandalf kernel: = DPL 0, pres 1, long 1, def32 0, gran 1
Jun  7 18:48:28 gandalf kernel: processor eflags        = interrupt enabled, resume, IOPL = 0
Jun  7 18:48:28 gandalf kernel: current process         = 3495 (rm)
Jun  7 18:48:28 gandalf kernel: trap number             = 12
Jun  7 18:48:28 gandalf kernel: panic: page fault
Jun  7 18:48:28 gandalf kernel: cpuid = 0
Jun  7 18:48:28 gandalf kernel: KDB: stack backtrace:
Jun  7 18:48:28 gandalf kernel: #0 0xffffffff8090dca6 at kdb_backtrace+0x66
Jun  7 18:48:28 gandalf kernel: #1 0xffffffff808d7e1e at panic+0x1ce
Jun  7 18:48:28 gandalf kernel: #2 0xffffffff80bc40f0 at trap_fatal+0x290
Jun  7 18:48:28 gandalf kernel: #3 0xffffffff80bc446f at trap_pfault+0x22f
Jun  7 18:48:28 gandalf kernel: #4 0xffffffff80bc494e at trap+0x3ce
Jun  7 18:48:28 gandalf kernel: #5 0xffffffff80baf46f at calltrap+0x8
Jun  7 18:48:28 gandalf kernel: #6 0xffffffff8156f097 at vdev_mirror_child_select+0x67
Jun  7 18:48:28 gandalf kernel: #7 0xffffffff8156f64c at vdev_mirror_io_start+0x24c
Jun  7 18:48:28 gandalf kernel: #8 0xffffffff81587282 at zio_vdev_io_start+0x232
Jun  7 18:48:28 gandalf kernel: #9 0xffffffff81586d23 at zio_execute+0xc3
Jun  7 18:48:28 gandalf kernel: #10 0xffffffff8151c9f1 at arc_read_nolock+0x6d1
Jun  7 18:48:28 gandalf kernel: #11 0xffffffff8151cc33 at arc_read+0x93
Jun  7 18:48:28 gandalf kernel: #12 0xffffffff8152324c at dbuf_prefetch+0x12c
Jun  7 18:48:28 gandalf kernel: #13 0xffffffff815472eb at dmu_zfetch_dofetch+0x10b
Jun  7 18:48:28 gandalf kernel: #14 0xffffffff81547fe8 at dmu_zfetch+0xaf8
Jun  7 18:48:28 gandalf kernel: #15 0xffffffff81521bc5 at dbuf_read+0x675
Jun  7 18:48:28 gandalf kernel: #16 0xffffffff815361a2 at dnode_hold_impl+0xf2
:ugly:

Einen Speicherfehler kann ich nahezu ausschließen, ich habe mehrere Stunden lang memtest86+ laufen lassen ohne dass ein Fehler aufgetreten wäre. Das einzige, was mir auffällt, ist , dass die Reboots gerne unter Last auftreten, aber auch die Temperaturen sehen normal aus und alle Lüfter sind einwandfrei funktional.

An der Softwarekonfiguration hat sich auch seit >1 Woche nichts geändert, sollte mich also wundern, wenn es daran liegt.

Ich weiß nicht mehr so recht, wo ich suchen soll, könnte es evtl. am Netzteil liegen? Das ist zwar ein Enermax aber nicht mehr das allerneueeste... :confused:

Any hints?
 
Zuletzt bearbeitet:
"unter Last...."
da würde ich es auch mit einem neuen Netzteil versuchen.
Oder ggf. mal die Spannungen überprüfen unter Last.
 
Grade vorhin wieder beim buildworld, während

Code:
>>> stage 2.1: cleaning up th object tree
[...]
===> lib/msun (cleandir)

Das ist jetzt aber wohl eher I/O-Last. Ob ich mal ein zfs scrub laufen lassen sollte? :confused:
 
Also nach meinem laienhaften Blick sieht das da oben schon nach FS aus ("arc_read","zio" "vdev_mirror")...
 
Jepp, in vdev_mirror_child_select() ist die Sache schief gegangen. Das schließt RAM (memtest86+ ist leider nicht 1000% sicher) und Netzteil nicht aus, erhärtet aber den Verdacht, dass es was im Bereich der Festplatten ist. Ich würde die mal mit SMART prüfen (gern auch einen "Extended Selftest" laufen lassen), die Kabel einmal abziehen und die Stecker auspusten und dann einmal einen Scrub probieren.
 
Ich würde die mal mit SMART prüfen (gern auch einen "Extended Selftest" laufen lassen), die Kabel einmal abziehen und die Stecker auspusten und dann einmal einen Scrub probieren.

Der Scrub lief je nach dem mal eine Minute, mal 10, dann wieder Reboot. Ich habe das Gefühl, hier ging irgendetwas komplett in die Fritten :(

Inzwischen hab ich die Kiste mit neuem Netzteil aus nem Backup wieder aufgesetzt und alles scheint stabil zu laufen. Irgendwie ist mir also beim einem ungeplanten Reboot (gab ja genug...) das ZFS kaputt gegangen, wobei das dann anscheinend nur ein "Folgefehler" des Netzteils war :grumble:

Die nächste Aktion iwrd wohl die Anschaffung einer Mirror-Platte, Backups neu einspielen saugt Universen durch Nanoröhren :ugly:
 
Zurück
Oben