Serverabsturz ohne dump

mr44er

moderater Moderator
Teammitglied
....was kann man da tun, um das in den Griff zu bekommen?

Die crashes sind sporadisch, mal nach Tagen, mal nach Wochen.

Aktuell tappe ich im Dunkeln. Hitzeproblem eigentlich ausgeschlossen. sysutils/stress lief schon mehrfach auf allen Kernen über Stunden.
Provisorisch ist das gleiche Board nochmal bestellt. Ramriegel zum tauschen liegen hier auch vorrätig.
 
Wie ist die Qualität des Strom? Wie äußert sich der Absturz? Monitoring? Logs? Aktuelle Firmware auf allen Komponenten? Gab es Phasen in denen die Hardware problemlos lief? Mit älterem Kernel vielleicht?
 
@Crest: ja, ist ein tyan-board. es hat eine extra-lan-schnittstelle dafür. ist jetzt nicht direkt administrations-neuland für mich, aber die erste eigene 'echte' serverhardware, daher nicht wirklich erfahrung. sobald ich wieder vorort bin, schau ich da rein! gute idee!

@Illuminatus
stromqualität ist hier problemlos in den letzten jahren gewesen. keine schwankungen, die ich sichtbar empfinde (licht flackern etc.). hardware (bisher consumerzeug) hatte immer uptime jenseits der 200 tage und mehr. auch keine n stromausfall bisher hier gehabt.

der absturz äußert sich so, dass die kiste rebootet (das tyanboard piept 3x bevor es bootet). da ich den monitor, der dranhängt, immer aus hatte, habe ich auch keinen verdacht bzw. konnte einfach nix sehen (ausgabe vor crash, er lief ja 2 wochen nun durch). die hardware habe ich jetzt erst einen monat, daher gibt es keine guten phasen. in dem monat ist er bisher 3x so neu gestartet.
freebsd + kernel compilen lief problemlos durch. bisher habe ich ram dazugekauft und nen 8-kerner.
beim letzten reboot mittendrin am freitag habe ich ein video das auf dem server liegt, auf meinem kodi-pc gestreamt. (zfs-pool ist healthy, der letzte scrub vor ein paar tagen lief ohne korrektur durch)

bevor ich die kiste in betrieb nahm, habe ich für jede komponente das letzte verfügbare bios geflasht (bios,bmc,sas-controller)
 
memtest werde ich auch noch laufen lassen, jedoch hatte ich auch mit dem ram, der ursprünglich aufgesteckt war, abstürze und so habe ich das bisher mal ausgeblendet. bis montag weiß ich definitiv mehr!
 
Ein Board mit ECC und IPMI sollte Speicherfehler protokollieren. Guck mal mit ipmitool sel list nach ob da was hilfreiches drin steht.
 
Also memtest86+ (5.01) lief sauber durch. Knapp 2 Stunden (x64 und multithreaded) bei 32 GB und einem Durchlauf.
In der sel list standen nur Einträge, in denen ich wissentlich die Lüfter gezupft und umgesteckt hatte. Jedoch nichts vom Absturz am Freitag.
Habe die Einträge jetzt mal gelöscht, wenn jetzt noch was beim erneuten Absturz passiert, kann ich nichts übersehen.

Es bleibt spannend....die Kiste lief auch jetzt wieder übers WE problemlos durch.
 
Heute wieder ein Video gestreamt und die Kiste ist weggeschmiert. Diesmal jedoch hatte ich das Gehäuse offen und hab direkt alles mal abgegriffen zwecks Temperaturprüfung. Alles war handwarm. Direkt dann nach den Temperaturen im BIOS geschaut...das höchste waren 52°C bei SR5670 Temp.

Die Festplatten kommen im Betrieb selten über 44°C

Nichts in der sel list, wieder kein crashdump.

Code:
pciconf -lv
hostb0@pci0:0:0:0:   class=0x060000 card=0x5a121002 chip=0x5a121002 rev=0x02 hdr=0x00
  vendor  = 'Advanced Micro Devices, Inc. [AMD/ATI]'
  device  = 'RD890 Northbridge only dual slot (2x8) PCI-e GFX Hydra part'
  class  = bridge
  subclass  = HOST-PCI
pcib1@pci0:0:3:0:   class=0x060400 card=0x5a121002 chip=0x5a171002 rev=0x00 hdr=0x01
  vendor  = 'Advanced Micro Devices, Inc. [AMD/ATI]'
  device  = 'RD890/RD9x0 PCI to PCI bridge (PCI Express GFX port 1)'
  class  = bridge
  subclass  = PCI-PCI
pcib2@pci0:0:9:0:   class=0x060400 card=0x5a121002 chip=0x5a1c1002 rev=0x00 hdr=0x01
  vendor  = 'Advanced Micro Devices, Inc. [AMD/ATI]'
  device  = 'RD890/RD9x0/RX980 PCI to PCI bridge (PCI Express GPP Port 4)'
  class  = bridge
  subclass  = PCI-PCI
pcib3@pci0:0:10:0:   class=0x060400 card=0x5a121002 chip=0x5a1d1002 rev=0x00 hdr=0x01
  vendor  = 'Advanced Micro Devices, Inc. [AMD/ATI]'
  device  = 'RD890/RD9x0/RX980 PCI to PCI bridge (PCI Express GPP Port 5)'
  class  = bridge
  subclass  = PCI-PCI
pcib4@pci0:0:11:0:   class=0x060400 card=0x5a121002 chip=0x5a1f1002 rev=0x00 hdr=0x01
  vendor  = 'Advanced Micro Devices, Inc. [AMD/ATI]'
  device  = 'RD890/RD990 PCI to PCI bridge (PCI Express GFX2 port 0)'
  class  = bridge
  subclass  = PCI-PCI
ahci0@pci0:0:17:0:   class=0x010601 card=0x43911002 chip=0x43911002 rev=0x00 hdr=0x00
  vendor  = 'Advanced Micro Devices, Inc. [AMD/ATI]'
  device  = 'SB7x0/SB8x0/SB9x0 SATA Controller [AHCI mode]'
  class  = mass storage
  subclass  = SATA
ohci0@pci0:0:18:0:   class=0x0c0310 card=0x43971002 chip=0x43971002 rev=0x00 hdr=0x00
  vendor  = 'Advanced Micro Devices, Inc. [AMD/ATI]'
  device  = 'SB7x0/SB8x0/SB9x0 USB OHCI0 Controller'
  class  = serial bus
  subclass  = USB
ohci1@pci0:0:18:1:   class=0x0c0310 card=0x43981002 chip=0x43981002 rev=0x00 hdr=0x00
  vendor  = 'Advanced Micro Devices, Inc. [AMD/ATI]'
  device  = 'SB7x0 USB OHCI1 Controller'
  class  = serial bus
  subclass  = USB
ehci0@pci0:0:18:2:   class=0x0c0320 card=0x43971002 chip=0x43961002 rev=0x00 hdr=0x00
  vendor  = 'Advanced Micro Devices, Inc. [AMD/ATI]'
  device  = 'SB7x0/SB8x0/SB9x0 USB EHCI Controller'
  class  = serial bus
  subclass  = USB
ohci2@pci0:0:19:0:   class=0x0c0310 card=0x43981002 chip=0x43971002 rev=0x00 hdr=0x00
  vendor  = 'Advanced Micro Devices, Inc. [AMD/ATI]'
  device  = 'SB7x0/SB8x0/SB9x0 USB OHCI0 Controller'
  class  = serial bus
  subclass  = USB
ohci3@pci0:0:19:1:   class=0x0c0310 card=0x43991002 chip=0x43981002 rev=0x00 hdr=0x00
  vendor  = 'Advanced Micro Devices, Inc. [AMD/ATI]'
  device  = 'SB7x0 USB OHCI1 Controller'
  class  = serial bus
  subclass  = USB
ehci1@pci0:0:19:2:   class=0x0c0320 card=0x43961002 chip=0x43961002 rev=0x00 hdr=0x00
  vendor  = 'Advanced Micro Devices, Inc. [AMD/ATI]'
  device  = 'SB7x0/SB8x0/SB9x0 USB EHCI Controller'
  class  = serial bus
  subclass  = USB
none0@pci0:0:20:0:   class=0x0c0500 card=0x43851002 chip=0x43851002 rev=0x3d hdr=0x00
  vendor  = 'Advanced Micro Devices, Inc. [AMD/ATI]'
  device  = 'SBx00 SMBus Controller'
  class  = serial bus
  subclass  = SMBus
isab0@pci0:0:20:3:   class=0x060100 card=0x43831002 chip=0x439d1002 rev=0x00 hdr=0x00
  vendor  = 'Advanced Micro Devices, Inc. [AMD/ATI]'
  device  = 'SB7x0/SB8x0/SB9x0 LPC host controller'
  class  = bridge
  subclass  = PCI-ISA
pcib5@pci0:0:20:4:   class=0x060401 card=0x00000000 chip=0x43841002 rev=0x00 hdr=0x01
  vendor  = 'Advanced Micro Devices, Inc. [AMD/ATI]'
  device  = 'SBx00 PCI to PCI Bridge'
  class  = bridge
  subclass  = PCI-PCI
ohci4@pci0:0:20:5:   class=0x0c0310 card=0x43961002 chip=0x43991002 rev=0x00 hdr=0x00
  vendor  = 'Advanced Micro Devices, Inc. [AMD/ATI]'
  device  = 'SB7x0/SB8x0/SB9x0 USB OHCI2 Controller'
  class  = serial bus
  subclass  = USB
hostb1@pci0:0:24:0:   class=0x060000 card=0x00000000 chip=0x16001022 rev=0x00 hdr=0x00
  vendor  = 'Advanced Micro Devices, Inc. [AMD]'
  device  = 'Family 15h Processor Function 0'
  class  = bridge
  subclass  = HOST-PCI
hostb2@pci0:0:24:1:   class=0x060000 card=0x00000000 chip=0x16011022 rev=0x00 hdr=0x00
  vendor  = 'Advanced Micro Devices, Inc. [AMD]'
  device  = 'Family 15h Processor Function 1'
  class  = bridge
  subclass  = HOST-PCI
hostb3@pci0:0:24:2:   class=0x060000 card=0x00000000 chip=0x16021022 rev=0x00 hdr=0x00
  vendor  = 'Advanced Micro Devices, Inc. [AMD]'
  device  = 'Family 15h Processor Function 2'
  class  = bridge
  subclass  = HOST-PCI
hostb4@pci0:0:24:3:   class=0x060000 card=0x00000000 chip=0x16031022 rev=0x00 hdr=0x00
  vendor  = 'Advanced Micro Devices, Inc. [AMD]'
  device  = 'Family 15h Processor Function 3'
  class  = bridge
  subclass  = HOST-PCI
hostb5@pci0:0:24:4:   class=0x060000 card=0x00000000 chip=0x16041022 rev=0x00 hdr=0x00
  vendor  = 'Advanced Micro Devices, Inc. [AMD]'
  device  = 'Family 15h Processor Function 4'
  class  = bridge
  subclass  = HOST-PCI
hostb6@pci0:0:24:5:   class=0x060000 card=0x00000000 chip=0x16051022 rev=0x00 hdr=0x00
  vendor  = 'Advanced Micro Devices, Inc. [AMD]'
  device  = 'Family 15h Processor Function 5'
  class  = bridge
  subclass  = HOST-PCI
mps0@pci0:5:0:0:   class=0x010700 card=0x00411590 chip=0x00871000 rev=0x05 hdr=0x00
  vendor  = 'LSI Logic / Symbios Logic'
  device  = 'SAS2308 PCI-Express Fusion-MPT SAS-2'
  class  = mass storage
  subclass  = SAS
em0@pci0:4:0:0:   class=0x020000 card=0x00008086 chip=0x10d38086 rev=0x00 hdr=0x00
  vendor  = 'Intel Corporation'
  device  = '82574L Gigabit Network Connection'
  class  = network
  subclass  = ethernet
em1@pci0:3:0:0:   class=0x020000 card=0x00008086 chip=0x10d38086 rev=0x00 hdr=0x00
  vendor  = 'Intel Corporation'
  device  = '82574L Gigabit Network Connection'
  class  = network
  subclass  = ethernet
em2@pci0:2:0:0:   class=0x020000 card=0x125e8086 chip=0x105e8086 rev=0x06 hdr=0x00
  vendor  = 'Intel Corporation'
  device  = '82571EB Gigabit Ethernet Controller'
  class  = network
  subclass  = ethernet
em3@pci0:2:0:1:   class=0x020000 card=0x125e8086 chip=0x105e8086 rev=0x06 hdr=0x00
  vendor  = 'Intel Corporation'
  device  = '82571EB Gigabit Ethernet Controller'
  class  = network
  subclass  = ethernet
vgapci0@pci0:1:9:0:   class=0x030000 card=0x20001a03 chip=0x20001a03 rev=0x10 hdr=0x00
  vendor  = 'ASPEED Technology, Inc.'
  device  = 'ASPEED Graphics Family'
  class  = display
  subclass  = VGA

Die Hardware ist jetzt auch nicht sonderlich abgefahren.

Die installierten Ports erscheinen mir jetzt auch nicht exotisch oder kriminell:
pkg info
apr-1.6.3.1.6.1 Apache Portability Library
autoconf-2.69_1 Automatically configure source code on many Un*x platforms
autoconf-wrapper-20131203 Wrapper script for GNU autoconf
automake-1.15.1 GNU Standards-compliant Makefile generator
automake-wrapper-20131203 Wrapper script for GNU automake
bash-4.4.19 GNU Project's Bourne Again SHell
bison-3.0.4,1 Parser generator from FSF, (mostly) compatible with Yacc
ca_root_nss-3.35_2 Root certificate bundle from the Mozilla Project
cmake-3.10.2 Cross-platform Makefile generator
curl-7.58.0_3 Command line tool and library for transferring data with URLs
db5-5.3.28_6 Oracle Berkeley DB, revision 5.3
dialog4ports-0.1.6 Console Interface to configure ports
dtv-scan-tables-20170530_1 Digital TV scan tables from linuxtv.org
expat-2.2.5 XML 1.0 parser written in C
ezjail-3.4.2 Framework to easily create, manipulate, and run FreeBSD jails
freebsd-release-manifests-20171003 FreeBSD release manifests
gdbm-1.13_1 GNU database manager
gettext-runtime-0.19.8.1_1 GNU gettext runtime libraries and programs
gettext-tools-0.19.8.1 GNU gettext development and translation tools
gmake-4.2.1_2 GNU version of 'make' utility
help2man-1.47.5 Automatically generating simple manual pages from program output
indexinfo-0.3.1 Utility to regenerate the GNU info page index
isc-dhcp43-server-4.3.6_3 ISC Dynamic Host Configuration Protocol server
jpeg-turbo-1.5.3 SIMD-accelerated JPEG codec which replaces libjpeg
jsoncpp-1.8.1_3 JSON reader and writer library for C++
ldns-1.7.0_1 Library for programs conforming to DNS RFCs and drafts
libarchive-3.3.2,1 Library to create and read several streaming archive formats
libdvbcsa-1.1.0_1 Free implementation of the DVB Common Scrambling Algorithm
libevent-2.1.8_1 API for executing callback functions on events or timeouts
libffi-3.2.1_2 Foreign Function Interface
libhdhomerun-20150826 Library and command line utility for interfacing with HDHomeRun device
libinotify-20180201 Kevent based inotify compatible library
liblz4-1.8.1.2,1 LZ4 compression library, lossless and very fast
libnghttp2-1.30.0 HTTP/2.0 C Library
libtool-2.4.6 Generic shared library support script
libuv-1.19.2 Multi-platform support library with a focus on asynchronous I/O
libv4l-1.6.3_2 Video4Linux library
lzo2-2.10_1 Portable speedy, lossless data compression library
m4-1.4.18,1 GNU M4
nasm-2.13.03,1 General-purpose multi-platform x86 and amd64 assembler
p5-Locale-gettext-1.07 Message handling functions
perl5-5.24.3 Practical Extraction and Report Language
pkg-1.10.5 Package manager
pkgconf-1.4.2,1 Utility to help to configure compiler and linker flags
portmaster-3.19_7 Manage your ports without external databases or languages
poudriere-3.2.4 Port build and test system
py27-setuptools-38.5.1 Python packages installer
python27-2.7.14_1 Interpreted object-oriented programming language
readline-7.0.3_1 Library for editing command lines as they are typed
rhash-1.3.5 Utility and library for computing and checking of file hashes
scons-3.0.1 Build tool alternative to make
screen-4.6.2 Multi-screen window manager
serf-1.3.9_1 Serf HTTP client library
smartmontools-6.6_1 S.M.A.R.T. disk monitoring tools
spindown-0.4 SCSI/firewire harddrive spindown daemon
sqlite3-3.21.0_1 SQL database engine in a C library
stress-1.0.4 Tool to impose load on and stress test Unix-like systems
subversion-1.9.7_2 Version control system
texinfo-6.5,1 Typeset documentation system with multiple format output
tvheadend-4.2.5 TV streaming server supporting DVB, IPTV, SAT>IP and more
unbound-1.6.8_2 Validating, recursive, and caching DNS resolver
uriparser-0.8.4 URI parsing library
v4l_compat-1.6.3 Video4Linux IOCTL header files
webcamd-4.12.0.1 Port of Linux USB webcam and DVB drivers into userspace

Ich warte jetzt mal auf das Tausch-Board und dann versuche ich mein Glück damit. Da habe ich auch Gelegenheit mal unters Board zu lunzen, ggf. sitzt da Staub. Wenn das auch nicht fruchtet, bleibt noch das Netzteil.
 
Hast du externe Geräte über USB oder sonstige externe Hardware dran? Wenn so etwas spinnt (Kabel kaputt oder ähnliches), dann können sehr komische Probleme auftreten. Natürlich trifft das auch auf sonstige interne Geräte zu. Muss nicht Memory sein, aber da kommt man dann nur mit verschiedenen Kabel-/Hardware-Konfigurationen drauf.

Sowas kann dann auf den ersten Blick relativ unlogische Probleme verursachen. Habe da schon Sachen erlebt, wie kaputtes USB-Ladekabel, das zu Problemen bei der Grafikausgabe führt, etc.

Natürlich könntest du's auch gegentesten indem du explizit ein anderes System bootest (Stick, LiveCD, je nachdem was möglich ist). Wenn du auch da Fehler bekommst, dann ist es sehr wahrscheinlich die Hardware. Dem Umkehrschluss, sollte kein Fehler auftreten würde ich aber nicht trauen.

Aber wahrscheinlich ist das neue Board dann ohnehin aussagekräftiger. Viel Glück damit! :)
 
Hast du externe Geräte über USB oder sonstige externe Hardware dran?

USB - einen DVB-S Receiver und eine Tastatur, PCI-E 1x Netzwerkkarte

Der Receiver hing jahrelang an einem anderen PC, die Tastatur auch. Die Netzwerkkarte hab ich jetzt mal raus, bisher liefs.
Die doofe Post hat gestern nicht geklingelt, obwohl ich zuhause war, das Board liegt in der Filiale.

ABER der Lüfter vom Netzteil war hinüber, somit denke ich, dass es das war. Weil man das weder sieht (zumindest nicht von vorne) noch hört und da zuletzt dran denkt. Naja....Bude abgefackelt wär schlimmer. :ugly: Gestern noch ausgiebig gestreamt und dabei einen scrub als Belastungstest laufen lassen. Absturzfrei. :)

Dem Umkehrschluss, sollte kein Fehler auftreten würde ich aber nicht trauen.
Eben...aber ich hab nachher endlich alle Teile nochmal als Ersatz da, dann bin ich entspannt.
 
Zurück
Oben