FreeBSD 10.1 ständige Abstürze

Nagut, wenns nicht mal für Serverhardware reicht, wird die entsprechende Backup-Infrastruktur, um zig TB zuverlässig zu sichern, bestimmt vorhanden sein.
Ich sehs ja ein.

;) Ich denke es ist niemand gegen ECC-RAM.

Aber nicht jeder Server braucht 100% Zuverlässigkeit, ganz im Gegenteil. Und ohne Checksummen bist du an sich noch schlimmer dran als ohne, unabhängig von ECC oder nicht. Trotzdem laufen zig Server ohne ZFS und ohne ECC fröhlich vor sich her, ohne Probleme. ;)

Zum Beispiel bei Hetzner zahlt man "nur" für ECC-RAM mal eben 20 EUR (!) mehr im Monat (i7 vs Xeon mal dahingestellt). Für den Aufpreis kriegst du locker ausreichend Backup-Space von denen. Da fängt man an zu rechnen.

Für eigene Server ist das auch eine Kostenfrage. Wenn es nur um ECC-RAM geht explodiert der Preis extrem. Die Hardwareauswahl sinkt extrem... Auch Kosten die man locker in Backup-Storage investieren kann.
 
sollte mein Setup kein FS mit Checksumming (schreibt man das so?) haben, so bin ich immer noch frei ein Tool wie aide/tripwire zu verwenden. Ergänzend ein freebsd-update IDS bzw. die Prüfmethoden einer z.B. aktiven Datenbankanwendung. Immer nur Daten schreiben aber niemals erneut zu lesen und auf Richtigkeit zu prüfen kann Probleme unter den Teppich kehren.
Unsere RAID Controller sind so konfiguriert, dass sie regelmäßig die Korrektheit aller Blöcke sicher stellen. Aber klar gibt es auch sehr viele Systeme wo es nicht sooo wichtig ist.
Fakt ist dass bei diesen FAULTS und PANICS nun per Trial&Error gesucht werden muss was die defekte Komponente ist. Solche Späße mit Bauteilen die mehrere Minuten stromlos gemacht werden müssen können einem auch den Vormittag vermiesen :-)
 
Also ich hab mal ein Bild von der Konsole gemacht.

Irgend eine Idee?

Edit: Keine Ahnung warum das Bild falschrum ist???


Hoi,
das Bild hilft - den Fehler habe ich so schon mal gesehen. Das riecht verdächtig nach einem IBM M1015 Controller mit falscher Firmware die nicht zur verwendeten FreeBSD Treiber Version passt. Prüf mal nach welche Firmware Version der Controller hat und welche Treiber Version in FreeBSD verwendet wird. Sollte die jeweils ungünstig kombiniert sein, würde das den Fehler erklären. Dann würde ein Firmware Update auf dem M1015 helfen.

Beste Grüße
Bummibär
 
Das hört sich gut an. Wenn ich nächste Woche zu Hause bin schau ich direkt nach.

Hab genau den IBM geflashed auf LSI

Gruß
Markus
 
Hallo,

ich habe den Treiber wie besprochen aktualisiert und eigentlich war es recht zuverlässig: Bis heute...

messages:
Code:
Feb 14 09:17:18 dolw17srv01 kernel: (probe3:mps0:0:3:0): INQUIRY. CDB: 12 00 00 00 24 00
Feb 14 09:17:18 dolw17srv01 kernel: (probe3:mps0:0:3:0): CAM status: CCB request is in progress
Feb 14 09:17:18 dolw17srv01 kernel: (probe3:mps0:0:3:0): Retrying command
Feb 14 09:17:18 dolw17srv01 kernel: (probe3:mps0:0:3:0): INQUIRY. CDB: 12 00 00 00 24 00
Feb 14 09:17:18 dolw17srv01 kernel: (probe3:mps0:0:3:0): CAM status: CCB request is in progress
Feb 14 09:17:18 dolw17srv01 kernel: (probe3:mps0:0:3:0): Retrying command
Feb 14 09:17:18 dolw17srv01 kernel: (probe3:mps0:0:3:0): INQUIRY. CDB: 12 00 00 00 24 00
Feb 14 09:17:18 dolw17srv01 kernel: (probe3:mps0:0:3:0): CAM status: CCB request is in progress
Feb 14 09:17:18 dolw17srv01 kernel: (probe3:mps0:0:3:0): Retrying command
Feb 14 09:17:18 dolw17srv01 kernel: (probe3:mps0:0:3:0): INQUIRY. CDB: 12 00 00 00 24 00
Feb 14 09:17:18 dolw17srv01 kernel: (probe3:mps0:0:3:0): CAM status: CCB request is in progress
Feb 14 09:17:18 dolw17srv01 kernel: (probe3:mps0:0:3:0): Retrying command
Feb 14 09:17:18 dolw17srv01 kernel: (probe3:mps0:0:3:0): INQUIRY. CDB: 12 00 00 00 24 00
Feb 14 09:17:18 dolw17srv01 kernel: (probe3:mps0:0:3:0): CAM status: CCB request is in progress
Feb 14 09:17:18 dolw17srv01 kernel: (probe3:mps0:0:3:0): Error 5, Retries exhausted
Feb 14 09:17:18 dolw17srv01 kernel: da3 at mps0 bus 0 scbus0 target 3 lun 0
Feb 14 09:17:18 dolw17srv01 kernel: da3: <ATA TOSHIBA DT01ACA3 ABB0> detached
Feb 14 09:17:18 dolw17srv01 kernel:

Auf der Console war danach dann "reset CPU".

Treiber scheinen jetzt aber zu stimmen? Evtl. ein Defekt?
Code:
Feb 14 11:16:35 dolw17srv01 kernel: mps0: <LSI SAS2008> port 0xde00-0xdeff mem 0xfb7fc000-0xfb7fffff,0xfb780000-0xfb7bffff irq 16 at device 0.0 on pci1
Feb 14 11:16:35 dolw17srv01 kernel: mps0: Firmware: 19.00.00.00, Driver: 19.00.00.00-fbsd
Feb 14 11:16:35 dolw17srv01 kernel: mps0: IOCCapabilities: 1285c<ScsiTaskFull,DiagTrace,SnapBuf,EEDP,TransRetry,EventReplay,HostDisc>

Danke und Gruß
Markus
 
Hallo,

ja das Problem hatte ich letztens auch mit einem LSI_SAS Controller. Die letzteFirmware xx.xx.xx.20 läuft nicht, die davor xx.xx.xx.19 soll besser laufen. Ich habe den Controller getauscht, bevor ich das erfahren habe. Ich bin mir aber nicht sicher ob des den 1015 betrifft. Ich habe den Controller noch ungenutzt rumliegen, im Zweilfelsfall kann ich dir den zum testen schicken....

Gruß ré

EDIT: sehe gerade du nutzt die xx.xx.xx.19

EDIT2: bei mir war das vehalten auch anders, Der Controller hatte im die gleichen 2-5 Platten aus dem Pool gehauen...
 
Prinzipiell sagt ZFS der Pool ist in Ordnung (zpool status).

smartctl-Outputs kann ich bis heute nicht sauber deuten :(
Code:
smartctl -a /dev/da3
smartctl 6.3 2014-07-26 r3976 [FreeBSD 10.1-RELEASE-p5 amd64] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Toshiba 3.5" HDD DT01ACA...
Device Model:     TOSHIBA DT01ACA300
Serial Number:    43OPTE6GS
LU WWN Device Id: 5 000039 ff4c9e77c
Firmware Version: MX6OABB0
User Capacity:    3,000,592,982,016 bytes [3,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Sat Feb 14 14:09:36 2015 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x80)    Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)    The previous self-test routine completed
                    without error or no self-test has ever
                    been run.
Total time to complete Offline
data collection:         (22365) seconds.
Offline data collection
capabilities:              (0x5b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    No Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    General Purpose Logging supported.
Short self-test routine
recommended polling time:      (   1) minutes.
Extended self-test routine
recommended polling time:      ( 373) minutes.
SCT capabilities:            (0x003d)    SCT Status supported.
                    SCT Error Recovery Control supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   139   139   054    Pre-fail  Offline      -       70
  3 Spin_Up_Time            0x0007   132   132   024    Pre-fail  Always       -       432 (Average 433)
  4 Start_Stop_Count        0x0012   098   098   000    Old_age   Always       -       10697
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   124   124   020    Pre-fail  Offline      -       33
  9 Power_On_Hours          0x0012   099   099   000    Old_age   Always       -       9785
10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       13
192 Power-Off_Retract_Count 0x0032   091   091   000    Old_age   Always       -       10825
193 Load_Cycle_Count        0x0012   091   091   000    Old_age   Always       -       10825
194 Temperature_Celsius     0x0002   230   230   000    Old_age   Always       -       26 (Min/Max 23/42)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%        45         -

SMART Selective self-test log data structure revision number 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Wären sonst noch Infos wichtig?
Danke und Gruß
Markus
 
Irgend welche anderen Tipps? Möchte irgendwann mal meine Synology ablösen - wenn der Server dauernd abstürzt macht das nicht wirklich Sinn :(
 
2 Sachen... 1) Es ist wahrscheinlich, dass der Controller Probleme hat, allerdings kann es auch ein Bug im Treiber sein. Kannst Du die Platte auch woanders anschließen (ohne Daten zu verlieren natürlich.

2) Mir fällt auf, dass das Listing zu SMART-Fehlern nicht viel Infos über den Controller auf der Platte gibt oder Übertragungsfehler. Es kann trotzdem sein, dass die Platte schuld ist. Es gibt auch Festplatten mit defekter Firmware.

Nachtrag:
Noch zwei weitere Sachen fällen mir ein. Prüf die Verkabelung. Die Platte kann Vibrationen erzeugen, die nach gewisser Zeit wieder zum schlechten Kontakt führen.

Und es gibt noch ein Temperaturproblem mit Platten. Ich musste eine Platte bei mir ständig aktiv kühlen, damit der Controller rund läuft. Sobald ich die Kühler gestoppt habe, passierten Fehler auf der ATA-Schnittstelle.
 
Bzgl. Temperatur-Problem kann ich ausschließen. Der Server steht in einem 4HE-Gehäuse mit 2 aktiven Lüftern vor den Platten.
Verkabelung eigentlich auch (Backplane vom Storage-Gehäuse).

Das Problem ist, dass ich die Abstürze nicht reproduzieren kann.
Der Logeintrag "... detached" war immer mal wieder mit unterschiedlichen Platten - daher schließe ich die da3 eigentlich aus.

Gruß
Markus
 
Ich habe noch ein Problem mit Deinen hier gepasteten Logs. Das Kommando, das da gesendet ist "INQUIRY" und das ist ein ziemlich nichtsagendes Log. Wenn ein System mitten drin beim Betrieb ein INQUIRY absendet, bedeutet das in etwa: "Hallo Platte, Dich kenne ich noch nicht. Sag mal wer Du eigentlich bist.". Das ist irgendwie doof zur Diagnose. Da muss doch noch mehr sein außer diesen Timeout-Fehlern bei INQUIRY.
 
Hoi,
prüf mal ob es sich bei dem Kabel wirklich um ein SATA-3 Kabel handelt. Parallel dazu wäre eine aktuelle Ausgabe von dmesg von der Kiste sinnvoll. Ich würde an Deiner Stelle mal iozone drüber laufen lassen. Wenn es in der Maschine mit Controller / HDD Probleme gibt wirst Du die da relativ schnell sehen können bzw. werden die da relativ schnell auftauchen. Schau au mal dann was in /var/log/messages zu finden ist.

Prüf auch mal ob der Controller beim Booten (beim Kaltstart !) die korrekte SAS Adresse + Serialnumber kennt und korrekt anzeigt. Ggf. hast Du da beim Flashen was verpennt.

Mit FreeBSD 10.1-p5 amd64 han ich so Kiste mit dem Controller als eine Workstation ohne Probleme am Start. Da ist auch die P19 Firmware drauf.

Beste Grüße
Bummibär
 
Hallo,

iozone ist sauber durchgelaufen (output.xls.txt müsstet ihr in .xls umbenenne - Forum...).
dmesg hängt auch an.

Verkabelung kann ich leider erst am WE prüfen.

Danke und Gruß
Markus
 

Anhänge

  • dmesg.txt
    52,4 KB · Aufrufe: 284
  • output.xls.txt
    45,9 KB · Aufrufe: 258
Ich krieg die Krise... schon wieder abgestürzt. Heute aml auf der Console noch was anderes gesehen - Bild anbei. Morgen komme ich evtl. dazu das Dingen mal aufzuschrauben.

Andere Tipps?
 

Anhänge

  • IMG_1181.jpg
    IMG_1181.jpg
    467,9 KB · Aufrufe: 324
Also eine USV die die Spannung normalisiert, habe ich bisher nicht. Die wollte ich Anschaffen, wenn die gesamte Infrastruktur steht und ich final die Leistungsaufnahme habe, die abgesichert werden muss.

Können denn Spannungsspitzen wahllos Kernel Panics verursachen oder das bisher aufgetretene Verhalten verursachen?
Bin ja kurz davor einfach den IBM auszubauen, alle On-Board-Anschlüsse zu nehmen und eine "dumme" PCIe 2.0 2 Port SATA-Karte zu nehmen...

Gruß
Markus
 
Ähm - die Green Functions und Schlafenlegen und so Scherze von dene HDD hast Du aber schon alle aus oder ?
 
Das Problem ist, dass der IBM 1015 im IT-Modus die nativen Mechanismen nicht unterstützt.

Ich benutze das Paket "spindown" für Stromsparen im großen Pool (das OS läuft ja auf einem SSD-Mirror).

Code:
#Enable Spindown
spindown_enable="YES"
spindown_flags="-b -i 10 -t 60 -d da0 -d da1 -d da2 -d da3 -d da4 -d da5"

Deutet irgendwas darauf hin, dass es daran liegen kann?

Gruß
Markus
 
Das kann schon mal die INQUIRY erklären. Dass Du auf einem RAID-System Stromsparen betreibst hast Du nicht so erwähnt. Hätte ich jetzt auch nicht damit gerechnet und ich würde so etwas auch eigentlich lassen.

Das einfachste ist, wenn Du die Stromsparfunktion einfach für eine Zeit ausmachst und guckst, ob es besser läuft.
 
Naja, ist halt der Homeserver / NAS-Ersatz, auf den vielleicht 1-2 Mal am Tag zugegriffen wird (zzgl. Timemachine).
Da dachte ich die 30 Watt könnte ich mir pro Stunde sparen.

Ich habe das mal abgestellt - "Schade" ist, dass die Abstürze nicht provozierbar sind und ich jetzt warten muss :(

Gruß
Markus

Edit: Was meinst du mit INQUIRY?
 
30 Watt? Hast Du das nachgemessen? Wie wäre es einfach mit "Abschalten, wenn man es nicht braucht"? Abgesehen davon braucht man für zu Hause eher nicht täglich Backup machen (im Allgemeinen, ich weiß ja aber nicht was Du zu Hause alles machst).
 
Zurück
Oben