Crashanalyse ...

hazelnut

Well-Known Member
Hi,
Ich hatte ja schon in verschiedenen Beiträgen versucht herauszufinden, wo mein Rechner ein Problem hat, und ob ich das via Hardware (neuer Controller) lösen kann. Einige Leute (Danke erstmal - wenn das hier klappt spare ich ordentlich Weihnachtsgeld) haben mich drauf hingewiesen, dass ich es erst mal im Guten versuchen solle... in dem Sinne hab ich mich auf die Suche gemacht und ich hab die entsprechende Logdatei gefunden... Und auch die entsprechenden Einträge... Hier mal die Ergebnisse:

Code:
Oct 31 02:44:13 feuer kernel: ad8: TIMEOUT - WRITE_DMA retrying (2 retries left) LBA=15646822
Oct 31 02:44:19 feuer kernel: ad8: FAILURE - ATA_IDENTIFY timed out
Oct 31 02:44:24 feuer kernel: ad8: FAILURE - ATA_IDENTIFY timed out
Oct 31 02:44:24 feuer kernel: ad8: WARNING - removed from configuration
Oct 31 02:44:24 feuer kernel: ata4-master: FAILURE - WRITE_DMA timed out
Oct 31 02:44:24 feuer kernel: GEOM_VINUM: subdisk data.p0.s2 state change: up -> down
Oct 31 02:44:24 feuer kernel: GEOM_VINUM: plex data.p0 state change: up -> degraded
Oct 31 03:46:08 feuer syslogd: kernel boot file is /boot/kernel/kernel
Oct 31 03:46:08 feuer kernel: GEOM_VINUM: g_access failed on drive raid53, errno 6
Oct 31 03:46:08 feuer kernel: GEOM_VINUM: lost drive 'raid53'
Oct 31 03:46:08 feuer kernel: Copyright (c) 1992-2006 The FreeBSD Project.
So, mich irritiert hier einiges ... da ist zum ersten erstmal die Zeit. Kann das sein, dass der die genau in diesem Moment umgestellt hat? Weil, zwischen Hängenbleiben und neu Booten ... eine ganze Stunde?!

und zum anderen sehe ich jetzt, woran das liegt ... ad8 TIMEOUT.

Nun die Frage - was sollte mir das sagen?

Smartctl sieht das aktuell so:

Code:
feuer# smartctl -a /dev/ad8
smartctl version 5.36 [i386-portbld-freebsd5.5] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Model Family:     Hitachi Deskstar 7K250 series
Device Model:     HDS722516VLSA80
Serial Number:    VN6DTECDET7VXA
Firmware Version: V34OA6MA
User Capacity:    164,696,555,520 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   6
ATA Standard is:  ATA/ATAPI-6 T13 1410D revision 3a
Local Time is:    Wed Nov  1 19:56:25 2006 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                 was never started.
                 Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                 without error or no self-test has ever
                 been run.
Total time to complete Offline
data collection:    (3585) seconds.
Offline data collection
capabilities:      (0x1b) SMART execute Offline immediate.
                 Auto Offline data collection on/off support.
                 Suspend Offline collection upon new
                 command.
                 Offline surface scan supported.
                 Self-test supported.
                 No Conveyance Self-test supported.
                 No Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                 power-saving mode.
                 Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                 General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        (  60) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   060    Pre-fail  Always       -       65536
  2 Throughput_Performance  0x0005   100   100   050    Pre-fail  Offline      -       0
  3 Spin_Up_Time            0x0007   253   253   024    Pre-fail  Always       -       85 (Average 85)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       391
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   100   100   020    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0012   100   100   000    Old_age   Always       -       1113
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       391
192 Power-Off_Retract_Count 0x0032   100   100   050    Old_age   Always       -       405
193 Load_Cycle_Count        0x0012   100   100   050    Old_age   Always       -       405
194 Temperature_Celsius     0x0002   177   177   000    Old_age   Always       -       31 (Lifetime Min/Max 14/43)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


Device does not support Selective Self Tests/Logging
feuer#

Also zumindest ich würde da jetzt nichts weiter kritisches sehen. Ich kann ja noch mal die Kabel auswechseln ... oder hat die Platte vielleicht doch einen Schuss weg ? Oder gar der Controller? Hat einer eine Idee, wie ich das feststellen kann?

Im Voraus schon mal Danke

Hazel
 
Ich habe hier eine IBM Deskstar die bei 'smartctl' auch alles tiptop i.o. anzeigt.
Nach ca. 15 min. Betriebszeit geht die Platte von allein aus und an bis sie ganz aus ist. Es kamen die gleichen kernel Fehlermeldungen. Sie klinkt sich aus und wieder ein.

Falls du ein Raid hast und alle Platten ausgehen wirds wohl am Kontroller liegen vermute ich mal. Ansonsten sicher die Daten runter und schmeiss die Platte weg. Evtl. nochmal in einem anderen Rechner die Platte probieren.
Meine Erfahrung.
 
Hi,

bin gestern leider nicht mehr dazu gekommen, die lange smartctl ausgabe zu posten. Hole ich aber heute nach.

Genau genommen habe ich noch etwas nach der Fehlermeldung gegooglet und dann das hier gefunden:

http://lists.freebsd.org/pipermail/freebsd-bugs/2005-May/012831.html

Wenn es an der Platte liegen würde, wäre das mehr als ärgerlich - ich meine, die wurde bisher kaum genutzt - was man ja an den Betriebsstunden sehen kann. Wie gesagt, der Fehler ist bereits mehrmals aufgetreten. Leider habe ich das offensichtlich nirgends dokumentiert, so dass ich nicht mal sagen kann, ob das nun immer die gleiche Platte ist oder nicht. Mein Bauch sagt mir, dass eher nicht.

Damals hatte das Austauschen der SATA-Kabel einiges gebracht, so dass das Ding danach auch wieder gut stabil lief ... bis vorgestern eben. Hab jetzt erst mal alles gesichert, so dass ich in Ruhe rumprobieren kann. Setze vielleicht auch noch ein 6'er FreeBSD auf, um auszuschließen, dass es am Treiber liegt.

Controller ist dann die Möglichkeit, die ich ja sowieso in Betracht gezogen hatte. Hier stellt sich aber wieder die Frage, was für einen - ich meine, der sollte auf dem Board hier jetzt funktionieren, und dann in Zukunft vielleicht auch auf einem neuen. Wobei ich da nicht den Aufrüstbedarf sehe, das Ding ist eh überdimensioniert.

Hat noch jemand eine Idee, wie ich den Fehler, den ich ja offensichtlich nicht wirklcih provozieren kann vielleicht noch weiter eingrenzen kann?

Im Voraus schon mal Danke

Hazelnut
 
Hallo!

und zum anderen sehe ich jetzt, woran das liegt ... ad8 TIMEOUT.
Kann es sein, dass du im BIOS eingestellt hast, dass sich die Platten nach einer gewissen Zeit abschalten sollen (spin down)? Ich hatte schonmal exakt das gleiche Problem wie du. Ein deaktivieren des Features hat das Problem gelöst.

HTH & Ciao.
Markus Mann
];-)
 
Hi,

bin gestern leider nicht mehr dazu gekommen, die lange smartctl ausgabe zu posten. Hole ich aber heute nach.

Genau genommen habe ich noch etwas nach der Fehlermeldung gegooglet und dann das hier gefunden:

http://lists.freebsd.org/pipermail/freebsd-bugs/2005-May/012831.html
...

hallo hazelnut,
herzlichen dank für den von dir geposteten link, denn das debug.acpi.disabled="pci_link" hat das problem mit meinem promise sata controller (siehe hier) gelöst, obwohl ich eigentlich etwas andere fehlermeldungen im log hatte..

naja, was solls - bei mir läuft das ding jetzt endlich :-)

lg
christian
 
Hi,

na, das freut mich doch. Bei mir hat das nicht funktioniert. Genau genommen ist die Kiste dann gleich mal gar nicht mehr hochgefahren... Hattest du da vorher noch was im Bios geändert, oder das gleich so eingegeben und gut war? Was hast du für einen Controller? Den gleichen wie ich?

Aber was solls. Der Spin Down sollte im Bios eigentlich abgeschalten sein. Zumindestens war er das, als ich das letzte mal drauf geschaut hatte. Ich denke also nicht, dass es daran liegt. Dennoch bringen die Festplatten hin und wieder Geräusche, die sich nach einem "Neustart" anhören.

Daher hier auch mal die Smartctl-Ausgabe, die angefragt wurde ...

Code:
feuer# smartctl -a /dev/ad8
smartctl version 5.36 [i386-portbld-freebsd5.5] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Model Family:     Hitachi Deskstar 7K250 series
Device Model:     HDS722516VLSA80
Serial Number:    VN6DTECDET7VXA
Firmware Version: V34OA6MA
User Capacity:    164,696,555,520 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   6
ATA Standard is:  ATA/ATAPI-6 T13 1410D revision 3a
Local Time is:    Wed Nov  8 01:55:04 2006 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 (3585) seconds.
Offline data collection
capabilities:                    (0x1b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        No Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        (  60) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   060    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   100   100   050    Pre-fail  Offline      -       0
  3 Spin_Up_Time            0x0007   253   253   024    Pre-fail  Always       -       85 (Average 108)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       401
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   100   100   020    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0012   100   100   000    Old_age   Always       -       1127
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       401
192 Power-Off_Retract_Count 0x0032   100   100   050    Old_age   Always       -       415
193 Load_Cycle_Count        0x0012   100   100   050    Old_age   Always       -       415
194 Temperature_Celsius     0x0002   157   157   000    Old_age   Always       -       35 (Lifetime Min/Max 14/43)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%      1126         -

Device does not support Selective Self Tests/Logging
feuer#

So, der smartctl -t long ... Test ist durchgelaufen. Er hat mir das Progrämmle dann gleich beendet und in der Doku habe ich auf die Schnelle auch nichts gefunden ... von daher habe ich das dann mit einem -a ausgelesen. Was genau ist unter dem LBA_of_first_error zu verstehen? Ich meine, ist die Platte nun nicht mehr so toll, oder kann ich die ruhigen Gewissens noch nehmen?

Hoffe, jemand hat eine Idee ...

Und Danke für die Beiträge ...

Hazel
 
Hi,
na, das freut mich doch. Bei mir hat das nicht funktioniert. Genau genommen ist die Kiste dann gleich mal gar nicht mehr hochgefahren... Hattest du da vorher noch was im Bios geändert, oder das gleich so eingegeben und gut war? Was hast du für einen Controller? Den gleichen wie ich?

hallo,
hab einen Promise PDC40718 SATA300 controller..
hab in der loader.conf eben die debug.acpi... geschichte eingetragen und funktioniert..
im bios hab ich ehrlich gesagt gleich garnix bzgl. spindown gefunden...
 
Zurück
Oben