Festplatte kaputt?

atzplzw · 24 Oktober 2007

Hallo!

Ich fahre ein geom_stripe software RAID0 mit FBSD 6.2. Gestern ist der Server auf einmal weggewesen. Ob Stromausfall oder Absturz nicht kann ich nicht sagen.

Beim Starten heut hat er natürlich gemeckert:
kernel: WARNING: / was not properly dismounted

Nachdem starten und zusammensetzen des RAID habe ich natürlich fsck laufen lassen und folgende Meldung bekommen:

Code:

fsck /dev/stripe/st0d
** /dev/stripe/st0d
** Last Mounted on /data
** Phase 1 - Check Blocks and Sizes
** Phase 2 - Check Pathnames
** Phase 3 - Check Connectivity
** Phase 4 - Check Reference Counts
** Phase 5 - Check Cyl groups
SUMMARY INFORMATION BAD
SALVAGE? [yn] y
BLK(S) MISSING IN BIT MAPS
SALVAGE? [yn] y
55397 files, 62977907 used, 11359787 free (3579 frags, 2839052 blocks, 0.0% fragmentation)
***** FILE SYSTEM MARKED CLEAN *****
***** FILE SYSTEM WAS MODIFIED *****

Dann hab ich fsck gleich nochmal laufen lassen und seltsamerweise wieder die gleiche Meldung. Im Log stand danach folgendes:

Code:

GEOM_STRIPE: Device st0 created (id=13685712).
GEOM_STRIPE: Disk ad4s2d attached to st0.
GEOM_STRIPE: Disk ad6s2d attached to st0.
GEOM_STRIPE: Device st0 activated.
ad4: TIMEOUT - READ_DMA retrying (1 retry left) LBA=138109700
ad4: TIMEOUT - READ_DMA retrying (1 retry left) LBA=21375700

Kann mir jemand sagen was diese Meldung bedeutet?
Sind Sektoren auf der HDD hin oder wars wirklich nur Stripe Fehler?

dettus · 24 Oktober 2007

hmm...

das sieht mir aber gar nicht nach einem fehler aus den du mit fsck beseitigen kannst. das dma deutet eher auf ein hardware-problem hin.

Elwood · 24 Oktober 2007

Hi,

ähnliche Meldung (ad4: TIMEOUT - READ_DMA retrying (1 retry left) LBA=138109700) erhalte ich auch von einer neuen SATA-Platte (deswegen neu, weil die die vorherige (neue) SATA Platte aufgrund dieser Meldung rausgeschmissen habe. Ich bin mir daher nicht sicher, ob das wirklich ein Hardwarefehler ist, so tippe mittlerweile auf IRQ-Stress. Mir war so, als hätte ich in CURRENT oder wars STABLE ähnliches auch schon mal gelesen habe.

Gruss, Elwood

Flex6 · 24 Oktober 2007

ich hatte auch son Probs, hab dann das Kabel getauscht und Fehler war weg, Kabel war wohl Schrott oder billiger Chinakram

Yamagi · 24 Oktober 2007

Code:

ad4: TIMEOUT - READ_DMA retrying (1 retry left) LBA=138109700

Bedeutet lediglich, dass die Festplatte der Anforderung dieses Blockes nicht nachgekommen ist, bevor das Timeoutintervall gegriffen hat. Es Hardwaredefekt ist nur eine von vielen Möglichkeiten, außerdem kommen - wie bereits gesagt - hohe IRQ-Lasten, Speicherknappheit, hohe Systemlast oder schlicht zu viel Last auf der Platte in Frage.

Endorphine · 25 Oktober 2007

Zuerst würde ich dringend anraten, sofort ein Backup zu machen. Es handelt sich ja um ein Stripeset.

Diese Fehler kommen nach meiner Erfahrung nur, wenn die Platte schon einen Schaden hat. Natürlich kann es Timeouts auch aus anderen Gründen geben. Aber wenn Interrupts so lange dauern, dass sogar der Timeout für einen Block-Lesebefehl zuschlägt (schon der normale Plattenzugriff dauert Ewigkeiten aus Sicht der CPU), dann kann man imho stark davon ausgehen, dass die Platte die Ursache sein kann.

Also mal sysutils/smartmontools/ installieren und dann

Code:

smartctl -a /dev/ad4

laufen lassen und auf die kritischen Werte wie reallocated sector count, pending sectors und scan errors schauen.

Ne0n · 25 Oktober 2007

Hatte heute die gleichen Meldungen nach einer 6.2 Installation auf einem brandneuen hp Server mit SATA RAID Controller (läuft als RAID1).

Im Singleuser Modus konnte ich die Partition einwandfrei mounten, bootete der Rechner normal kamen die Meldungen. Die bezogen sich immer nur auf die /usr Partition (ad4), der Rest ging einwandfrei.

Dann habe ich denn Rechner stromlos gemacht statt immer nur Soft-Resets zu machen und anschließend bootete er einwandfrei, mittlerweile zum 5. Mal. Hoffe das bleibt so.

Viel Glück...

atzplzw · 26 Oktober 2007

Endorphine schrieb:
Also mal sysutils/smartmontools/ installieren und dann

Code:

smartctl -a /dev/ad4

laufen lassen und auf die kritischen Werte wie reallocated sector count, pending sectors und scan errors schauen.

Danke für den Hinweis. Hier hab ich das Log:

Code:

SMART Error Log Version: 1
ATA Error Count: 3
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 3 occurred at disk power-on lifetime: 1122 hours (46 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 80 b0 5a 4a ea  Error: UNC 128 sectors at LBA = 0x0a4a5ab0 = 172645040

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 80 b0 5a 4a ea 00   3d+22:58:21.125  READ DMA
  ca 00 14 3f 23 38 e0 00   3d+22:58:19.375  WRITE DMA
  c6 00 10 00 00 00 e0 00   3d+22:58:19.375  SET MULTIPLE MODE
  ef 02 00 00 00 00 e0 00   3d+22:58:19.375  SET FEATURES [Enable write cache]
  ef aa 00 00 00 00 e0 00   3d+22:58:19.375  SET FEATURES [Enable read look-ahead]

3 Fehler werden angezeigt. Obwohl die Nachricht im Log öfters auftaucht.
Was lässt sich jetzt daraus schließen?

Endorphine · 26 Oktober 2007

Wieder zuerst: wenn du noch kein Backup der Daten des Stripesets gezogen hast, dann tu es jetzt.

Das Error Log ist jetzt mal nicht so interessant, da es zu sehr in die Tiefe geht, wenn man den Blick für die Gesamtsituation noch nicht hat. Wichtiger für den Überblick ist der obere Teil mit den Smart-Attributen. Und dort mal nach den kritischen Werten Current_Pending_Sector, Reallocated_Event_Count, Reallocated_Sector_Ct und Scan Errors schauen. Dann weißt du, wie viele defekte Blöcke sich schon gebildet haben.

Allgemein: wenn sich schon was im Error-Log gesammelt hat, kannst du die Platte für wichtige Daten schon so gut wie wegwerfen. Wenn dort etwas auftaucht, dann ist schonmal gewaltig was schief gelaufen. Und die unkorrigierbaren Lese- und Schreibfehler über viele (128 Sektoren) im Errorlog klingen für mich nicht nach Fehlern, die durch den Host produziert wurden, sondern durch einen Schaden in der Platte selber.

Die Smart-Attribute durchzusehen wird das wohl nur noch bestätigen.

atzplzw · 26 Oktober 2007

Der obere Teil ist der hier. Ich sehe nur nicht wo da ein Fehler auftaucht, deshalb hatte ich nur das Log gepostet.

Code:

=== START OF INFORMATION SECTION ===
Model Family:     SAMSUNG SpinPoint P80 SD series
Device Model:     SAMSUNG HD160JJ
Serial Number:    *
Firmware Version: ZM100-47
User Capacity:    160,041,885,696 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   7
ATA Standard is:  ATA/ATAPI-7 T13 1532D revision 4a
Local Time is:    Fri Oct 26 14:42:48 2007 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Disabled

=== START OF ENABLE/DISABLE COMMANDS SECTION ===
SMART Enabled.

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x02) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 (3723) seconds.
Offline data collection
capabilities:                    (0x5b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        (  62) minutes.


SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   100   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0007   253   253   025    Pre-fail  Always       -       2112
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       31
  5 Reallocated_Sector_Ct   0x0033   253   253   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   253   253   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   253   253   015    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       7433
 10 Spin_Retry_Count        0x0033   253   253   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   253   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       31
187 Unknown_Attribute       0x0032   098   098   000    Old_age   Always       -       3
190 Temperature_Celsius     0x0022   088   088   000    Old_age   Always       -       50
194 Temperature_Celsius     0x0022   088   088   000    Old_age   Always       -       50
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       109287
196 Reallocated_Event_Count 0x0032   253   253   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   253   253   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   253   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x000a   253   253   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   253   253   000    Old_age   Always       -       0
202 TA_Increase_Count       0x0032   253   253   000    Old_age   Always       -       0

Fusselbär · 26 Oktober 2007

Benutzername

Hallo atzplzw,

soweit ich das in dem geposteten Log sehe,
kann die Festplatte zwar SMART, aber SMART
ist nicht eingeschaltet.

Möglicherweise ist ja SMART im BIOS
deaktiviert.
Es gibt von Samsung auch ein Festplatten-Tool
speziell für Samsung Platten.
Muss aber unter Microsoft Dos laufen.
(Mit Dos Diskette booten und auf CD-ROM wechseln)

Übrigens hatten meine verreckten Samsung
Platten die schlechte Angewohnheit ganz
plötzlich richtig zu verrecken,
mehr als "klack, klack, klickerdiklack"
haben die dann jeweils nicht mehr gemacht.
Die Festplattentests zeigten zuvor
keine Auffälligkeiten.
Die 160 GB Platten scheinen aber die schlimmste
Samsung Serie zu sein, den die älteren 80 GB Platten haben
die 160 GB Platten locker überlebt.

50°C finde ich für 160 GB Samsung
Platten aber etwas zu heiß, die sollten eigentlich
bei Gehäuselüftung irgendwas zwischen
so ungefähr 30°C und 40°C haben
nach einigen Stunden oder Tagen
laufendem Betrieb.
(Meine Samsung Systemplatte hat gerade mal 30°C
und auf der wird seit mehr als 13 Stunden compilert,
wegen einem großem Portugrade für FreeBSD 7)

Außerdem kann man die Samsung Platten in einen
DMA Modus schalten, der für fehlerfreie Datenübertragung
oft zu hoch ist, eventuell hilft da ein runterschalten
auf U-DMA 100.
Das U-DMA 100 überprüft und stellt man mit dem
Microsoft Dos Tool von Samsung intern in der
Festplatte ein.
(Gibt es auf der Samsung Festplatten Webseite)

Gruß, Fusselbär

Festplatte kaputt?

atzplzw

Active Member

dettus

Bicycle User

Elwood

Naiver Mutmaßlicher

Flex6

Well-Known Member

Yamagi

Possessed With Psi Powers

Endorphine

Well-Known Member

Ne0n

professional newbie

atzplzw

Active Member

Endorphine

Well-Known Member

atzplzw

Active Member

Fusselbär

Makefile Voyeur

Wir schützen deine Privatsphäre