nvme problem

mark05

Well-Known Member
hi

ich habe heute via daily status die mail bekommen das ich ein problem mit meiner evo 850 nvme habe.

root@james:/data0/share/plex # nvmecontrol logpage -p 0x01 nvme0
Error Information Log
=====================
Entry 01
=========
Error count: 1
Submission queue ID: 4
Command ID: 112
Status:
Phase tag: 0
Status code: 129
Status code type: 2
More: 1
DNR: 0
Error location: 0
LBA: 101112256
Namespace ID: 1
Vendor specific info: 0
Transport type: 0
Command specific info:0
Transport specific: 0

smartctl -a /dev/nvme0

Error Information (NVMe Log 0x01, max 64 entries)
Num ErrCount SQId CmdId Status PELoc LBA NSID VS
0 1 4 0x0070 0x4502 0x000 101112256 1 -




kann mir jemand helfen , wie ich den fehler werten soll und ob ich ggf. i irgend einer form handeln muss.

die nvme ist auch gerade 1 Jahr ca. alt ( Power On Hours: 7.222 ) rund 300 Tage.

holger
 
Es würde vielleicht helfen wenn Du die komplette smartctl Ausgabe postest. Bei mir sieht das so aus:

Code:
=== START OF INFORMATION SECTION ===
Model Number:                       ADATA SX8200PNP
Serial Number:                      2J3320118308
Firmware Version:                   S0118C
PCI Vendor/Subsystem ID:            0x1cc1
IEEE OUI Identifier:                0x000000
Controller ID:                      1
Number of Namespaces:               1
Namespace 1 Size/Capacity:          1,024,209,543,168 [1.02 TB]
Namespace 1 Formatted LBA Size:     512
Local Time is:                      Sat Jun  6 10:28:43 2020 CEST
Firmware Updates (0x14):            2 Slots, no Reset required
Optional Admin Commands (0x0016):   Format Frmw_DL Self_Test
Optional NVM Commands (0x005f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Maximum Data Transfer Size:         64 Pages
Warning  Comp. Temp. Threshold:     75 Celsius
Critical Comp. Temp. Threshold:     80 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     9.00W       -        -    0  0  0  0        0       0
 1 +     4.60W       -        -    1  1  1  1        0       0
 2 +     3.80W       -        -    2  2  2  2        0       0
 3 -   0.0450W       -        -    3  3  3  3     2000    2000
 4 -   0.0040W       -        -    4  4  4  4     6000    8000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        35 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    7%
Data Units Read:                    8,659,686 [4.43 TB]
Data Units Written:                 19,008,219 [9.73 TB]
Host Read Commands:                 102,170,893
Host Write Commands:                480,686,682
Controller Busy Time:               8,090
Power Cycles:                       406
Power On Hours:                     4,752
Unsafe Shutdowns:                   89
Media and Data Integrity Errors:    0
Error Information Log Entries:      0
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Thermal Temp. 1 Transition Count:   2
Thermal Temp. 1 Total Time:         57

Error Information (NVMe Log 0x01, max 256 entries)
No Errors Logged
 
root@james:/data0/share/plex # smartctl -a /dev/nvme0
smartctl 7.1 2019-12-30 r5022 [FreeBSD 12.1-RELEASE-p3 amd64] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number: Samsung SSD 970 EVO 250GB
Serial Number: S465NX0M110896A
Firmware Version: 2B2QEXE7
PCI Vendor/Subsystem ID: 0x144d
IEEE OUI Identifier: 0x002538
Total NVM Capacity: 250.059.350.016 [250 GB]
Unallocated NVM Capacity: 0
Controller ID: 4
Number of Namespaces: 1
Namespace 1 Size/Capacity: 250.059.350.016 [250 GB]
Namespace 1 Utilization: 49.852.084.224 [49,8 GB]
Namespace 1 Formatted LBA Size: 512
Namespace 1 IEEE EUI-64: 002538 5191b0d688
Local Time is: Sat Jun 6 11:02:06 2020 CEST
Firmware Updates (0x16): 3 Slots, no Reset required
Optional Admin Commands (0x0017): Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005f): Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Maximum Data Transfer Size: 512 Pages
Warning Comp. Temp. Threshold: 84 Celsius
Critical Comp. Temp. Threshold: 84 Celsius

Supported Power States
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
0 + 6.20W - - 0 0 0 0 0 0
1 + 4.30W - - 1 1 1 1 0 0
2 + 2.10W - - 2 2 2 2 0 0
3 - 0.0400W - - 3 3 3 3 210 1200
4 - 0.0050W - - 4 4 4 4 2000 8000

Supported LBA Sizes (NSID 0x1)
Id Fmt Data Metadt Rel_Perf
0 + 512 0 0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x00
Temperature: 54 Celsius
Available Spare: 100%
Available Spare Threshold: 10%
Percentage Used: 0%
Data Units Read: 2.273.062 [1,16 TB]
Data Units Written: 9.649.019 [4,94 TB]
Host Read Commands: 71.081.623
Host Write Commands: 399.421.801
Controller Busy Time: 778
Power Cycles: 15
Power On Hours: 7.223
Unsafe Shutdowns: 7
Media and Data Integrity Errors: 1
Error Information Log Entries: 1
Warning Comp. Temperature Time: 0
Critical Comp. Temperature Time: 0
Temperature Sensor 1: 54 Celsius
Temperature Sensor 2: 65 Celsius

Error Information (NVMe Log 0x01, max 64 entries)
Num ErrCount SQId CmdId Status PELoc LBA NSID VS
0 1 4 0x0070 0x4502 0x000 101112256 1 -


holger
 
Schwierig zusagen, aber da noch innerhalb der Garantie würd ich das Ding einfach vom Händler tauschen lassen.
 
Normalerweise hätte ich gesagt dann mach mal ein Scrub. Aber wenn das Dein ARC Cache ist, bringt Dir das wahrscheinlich nichts.

Ich denke Dein Fehler kann auch durch externe Einflüsse passieren, etwa einer der Unsafe Shutdowns oder eine Spannungsspitze. Das heißt nicht die Platte ist kaputt und als Händler würde ich die ohne weitere Symptome nicht zurück nehmen.
 
Code:
Media and Data Integrity Errors: 1
Error Information Log Entries: 1

Ich vermute mal, dass das auch wie bei Magnetplatten mal vorkommen kann, wenn ein Zugriffsversuch schiefgeht und er wiederholt wird (bzw. wenn der samsung-interne CRC-Check failed). Normalerweise auch nicht schlimm, wenn der Counter nicht in kurzer Zeit durch die Decke geht. Bei SATA prüft man da die Steckverbindung, hier könnte man mal den Slot auspusten.
 
Zurück
Oben