MCA: internal parity error

Sickboy

Müßiggänger
Hi,

bei meiner Desktop-Maschine mit FreeBSD 10-RELEASE-p1 (amd64) wird in letzter Zeit unregelmäßig folgender Fehler geworfen:

Code:
MCA: Bank 0, Status 0x90000040000f0005
MCA: Global Cap 0x0000000000000c09, Status 0x0000000000000000
MCA: Vendor "GenuineIntel", ID 0x306c3, APIC ID 6
MCA: CPU 3 COR (1) internal parity error

Im Rechner werkelt ein Intel Core i5 4670K (nicht übertaktet) auf einem Intel DQ87PG mit non-ECC-RAM von Kingston. Den Boxed-Lüfter hatte ich irgendwann gegen einen von „be quiet!“ ersetzt.

Soweit ich den Fehler verstanden habe, wurde „internal parity error“ erkannt und behoben. Handelt es sich dabei um einen Defekt an der CPU oder ist das ein Problem mit FreeBSD 10 (unter 9.2 trat er damals nicht auf)? Irgendwelche Hinweise/Empfehlungen eurerseits?

Edit: Rechtschreibung
 
Zuletzt bearbeitet:
Frag mal lieber auf der Mailingliste wie zuverlässig so eine CPU-Hardware-Diagnose mit MCA auf FreeBSD läuft. Der Sinn von MCA ist offenbar, Hardware-Schäden an der CPU zu erkennen.
 
Leider sehr zuverlässig. FreeBSD gibt nur den Inhalt des Registers durch. Die Ausgabe kann man mit sysutils/mcelog dekodieren:
Code:
HARDWARE ERROR. This is *NOT* a software problem!
Please contact your hardware vendor
CPU 3 BANK 0 
MCG status:
MCi status:
Error enabled
MCA: Unknown Error 5
STATUS 90000040000f0005 MCGSTATUS 0
MCGCAP c09 APICID 6 SOCKETID 0 
CPUID Vendor Intel Family 6 Model 60
Kurz gesagt, deine CPU oder vielleicht auch das Board nähern sich ihrem Ende.
 
Ist das Auftreten eines „internal parity error“ bereits ein hinreichender Grund für eine Reklamation? Meiner Rechtsauffassung nach habe ich für ein einwandfreies Produkt bezahlt. Die Frage ist, ob Händler/Hersteller diese Auffassung teilen.
 
Ich würd's auf jeden Fall reklamieren! Bzw. erstmal einfach Kontakt aufnehmen und den Fehler so gut wie möglich beschreiben. "Leider" kommt es ja zu keinen konkreten Ausfallerscheinungen...

Einfach mal anfragen, einige Firmen sind da ziemlich kulant.
 
Ich habe mal eine E-Mail an Intel geschrieben, mal schauen, was bei rumkommt. Der Händler(Mindfactory) ist ja eher dafür bekannt, bei Reklamationen etwas unfreundlich zu sein.

Edit: Yamagi hat mal wieder Recht. Der Fehler tritt jetzt gehäuft und regelmäßig auf. Das nimmt kein gutes Ende.
 
Zuletzt bearbeitet:
Wahrscheinlich musst du dich trotzdem an den Händler wenden. Je eher desto besser, bevor irgendwelche Fristen ablaufen.
 
Ich teste mal die einzelnen RAM-Riegel durch. Bezieht sich „BANK 0“ in der mcelog-Ausgabe auf den Speicherriegel?
 
Werfe mal sysutils/dmidecode an. Es gibt dir in seiner langen Ausgabe aus, was BANK0 ist. Es kann der CPU-Cache sein, aber auch der RAM.
 
sysutils/dmidecode macht keine Angaben zu „BANK“ oder „BANK 0“. Die mcelog-Ausgaben unterscheiden sich auch nicht großartig von denen, die Yamagi bereits gepostet hat. Die Fehlermeldungen der letzten sieben Tage:
Code:
HARDWARE ERROR. This is *NOT* a software problem!
Please contact your hardware vendor
MCE 0
CPU 3 BANK 0 TSC 293d874a9cf6e [at 2993 Mhz 2 days 19:19:50 uptime (unreliable)]
MCG status:
MCi status:
Error enabled
MCA: Unknown Error 5
STATUS 90000040000f0005 MCGSTATUS 0
MCGCAP c09 APICID 6 SOCKETID 0
CPUID Vendor Intel Family 6 Model 60
HARDWARE ERROR. This is *NOT* a software problem!
Please contact your hardware vendor
MCE 1
CPU 3 BANK 0 TSC 4771738ad9582 [at 2993 Mhz 4 days 20:38:27 uptime (unreliable)]
MCG status:
MCi status:
Error enabled
MCA: Unknown Error 5
STATUS 90000040000f0005 MCGSTATUS 0
MCGCAP c09 APICID 6 SOCKETID 0
CPUID Vendor Intel Family 6 Model 60
HARDWARE ERROR. This is *NOT* a software problem!
Please contact your hardware vendor
MCE 2
CPU 0 BANK 0 TSC 58501df4ebdb8 [at 2993 Mhz 6 days 0:10:59 uptime (unreliable)]
MCG status:
MCi status:
Error enabled
MCA: Unknown Error 5
STATUS 90000040000f0005 MCGSTATUS 0
MCGCAP c09 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 60
HARDWARE ERROR. This is *NOT* a software problem!
Please contact your hardware vendor
MCE 3
CPU 2 BANK 0 TSC 58501f2403210 [at 2993 Mhz 6 days 0:10:59 uptime (unreliable)]
MCG status:
MCi status:
Error enabled
MCA: Unknown Error 5
STATUS 90000040000f0005 MCGSTATUS 0
MCGCAP c09 APICID 4 SOCKETID 0
CPUID Vendor Intel Family 6 Model 60
HARDWARE ERROR. This is *NOT* a software problem!
Please contact your hardware vendor
MCE 4
CPU 0 BANK 0 TSC 5850295ff3334 [at 2993 Mhz 6 days 0:11:0 uptime (unreliable)]
MCG status:
MCi status:
Error enabled
MCA: Unknown Error 5
STATUS 90000040000f0005 MCGSTATUS 0
MCGCAP c09 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 60
HARDWARE ERROR. This is *NOT* a software problem!
Please contact your hardware vendor
MCE 5
CPU 1 BANK 0 TSC 5858bb7111c78 [at 2993 Mhz 6 days 0:14:17 uptime (unreliable)]
MCG status:
MCi status:
Error enabled
MCA: Unknown Error 5
STATUS 90000040000f0005 MCGSTATUS 0
MCGCAP c09 APICID 2 SOCKETID 0
CPUID Vendor Intel Family 6 Model 60
HARDWARE ERROR. This is *NOT* a software problem!
Please contact your hardware vendor
MCE 6
CPU 3 BANK 0 TSC 58b6d9aceb3e2 [at 2993 Mhz 6 days 0:50:18 uptime (unreliable)]
MCG status:
MCi status:
Error enabled
MCA: Unknown Error 5
STATUS 90000040000f0005 MCGSTATUS 0
MCGCAP c09 APICID 6 SOCKETID 0
CPUID Vendor Intel Family 6 Model 60
HARDWARE ERROR. This is *NOT* a software problem!
Please contact your hardware vendor
MCE 7
CPU 2 BANK 0 TSC 58c071534bcc4 [at 2993 Mhz 6 days 0:53:58 uptime (unreliable)]
MCG status:
MCi status:
Error enabled
MCA: Unknown Error 5
STATUS 90000040000f0005 MCGSTATUS 0
MCGCAP c09 APICID 4 SOCKETID 0
CPUID Vendor Intel Family 6 Model 60
HARDWARE ERROR. This is *NOT* a software problem!
Please contact your hardware vendor
MCE 8
CPU 2 BANK 0 TSC 58cb54f5a4e08 [at 2993 Mhz 6 days 0:58:8 uptime (unreliable)]
MCG status:
MCi status:
Error enabled
MCA: Unknown Error 5
STATUS 90000040000f0005 MCGSTATUS 0
MCGCAP c09 APICID 4 SOCKETID 0
CPUID Vendor Intel Family 6 Model 60
 
Seltsam. Eigentlich müsstest du in der Ausgabe von dmidecode sowas haben:
Code:
Handle 0x005E, DMI type 17, 28 bytes
Memory Device
        Array Handle: 0x005F
        Error Information Handle: 0x0062
        Total Width: 64 bits
        Data Width: 64 bits
        Size: 4096 MB
        Form Factor: DIMM
        Set: None
        Locator: ChannelA-DIMM0
        Bank Locator: BANK 0
        Type: DDR3
        Type Detail: Synchronous
        Speed: 1333 MHz
        Manufacturer: Kingston
        Serial Number: 50120AC6
        Asset Tag: 9876543210
        Part Number: 9905458-026.A00LF 
        Rank: 2
Bei mir wäre "BANK 0" also ein Kingston 4GB DDR3-1333 Modul. Wobei das nicht zwingend korrekt sein muss. Es gibt durchaus Boards, wo die Softwareangaben nicht mit der Beschriftung auf dem Board übereinstimmen. An dieser Stelle auch noch mal eine Frage: Ist das überhaupt ECC-RAM? Denn ohne ECC wird es kaum das Modul sein, solange es nicht totalen Müll zurückgibt. Die CPU kann ohne ECC natürlich nicht erkennen, ob Daten beschädigt wurden.
 
Wie eingangs im OP geschrieben handelt es sich um non-ECC-RAM (4x 8 GB Kingston ValueRAM DDR3-1600 DIMM).

dmidecode-Auszug:
Code:
Handle 0x003E, DMI type 7, 19 bytes
Cache Information
Socket Designation: CPU Internal L2
Configuration: Enabled, Not Socketed, Level 2
Operational Mode: Write Back
Location: Internal
Installed Size: 1024 kB
Maximum Size: 1024 kB
Supported SRAM Types:
Unknown
Installed SRAM Type: Unknown
Speed: Unknown
Error Correction Type: Single-bit ECC
System Type: Unified
Associativity: 8-way Set-associative

Handle 0x003F, DMI type 7, 19 bytes
Cache Information
Socket Designation: CPU Internal L1
Configuration: Enabled, Not Socketed, Level 1
Operational Mode: Write Back
Location: Internal
Installed Size: 256 kB
Maximum Size: 256 kB
Supported SRAM Types:
Unknown
Installed SRAM Type: Unknown
Speed: Unknown
Error Correction Type: Single-bit ECC
System Type: Other
Associativity: 8-way Set-associative

Handle 0x0040, DMI type 7, 19 bytes
Cache Information
Socket Designation: CPU Internal L3
Configuration: Enabled, Not Socketed, Level 3
Operational Mode: Write Back
Location: Internal
Installed Size: 6144 kB
Maximum Size: 6144 kB
Supported SRAM Types:
Unknown
Installed SRAM Type: Unknown
Speed: Unknown
Error Correction Type: Single-bit ECC
System Type: Unified
Associativity: 12-way Set-associative

Handle 0x0041, DMI type 16, 23 bytes
Physical Memory Array
Location: System Board Or Motherboard
Use: System Memory
Error Correction Type: None
Maximum Capacity: 32 GB
Error Information Handle: Not Provided
Number Of Devices: 4

Handle 0x0042, DMI type 17, 34 bytes
Memory Device
Array Handle: 0x0041
Error Information Handle: Not Provided
Total Width: 64 bits
Data Width: 64 bits
Size: 8192 MB
Form Factor: DIMM
Set: None
Locator: DIMM3
Bank Locator: CHANNEL A DIMM0
Type: DDR3
Type Detail: Synchronous
Speed: 1600 MHz
Manufacturer: Kingston
Serial Number: 15422012
Asset Tag: 9876543210
Part Number: 99U5471-037.A00LF
Rank: 2
Configured Clock Speed: 1600 MHz

Handle 0x0043, DMI type 20, 35 bytes
Memory Device Mapped Address
Starting Address: 0x00000000000
Ending Address: 0x001FFFFFFFF
Range Size: 8 GB
Physical Device Handle: 0x0042
Memory Array Mapped Address Handle: 0x004A
Partition Row Position: Unknown
Interleave Position: Unknown
Interleaved Data Depth: Unknown

Handle 0x0044, DMI type 17, 34 bytes
Memory Device
Array Handle: 0x0041
Error Information Handle: Not Provided
Total Width: 64 bits
Data Width: 64 bits
Size: 8192 MB
Form Factor: DIMM
Set: None
Locator: DIMM1
Bank Locator: CHANNEL A DIMM1
Type: DDR3
Type Detail: Synchronous
Speed: 1600 MHz
Manufacturer: Kingston
Serial Number: 15421512
Asset Tag: 9876543210
Part Number: 99U5471-037.A00LF
Rank: 2
Configured Clock Speed: 1600 MHz

Handle 0x0045, DMI type 20, 35 bytes
Memory Device Mapped Address
Starting Address: 0x00400000000
Ending Address: 0x005FFFFFFFF
Range Size: 8 GB
Physical Device Handle: 0x0044
Memory Array Mapped Address Handle: 0x004A
Partition Row Position: Unknown
Interleave Position: Unknown
Interleaved Data Depth: Unknown

Handle 0x0046, DMI type 17, 34 bytes
Memory Device
Array Handle: 0x0041
Error Information Handle: Not Provided
Total Width: 64 bits
Data Width: 64 bits
Size: 8192 MB
Form Factor: DIMM
Set: None
Locator: DIMM4
Bank Locator: CHANNEL B DIMM0
Type: DDR3
Type Detail: Synchronous
Speed: 1600 MHz
Manufacturer: Kingston
Serial Number: 10500723
Asset Tag: 9876543210
Part Number: 99U5471-037.A00LF
Rank: 2
Configured Clock Speed: 1600 MHz

Handle 0x0047, DMI type 20, 35 bytes
Memory Device Mapped Address
Starting Address: 0x00200000000
Ending Address: 0x003FFFFFFFF
Range Size: 8 GB
Physical Device Handle: 0x0046
Memory Array Mapped Address Handle: 0x004A
Partition Row Position: Unknown
Interleave Position: Unknown
Interleaved Data Depth: Unknown

Handle 0x0048, DMI type 17, 34 bytes
Memory Device
Array Handle: 0x0041
Error Information Handle: Not Provided
Total Width: 64 bits
Data Width: 64 bits
Size: 8192 MB
Form Factor: DIMM
Set: None
Locator: DIMM2
Bank Locator: CHANNEL B DIMM1
Type: DDR3
Type Detail: Synchronous
Speed: 1600 MHz
Manufacturer: Kingston
Serial Number: 15422412
Asset Tag: 9876543210
Part Number: 99U5471-037.A00LF
Rank: 2
Configured Clock Speed: 1600 MHz

Handle 0x0049, DMI type 20, 35 bytes
Memory Device Mapped Address
Starting Address: 0x00600000000
Ending Address: 0x007FFFFFFFF
Range Size: 8 GB
Physical Device Handle: 0x0048
Memory Array Mapped Address Handle: 0x004A
Partition Row Position: Unknown
Interleave Position: Unknown
Interleaved Data Depth: Unknown

Handle 0x004A, DMI type 19, 31 bytes
Memory Array Mapped Address
Starting Address: 0x00000000000
Ending Address: 0x007FFFFFFFF
Range Size: 32 GB
Physical Array Handle: 0x0041
Partition Width: 4
 
Nachdem ich ein BIOS-Update durchgeführt und danach den Takt auf 3,4 GHz gesetzt habe (ging vor dem Update nur bis 3,0 GHz), treten die „internal parity errors“ nicht mehr auf. Ich glaube fast, dass es an einer zu niedrigen Prozessorspannung lag.
 
Zurück
Oben