MemTest86 - EIN Fehler - Muss man sich Gedanken machen?

@mr44er Danke für dein Input :) Das wird ein schönes Wochenende -.-"
@Yamagi Das hatte ich schon probiert, ohne wirklichen Erfolg, aber auch dir danke für den Input.

Irgendwie bin ich und das Thema Arbeitsspeicher verflucht
 
Wei, also irgendetwas ist da echt merkwürdig.

Ich habe jetzt über eine Woche memtest86 laufen lassen, kein einziger Fehler, gestern das System normal gestartet und heute morgen wurde ich wieder mit dem gleichen Fehler begrüßt:
Code:
Sep  6 07:32:15 storage kernel: MCA: Bank 17, Status 0x9c2041000000011b
Sep  6 07:32:15 storage kernel: MCA: Global Cap 0x000000000000011c, Status 0x0000000000000000
Sep  6 07:32:15 storage kernel: MCA: Vendor "AuthenticAMD", ID 0xa20f12, APIC ID 0
Sep  6 07:32:15 storage kernel: MCA: CPU 0 COR EN GCACHE LG RD error
Sep  6 07:32:15 storage kernel: MCA: Address 0x4000003d087c980
Sep  6 07:32:15 storage kernel: MCA: Misc 0xd01b0fff01000000

Da steckt echt der Wurm drin :mad:
 

Könnte auch ein kaputter Cache der CPU sein, die Meldungen waren ja exakt gleich wie vom 9. August.
Hast du eine Test-CPU die auch auf den Sockel passt?
 
Leider nein und das fiese ist, dass das Problem so sporadisch auftritt und ich es nicht mal provozieren kann.

Werde als nächstes mal die CPU neu einsetzten, das BIOS nochmal aktualisieren/zurücksetzten und die Position der RAM-Riegel tauschen.
Wenn es an einem der Riegel liegen sollte, müsste sich die Meldung ändern.

Danach wird es wohl auf neue Hardware hinauslaufen, hab langsam keine Lust mehr :(
 
Gibts im BIOS die Option L3 oder L2-Cache zu deaktivieren? Wenn ja, könntest du eventuell damit noch ne Weile testen, auch wenn das ein wenig zugeknallte Handbremse bedeutet.

Die CPU gibts für ~90€ in der Bucht, bzw. ein passendes Board von z.B. Asus für ~50€. Wäre bei genügend Schmerzgrenze noch eine Option, damit man mehr Tauschmöglichkeiten hat.
 
Glaube nicht, zumindest habe ich keine Option in der Art gefunden, oder der Name ist so merkwürdig das ich es übersehen habe :D
 
Jetzt hatte ich ein paar Monate ruhe und ratet mal welche schöne Meldung mir heute der "daily security run output" cron präsentierte?
Merkwürdig ist nur, das ich nichts dazu im console.log (das ich aktiviert habe) finde, beim letzten mal konnte ich so wenigstens die Uhrzeit wissen.
Code:
MCA: Bank 18, Status 0x9c2041000000011b
MCA: Global Cap 0x000000000000011c, Status 0x0000000000000000
MCA: Vendor "AuthenticAMD", ID 0xa20f12, APIC ID 0
MCA: CPU 0 COR EN GCACHE LG RD error
MCA: Address 0x4000003d087c980
MCA: Misc 0xd01b0fff01000000
MCA: Bank 18, Status 0x9c2041000000011b
MCA: Global Cap 0x000000000000011c, Status 0x0000000000000000
MCA: Vendor "AuthenticAMD", ID 0xa20f12, APIC ID 0
MCA: CPU 0 COR EN GCACHE LG RD error
MCA: Address 0x4000003d087c980
MCA: Misc 0xd01b0fff01000000

Achja und statt Bank 17 ist es nun Bank 18.

Ist echt zum verrückt werden :grumble: und kaufe jetzt "einfach" komplett neue Hardware.

Auch wenn das etwas OT ist:
Was sagt Ihr zu folgenden Komponenten?
Die Kiste muss nichts machen außer paar TB an Daten (RAID10 über 4x HDD) im Netzwerk zur Verfügung stellen/annehmen:
ASRock B850M-X
AMD Ryzen 3 PRO 8300G, 1C+3c/8T, 3.40-4.90GHz oder AMD Ryzen 5 7600, 6C/12T, 3.80-5.10GHz

Beim RAM bin ich mir noch etwas unsicher (tendiere zu 2x 16GB):
2x Micron RDIMM 16GB, DDR5-5600, CL45-45-45, reg ECC
oder
1x Micron RDIMM 32GB, DDR5-5600, CL46-45-45, reg ECC
 
Zuletzt bearbeitet:
eine ähnliche Anforderung hatte ich letzten Mai (2024) und hab mir das damals günstigste ASUS Board mit dem günstigsten Ryzen5 4500 (ohne Grafik, da ich noch Grafikkarten hatte) und 16 GB RAM (2x8) geholt;

ASUS Prime B450M-A II, (4 RAM Slots, 6x SATA onboard) damals 55,-
Ryzen5 4500, damals 70,-
Corsair Vengeance LPX 16GB (2x8) 3200, damals 44,-

läuft seitdem nahezu 24x7, ohne Probleme

Das Board gibts noch, aktuell ca 67€;
CPU gibts auch noch, aktuell ca 62€ (sogar billiger geworden)

ein RAM Kit 2x32GB (würde heute 64GB nehmen statt 16) kostet aktuell ca. 108,-
 
Spricht nichts dagegen (aber sei dir klar darüber, dass on-die-ECC kein echtes ECC ist). Bei der CPU würde ich auch eher zu der 8000er Reihe tendieren, einfach weil sie neuer ist.
Die NPU brauchst du als Datenhalde eher nicht, also einen 8300er oder 8500er. :)

Bildschirmfoto zu 2025-03-07 11-54-31.webp
 
Der Riegel sollte aber, sofern ich das richtig verstehe, ECC und On-Die ECC haben: https://www.kingston.com/datasheets/KSM56E46BS8KM-16HA.pdf

Code:
Description:
Kingston's KSM56E46BS8KM-16HA is a 2G x 72-bit (16GB)
DDR5-5600 CL46 SDRAM (Synchronous DRAM), 1Rx8, ECC,
memory module, based on ten 2G x 8-bit FBGA components.

Features:
...
* On-Die ECC
• x72 ECC (x36, 2 independent I/O sub channels)
...

Bezüglich der CPU:
Da bin ich mir noch nicht sicher, die kleineren haben weniger PCIe-Lanes und die mit mehr, kosten halt mehr.
Muss da noch mal etwas genauer schauen, hab aktuell eine PCIe3.0 x8 (Mellanox ConnectX-3 QSFP+) und eine Broadcom HBA (glaube PCIe2.0 x4) Karte drin.
 
Ich auch, sollte aber meiner Meinung nach ECC sein (64bit + 8bit für ECC).
Alles nur weil ich ECC haben möchte :D

Edit:
Vielleicht geh ich auch einfach eine Generation zurück auf DDR4, da ist die Welt noch etwas einfacher.
Ich schau heute Abend mal, was da so an Komponenten verfügbar ist und was das im Vergleich kostet.
 
was da so an Komponenten verfügbar ist und was das im Vergleich kostet
Alles ist verfügbar, nur GPUs derzeit nicht. :D

Alles nur weil ich ECC haben möchte
Vielleicht kann man mittlerweile gebrauchte gen2 single socket Epyc Bundles in bezahlbar abgreifen, da hast du auf jeden Fall echtes ECC und Lanes satt.

Edit:
Vielleicht wäre es abgesehen vom Preis nicht sooo verkehrt, doch nochmal auf AM4 zu gehen. Es hätte den Vorteil, dass du alle deine Komponenten ordentlich untereinander durchtesten kannst. Am Ende dann die heilen und besten Komponenten zusammenstecken oder so.
 
Jetzt hatte ich ein paar Monate ruhe und ratet mal welche schöne Meldung mir heute der "daily security run output" cron präsentierte?
Da nochmal drüber nachgedacht..wir hatten die kalte Jahreszeit und jetzt wieder ein paar Grad wärmer. Ich betreibe eine Vega so ziemlich am Limit und die ist letzte Woche nach einer langen Laufzeit auch wegen einem Grad zuviel wieder abgeschmiert.
Hattest du damals die CPU reseatet? Also mit allem Brimborium, den Sockel mal durchgepustet, alte Paste abwischen und wieder alles frisch drauf?
Denke da speziell an einen Wackelkontakt oder Haarriß irgendwie, irgendwo.
 
Jup, hatte die gesamte Kiste auseinandergenommen und sauber gemacht.
Temperaturen sind soweit auch im grünen - die Werte die ich auslesen kann, sind alle zwischen 25°C und 40°C (Chipsatz ist wie immer am wärmsten).
 
und die Position der RAM-Riegel tauschen.
Wenn es an einem der Riegel liegen sollte, müsste sich die Meldung ändern.
Jetzt hatte ich ein paar Monate ruhe und ratet mal welche schöne Meldung mir heute der "daily security run output" cron präsentierte?

Achja und statt Bank 17 ist es nun Bank 18.

Ja, dann ist doch jetzt eigentlich klar welcher Chip kaputt ist...
 
Zurück
Oben