MemTest86 - EIN Fehler - Muss man sich Gedanken machen?

gadean

Depp vom Dienst!
Hey zusammen,
was für eine Woche, von Sonntag auf Montag Nacht sind meine Backups fehlgeschlagen, zu erst dachte ich an Probleme mit den SATA-Kabeln oder Festplatten.
Nach vielem Testen stellte sich raus, das der Arbeitsspeicher defekt ist (2x Corsair Vengeance LPX schwarz DIMM Kit 64GB, DDR4-3200, CL16-20-20-38).

Meine vier Backups (mehr halte ich nicht vorrätig) waren ebenfalls defekt und ich dachte mir "Dieses mal holst du ECC-Speicher":
4x Mushkin Proline DIMM 32GB, DDR4-3200, CL22-22-22-52, ECC (MPL4E320NF32G28)

Zwei Tage später war der neue RAM da und ich musste mit erschrecken feststellen, das ein Riegel direkt hunderte Fehler bei MemTest86 zeigt.

Aktuell teste ich meinen neuen Arbeitsspeicher mit MemTest86 und während dem achten Durchlauf wurde EIN Fehler geloggt.
Run 1-7: keine Fehler
Run 8: ein Fehler in "Test 7" (Moving inversions, 32 bit pattern) - Expected: FFFFFFFE / Actual: EFFFFFFF
Run 9-14: keine Fehler
Run 15: aktuell am laufen / kein Fehler soweit

RAM-Temperatur (min/max/avg). 32C/43C/38C

Interessant ist, das der Fehler nicht durch ECC "erkannt"/"behandelt"(?) wurde.

Muss ich mir jetzt Gedanken machen? Oder bin ich paranoid?
Wie hoch ist bitte die Wahrscheinlichkeit, das mein RAM kaputt geht und von den neu bestellten, einer definitiv defekt ist und der andere ein Fehler produziert?
 
Das Problem mit memTest und ECC ist, dass MemTest dir nicht anzeigt, wenn ECC den Fehler korregiert hat. Es zeigt also nur, wenn selbst ECC versagt hat. Du könntest also in wirklichkeit 100 ECC Errors haben, davon war einer nicht Korregierbar, und der schlägt dann in memTest auf.

Soweit ich weiß gibt es Tools die besser mit ECC umgehen können, selbst fällt mir da aber auch nichts ein - EnterpriseServer haben oft entprechende Funktionalität im BIOS was dir aber wohl nichts hilft.

Eventuell mal dein System/ein Livesystem starten und dort etwas RAM intensives machen und auf korregierte ECC Errors achten? Vielleicht kannst du auch den ECC Modus auf den kleinsten stellen, oder ECC sogar ausschalten, und dann nochmal memTest starten? Letzteres hängt etwas von RAM/Mainboard/BIOS ab.
 
Uh bist du dir da sicher? Hab das Foto leider nicht mehr aber bei dem einen Riegel der direkt hunderte Fehler produzierte, stand etwas in der Art "von ECC behandelt" und "konnte nicht behandelt werden".

Das mit dem deaktivieren schau ich mir mal an, danke.
 
Ok stimmt, ich war beim offenen MemTest86+, was etwas komplet anderes als MemTest86 (OHNE +) ist. Dann kann ich dazu nicht wirklich was sagen, da ich das Tool nicht kenne. Eventuell auch mal mit MemTest86+ testen :D
 
Staub rauspusten, im BIOS checken, ob alle Werte der Module korrekt gesetzt sind/erkannt wurden. Werksreset via jumper des Boards kann bei sowas auch nicht schaden.
Teste die Riegel einzeln in möglichst vielen slots (nicht jeder slot ist für Einzelmodule geeignet) und notiere dir die Ergebnisse. Dann via Ausschlussverfahren gegentesten.

Wie hoch ist bitte die Wahrscheinlichkeit, das mein RAM kaputt geht und von den neu bestellten, einer definitiv defekt ist und der andere ein Fehler produziert?
Jedenfalls nicht 0 ;)
Slots/Bänke können natürlich auch kaputt gehen. Ein anderes Mal dann eine ungünstig liegende Staubflocke, die für ungewollte Kriechströme sorgt.
 
Die Slots wechseln ist der Plan für die heutige Nacht, mal schauen wie das Ergebnis morgen ausschaut.
Teste jetzt erst mal die Zwei, bei denen ich mir relativ sicher bin das die nicht den Fehler ausgelöst haben und danach den einzelnen, bei dem ich vermute das der eine Fehler auftrat.
 
So, nach vielen vielen weiteren Tests, mit deaktivierten ECC im BIOS/EFI, habe ich bis jetzt keine Fehler.
Die zwei Riegel, wo ich davon ausgehe das sie nicht für den einen Fehler verantwortlich waren liefen 12 mal (3 runs mit 4 loops).
Den einzelnen Riegel, bei dem ich glaube der den einen Fehler produziert hat lief ebenfalls 12 mal (3 runs mit 4 loops).

Ich versteh es einfach nicht und vor allem nicht, warum der eine Fehler auftrat ohne korrigiert zu werden, gerade dafür ist doch ECC da?
Daran sollte auch eine Staubflocke nichts ändern.
 
Naja ECC kann ja nicht beliebig viele Bitfehler korrigieren. Glaube sogar nur 1 oder 2 Bitfehler werden in 8 Byte korrigiert, der Rest eben nur erkannt.
 
Die Corsair haben ein Auto-Übertaktprofil. Beide Module wurden ab Werk damit als 'stabil' getestet, beide haben daher auch ziemlich wahrscheinlich gleiche Chips (Samsung, Nanya... etc) und das ist der Mehrpreis von 10-20€ für ein sog. Kit.
Das Übertakten nennt sich bei Intel XMP Extreme Memory Profile und bei AMD DOCP Direct Over Clock Profile.
Besagtes Profil liegt auf jedem Modul, wird vom Mainboard ausgelesen und korrekt übersetzt bzw. alle Settings sollten dann dafür korrekt und automatisch eingestellt werden. Sollten.
Ich habe auch die Corsair Vengeance LPX, verschiedene Kits mit unterschiedlichen Chips auf einem ASUS-Board, AMD-System. Anfangs hatte ich üble Probleme mit dieser Kombi, egal mit welchem Einzelkit, egal wie gesteckt, tlw. gab es nichtmal nen Post.
Anscheinend wurde das DOCP-Profil fehlerhaft ausgelesen, sodass ich nur mit einem Einzelmodul booten konnte und das war unabhängig, ob ich DOCP aktiv hatte oder nicht. Durch etwas googlen fand ich dann den Tip, ausschließlich den VCORE für den RAM manuell in kleinen Schrittchen hochzusetzen, bis Stabilität einkehrte...und siehe da...so ab 1,4V bis 1,5V funktionierte das.
Mittlerweile gab es für das Board ne gute Anzahl FW-Updates, sodass zwei 'unterschiedliche' Kits zusammen werkeln.

Daher mein Tip, das ganze Board mal zu resetten und neue FW ausprobieren.
 
FW Upgrade hatte ich Freitag Nacht gemacht und im Anschluss zurückgesetzt.
Der eine Fehler könnte also damit zusammenhängen, auch wenn es merkwürdig wäre aber wer weiß.

Danke trotzdem
 
1 Fehler ist zu viel. Lass memtest im Mehrkernbetrieb laufen um dem System beim Test einzuheizen.

Allgemein gilt Memtest kann Fehler zeigen aber nicht die Abwesenheit von Fehlern. Unter allen Bedingungen musst Du mit 0 Fehlern wegkommen.

Eventuell brauchst Du höhere Spannungen oder musst den Takt verringern.

Bei einem Laptop half es mal die 2 Riegel einfach zu tauschen, dann liefen beide ohne Probleme.
 
@Kamikaze Das ist auch meine Annahme, wollte aber weitere Meinungen haben, da es schon merkwürdig ist.

Bezüglich DOCP/EXPO:
Ich denke schon, wobei DOCP meines Wissens nach von Asus kam und mehr oder weniger das gleiche ist.
Ich nenn das Zeug einfach immer XMP, egal bei welcher Plattform :D
 
EXPO habe ich noch nicht gehört. Kennengelernt hatte ich das auch als XMP, aber nie benutzt, weil ich bis dato eher alle Bänke mit Mischmodulen von überall her ausgemaxt habe und daher auf gemeinsamen Nenner und Stabilität pochte. Wirklich gebencht und rumgespielt damit hatte ich nur, weil ich besagte Probleme hatte und es dann doch erforderte, dass ich mich damit auseinandersetze.

wollte aber weitere Meinungen haben, da es schon merkwürdig ist
Äh ja natürlich...bei RAM ist ein Fehler zuviel. :)
 
Ein einzelner Fehler, der sich nicht wiederholt - das wäre doch genau das zu erwartende Fehlerbild für die durch kosmische Strahlung verursachten Fehler (die grob geschätzt einmal im Jahr einschlagen und nicht verhinderbar sind).

ECC, wenn es denn tauglich funktioniert, sollte im Systemlog melden wenn es was korrigiert ("COR" - mit einer eher mehr als weniger kryptischen location). Es sollte auch die "UNC" melden, aber das nur noch auf der Console (und im BIOS), weil dann sofort der Checkstop nachkommt und die Maschine steht.
 
Zurück
Oben