/var/log/messages und MCA

bsd4me

Well-Known Member
ich habe gerade folgendes beobachtet in /var/log/messages

Aug 10 13:36:36 SERVER kernel: MCA: Address 0x81b1bdb70
Aug 10 13:36:36 SERVER kernel: MCA: Misc 0xe01c0fda01000000
Aug 10 13:41:36 SERVER kernel: MCA: Bank 4, Status 0xdc63400002080813
Aug 10 13:41:36 SERVER kernel: MCA: Global Cap 0x0000000000000107, Status 0x0000000000000000
Aug 10 13:41:36 SERVER kernel: MCA: Vendor "AuthenticAMD", ID 0x600f20, APIC ID 16
Aug 10 13:41:36 SERVER kernel: MCA: CPU 0 COR EN OVER BUSLG Source RD Memory
Aug 10 13:41:36 SERVER kernel: MCA: Address 0x81b1bdb70
Aug 10 13:41:36 SERVER kernel: MCA: Misc 0xe01c0fdc01000000
Aug 10 14:21:36 SERVER kernel: MCA: Bank 4, Status 0x9c63400002080813
Aug 10 14:21:36 SERVER kernel: MCA: Global Cap 0x0000000000000107, Status 0x0000000000000000
Aug 10 14:21:36 SERVER kernel: MCA: Vendor "AuthenticAMD", ID 0x600f20, APIC ID 16
Aug 10 14:21:36 SERVER kernel: MCA: CPU 0 COR EN BUSLG Source RD Memory
Aug 10 14:21:36 SERVER kernel: MCA: Address 0x81b1bdb70
Aug 10 14:21:36 SERVER kernel: MCA: Misc 0xe01c0fdd01000000
Aug 10 14:41:36 SERVER kernel: MCA: Bank 4, Status 0x9c63400002080813
Aug 10 14:41:36 SERVER kernel: MCA: Global Cap 0x0000000000000107, Status 0x0000000000000000
Aug 10 14:41:36 SERVER kernel: MCA: Vendor "AuthenticAMD", ID 0x600f20, APIC ID 16
Aug 10 14:41:36 SERVER kernel: MCA: CPU 0 COR EN BUSLG Source RD Memory
Aug 10 14:41:36 SERVER kernel: MCA: Address 0x81b1bdb70
Aug 10 14:41:36 SERVER kernel: MCA: Misc 0xe01c0fde01000000

was könnte das heissen?
 

Yamagi

Possessed With Psi Powers
Teammitglied
Das ist ein Hardwarefehler, der von der Hardware per 'Machine Check Exception' an das Betriebssystem kommuniziert wird. Man kann die mit sysutils/mcelog dekodieren. Dadurch lässt sich herausfinden, was genau das Problem. Meist, aber nicht immer, sind es verschiedene Formen von per ECC gefundenen und korrigierten Speicherfehlern.
 

bsd4me

Well-Known Member
Danke Dir @Yamagi, kann man evtl. aus folgendem Log mehr herausfinden? Ich denke eher an ein CPU Problem:

# mcelog | more
mcelog: Unknown CPU type vendor 2 family 21 model 2
mcelog: Unknown CPU type vendor 2 family 21 model 2
...
MCE 0
CPU 0 BANK 4 TSC 28d8a631d4cd
MISC e01c0f0101000000 ADDR 81b1bdb70
TIME 1660191313 Thu Aug 11 06:15:13 2022
STATUS 9c63400002080813 MCGSTATUS 0
MCGCAP 107 APICID 10 SOCKETID 0
CPUID Vendor AMD Family 21 Model 2 Step 0
Hardware event. This is not a software error.
MCE 1
CPU 0 BANK 4 TSC 29b1381a63d5
MISC e01c0f0201000000 ADDR 81b1bdb70
TIME 1660191313 Thu Aug 11 06:15:13 2022
STATUS 9c63400002080813 MCGSTATUS 0
MCGCAP 107 APICID 10 SOCKETID 0
CPUID Vendor AMD Family 21 Model 2 Step 0

VG Norbert
 

bsd4me

Well-Known Member
ist wohl doch ein Speicherfehler... Das IPMI Log zeigt mir in den Event Logs:

Correctable Memory ECC @ DIMM2A(CPU1) - Asserted

Ich werde neun Speicher bestellen... Wäre schade wenn der server versackt, denn ich hatte ihn gerade mit 8x18TB Platten ausgestattet und die Daten von 3 QNAP Systemen darauf kopiert - als Ablösung der 3 Systeme...

VG Norbert
 

mr44er

moderater Moderator
Teammitglied
Neuen Speicher kaufen halte ich ohne eindringlichen Test oder Verdacht (Freezes/ganze Abstürze) für übertrieben.

Correctable Memory ECC @ DIMM2A(CPU1) - Asserted

Sinn und Zweck von ECC (error correction code) ist es, umgekippte Bits wieder gerade zu treten und dass das gemacht wurde, sagt die Info. Das heißt somit nicht, dass die Module defekt sind, sondern das tun, wofür sie gedacht sind. Wie du selber sagst, hast du vorhergehend TB-weise Daten draufgeschaufelt und dabei kann das passieren, es wäre seltsam bei großer Menge (von Geräten, die selber kein ECC haben/können), wenn nicht.

Wenn da uncorrectable stünde oder das log nach einer Woche semi-idling damit zugespammt wäre, kann man sich um Ersatz/eindringlichen Test kümmern.
 

bsd4me

Well-Known Member
Hallo @mr44er, danke :-)
Klar, das stimmt mit den ECC Codes. Aber wenn es immer wieder auftritt schreit das doch danach, dass etwas nicht stimmt, oder? Was den Hauptspeicher angeht - die Module sind nicht allzu teuer, die sind in Summe viel Preswerter als eine 18TB Platte. Wenn das dann die Fehlermeldungen beseitigt, ist das sicher die beste Lösung :-)
VG Norbert
 

mr44er

moderater Moderator
Teammitglied
Ich hab natürlich keine Glaskugel oder will dir den Kauf von neuen Modulen ausreden, nur den Hinweis geben, dass sich mit neuen Modulen wahrscheinlich nichts ändert. Es sei denn, sie sind wirklich defekt. So sieht es aber bisher nicht aus.

Wenn du jetzt die Module austauschst und das log still ist, heißt das auch noch nichts, denn du müsstest die gleichen Daten nochmal kopieren um ein aussagekräftiges Bild zu bekommen.

https://www.memtest.org/ <- Fürs Gewissen ;)
 

bsd4me

Well-Known Member
:-)
da das sowieso ein Storage Server ist, werden bestimmt auch immer wieder grössere Datennmengen kopiert... Die Bioinforamtik lebt halt von dicken Speichern ;-)
 

Yamagi

Possessed With Psi Powers
Teammitglied
Correctable Memory ECC @ DIMM2A(CPU1) - Asserted
Nun wart ihr schon schneller als ich :) Nur ein Hinweis aus bitterer Erfahrung: Die Bezeichnung in der Software muss nicht zwingend der Beschriftung auf dem Board entsprechen... Tut sie das nicht, wird die Sache leider eklig, denn kann man nur "Rate das Modul" spielen, was ja durchaus aufwändiger sein kann.
 

bsd4me

Well-Known Member
Hi @Yamagi, es gibt auf dem Board nur 4 Plätze fürs RAM. Ich habe gestern eine Bestellung für 4 neue und auch grössere RAM Module in Auftrag gegeben. Laut Internet sind die Kosten dabei nicht sonderlich hoch :-) Das board ist ein Supermicro H8SCM...
 
Oben