Fehlermeldung im Supermicro Server

bsd4me

Well-Known Member
Hallo,

kann mir jemand genauer sagen, was das genau bedeutet?

Feb 18 03:49:38 PYRA kernel: MCA: Bank 4, Status 0x9c0840008b080a13
Feb 18 03:49:38 PYRA kernel: MCA: Global Cap 0x0000000000000107, Status 0x0000000000000000
Feb 18 03:49:38 PYRA kernel: MCA: Vendor "AuthenticAMD", ID 0x600f20, APIC ID 40
Feb 18 03:49:38 PYRA kernel: MCA: CPU 8 COR BUSLG Responder RD Memory
Feb 18 03:49:38 PYRA kernel: MCA: Address 0x11666e97d0
Feb 18 03:49:38 PYRA kernel: MCA: Misc 0xe01c0f0e01000000
...
Feb 21 03:49:40 PYRA kernel: MCA: Bank 4, Status 0x9c0841008b080a13
Feb 21 03:49:40 PYRA kernel: MCA: Global Cap 0x0000000000000107, Status 0x0000000000000000
Feb 21 03:49:40 PYRA kernel: MCA: Vendor "AuthenticAMD", ID 0x600f20, APIC ID 40
Feb 21 03:49:40 PYRA kernel: MCA: CPU 8 COR BUSLG Responder RD Memory
Feb 21 03:49:40 PYRA kernel: MCA: Address 0x11666e97d0
Feb 21 03:49:40 PYRA kernel: MCA: Misc 0xe01c0f0f01000000

Danke! und Grüße - Norbert
 
danke... aber das sagt mir auch nicht viel mehr:

# mcelog --no-dmi --ascii --file /var/log/messages
mcelog: Unknown CPU type vendor 2 family 21 model 2
mcelog: Unknown CPU type vendor 2 family 21 model 2
Hardware event. This is not a software error.
CPU 8 BANK 4
MISC e01c0f0e01000000 ADDR 11666e97d0
STATUS 9c0840008b080a13 MCGSTATUS 0
MCGCAP 107 APICID 28 SOCKETID 0
CPUID Vendor AMD Family 21 Model 2
mcelog: Unknown CPU type vendor 2 family 21 model 2
mcelog: Unknown CPU type vendor 2 family 21 model 2
Hardware event. This is not a software error.
CPU 8 BANK 4
MISC e01c0f0f01000000 ADDR 11666e97d0
STATUS 9c0841008b080a13 MCGSTATUS 0
MCGCAP 107 APICID 28 SOCKETID 0
CPUID Vendor AMD Family 21 Model 2
 
Ich habe in der Werkstatt eine Mühle mit einem alten Opteron Serverboard stehen die mich Ende vorigen Jahres auch mit einer derartigen Meldung beglückte..
Besorge Dir ein paar ECC SIMMs des selben Typs und fange an zu tauschen, gerne in Bank4. Bei mir war das im Boardhandbuch dokumentiert wo die entsprechende Bank
ist und nach tauschen des 1. SIMMS war der Fehler weg.
Mit hoher Wahrscheinlichkeit ist das ein defekter RAM der durch ECC aber korrigiert wird.

Gruß,
Holm
 
Bedenkt dabei zwei Sachen:
  • Auch die besten Systeme verkacken sich gerne mal. Ich würde mir erst Gedanken machen, wenn die Fehler auch nach einem Kaltstart noch auftreten.
  • "Bank 4" ist die interne Bezeichnung. Das muss nichts mit den Beschriftungen auf dem Board zu tun haben. Am Besten geht man sowas durch eine binäre Suche an. Erstmal eine Hälfte der RAMs tauschen, tritt es immer noch auf die andere Hälfte. Anschließend jeweils halbieren, bis man den Schuldigen gefunden hat.
 
oha... das klingt aufwendig. Leider wird die Kiste (4 x 16 core opterons mit 512GB RAM) eingeltich dauernd gebraucht...
 
Zurück
Oben