Kernel panic am laufenden Band

Krull

Well-Known Member
Ich bin jetzt doch etwas sehr frustriert muss ich sagen. Mit dem aktuellen Stand von CURRENT ist mein Rechner weitgehend unbrauchbar geworden. Das ist bei mir zurzeit drauf:
Code:
uname -KU
1200060 1200060
Code:
cd /usr/src; svnlite info | grep Revision
Revision: 331546
Kernel und World wurden ohne Felhermeldungen gebaut. Trotzdem ist es jetzt so, dass ich im Mittel vielleicht bei jedem vierten Bootvorgang bis zur Desktopanmeldung komme. Ansonsten fliegen mir alle möglichen Kernel panics um die Ohren. Hier mal eine kleine Auswahl von dem, was ich dabei mitgeschrieben habe:
Code:
panic: Solaris panic blkptr at ... has invalid type 114
Code:
Fatal trap 12: page fault while in kernel mode
Code:
i915/kbl ...bin could not load firmware image error 2
Code:
panic: solaris assert: ZIO_CHECKSUM_ZERO
Manchmal crasht der Kernel auch, wenn ich schon angemeldet im Desktop bin und gar nichts aktiv tue. Einmal gab es eine Panic, als ich mit vlc ein Video abspielen wollte. Dmesg ist nicht wirklich zu gebrauchen, weil der Puffer sehr schnell mit diesen Meldungen geflutet wird:
Code:
 [802] ACPI Error: No pointer back to namespace node in package 0xfffff8010a1dae00
(20180313/dsargs-472) [802]
ACPI Error: Method parse/execution failed \134_SB.AC.ADJP,
AE_AML_INTERNAL (20180313/psparse-677) [802]
ACPI Error: Method parse/execution failed
\134_SB.AC._PSR, AE_AML_INTERNAL (20180313/psparse-677)
hdac0: Command timeout on address 2 [32]
hdacc1: Unexpected unsolicited response with tag 63: ffffffff [32]
hdacc1: Unexpected unsolicited response with tag 63: ffffffff [32]
hdacc1: Unexpected unsolicited response with tag 63: ffffffff [32]
hdacc1: Unexpected unsolicited response with tag 63: ffffffff
Vor ein paar Tagen habe ich mit smartctl die Festplatten geprüft. Demnach war alles ok. Jetzt geht das offenbar nicht mehr:
Code:
sudo smartctl -t short /dev/ada0
smartctl 6.6 2017-11-05 r4594 [FreeBSD 12.0-CURRENT amd64] (local build) Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org
/dev/ada0: Unable to detect device type
zpool scrub meldet keine Fehler. Außerdem sagt zpool noch das hier:
Code:
status: Some supported features are not enabled on the pool.
The pool can still be used, but some features are unavailable.
action: Enable all features using 'zpool upgrade'.
Once this is done, the pool may no longer be accessible
by software that does not support the features. See zpool-features(7) for details.
Aber ich vermute mal, dass das hiermit nichts zu tun hat. Was mir noch aufgefallen ist: Auf dem Bildschirm zur Passwortengabe für GELI vor dem Bootloaderscreen steht jetzt nur noch: GELI Passphrase. Früher stand da glaube zusätzlich noch ein wenig Statuskram zu den Zpools, den Festplatten oder etwas in der Richtung. Das fehlt jetzt. Kann man hier noch irgend etwas sinnvolles tun, außer 'make kernel' und hoffen, dass es irgendwann vielleicht mal wieder gut wird?
 
Das hat nichts mit der Hardware zu tun, das ist ein Softwareproblem. Die pragmatische Lösung das Boot Environment mit der letzten funktionierenden Version zu booten und ein neues Current zu bauen. Wenn es wieder geht, ist alles gut. Wenn nicht, dann ein paar Tage abwarten und es wieder probieren. jeff@ fummelt zum Beispiel derzeit recht viel am virtuellen Speicher und anderen Low-Level Systemen herum, das kann solche Auswirkungen haben. Es wurden auch einige ZFS-Änderungen gemerged, aber erfahrungsgemäß sind die eher harmlos, da sie schon in Illumos abhangen sind.

Die umfassendere Lösung wäre erst einmal eine aktuelle Version zu bauen und zu schauen ob das Problem verschwunden ist. Ist es das nicht zu versuchen sie den Fehler auslösende Revision zu identifizieren, "git bisect" ist da eine große Hilfe. Dann kann man auf die Commit-Mail der Revision antworten und dort das Problem ansprechen. Idealerweise liefert man gleich Debug-Daten mit. Dazu gibt es einen Absatz im Entwicklerhandbuch: https://www.freebsd.org/doc/en/books/developers-handbook/kerneldebug.html
 
Nun gut. Dann werde ich wohl warten und bauen und warten und bauen. Ich finde es schon bemerkenswert, dass es gleich so viele Sachen sind, die plötzlich Probleme verursachen. Und dann ist es auch immer etwas anderes, das den Startvorgang verhagelt. Ich wusste nicht, dass das Booten so nichtdeterministisch sein kann. Bei OpenBSD soll das ja seit Neuestem ein Sicherheitsfeature sein ;)

BEs hatte ich bei mir vor ner Weile schon mal probiert, aber es hat nicht funktioniert. Ich glaube es lag daran, dass ich wegen UEFI und GELI-Verschlüsselung zwei Zpools haben muss, einen für /boot und einen für den Rest. Im Notfall behelfe ich mir daher mit kernel.old oder mit einer Live-CD und fummel alte Snapshots per Hand zurück.
 
Ehrlich gesagt wundert es mich ein wenig, dass -CURRENT bei dir so zickig ist. Klar, es hat mal seine Macken und in den letzten Wochen war es eine schlechte Zeit, da viele größere Änderungen eingegangen sind, aber trotzdem sollte es nicht bei jedem zweiten Update auseinanderfliegen. Ich weiß aber auch nicht, woran es liegt. Vielleicht hast du einfach Pech gehabt.
 
Zurück
Oben