• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

[gelöst] Suse 11 startet nicht regelmäßig - Problemeingr.

Hallo allerseits,

ich nutze Suse schon eine Weile, habe auch schon manches Problem gelöst, komme aber aktuell nicht weiter.

Der PC: Intel Core 2 Duo mit 3,16 GHz, Asus-Board P5N-MX, 2GB Ram, NEC-DVD-LW, Suse 11.0 und Win2K

Das Problem: Der PC hatte zu Anfang eine Grafikkarte und kurze Zeit nach der Installation startete der Rechner manchmal nicht (bootloader ging immer). Nach ca. 2 Tagen lief es wieder. So ging das die letzten 1,5 Jahre. Im Januar hat sich die Grafikkarte verabschiedet; so bin ich auf die OnboardGrafik umgestiegen. Seitdem gab es keine Probleme mehr! (hätte also die Grafik sein können). Nun startet Suse 11 aber seit einer Woche nicht mehr mit wahrscheinlich dem gleichen Fehler (F2-> CPU#1 ...int18 (machine check)). Habe so ziemlich alles probiert (Bioseinstellungen, Startoptionen, Suse 11.3 usw.) Das Merkwürdige ist, Win2k läuft problemlos (schon immer) und eben sitze ich an Knoppix 5.3 auf dem gleichen PC von Live-DVD. Die Prozessorkerne können es also nicht sein, oder?
Die neueste Version Suse 11.3 von DVD läuft ebenfalls nicht, als einziges der Programme funktioniert der RAM-Test (ohne Fehler), alles andere (egal mit welchen optionen) bringt den gleichen Fehler (bleibt stehen bei: starting udev). Allerfings kommen zum Beginn des Ladevorgangs Fehlermeldungen, die irgendetwas mit PCIe zu tun haben könnten. Da es danach aber noch eine Weile weiterläuft bis zu "starting udev", glaube ich nicht, das es was mit PCI zu hat.

viele grüße und dank vorab für evtl. Hilfe.
hobbyhobbit
 
hobbyhobbit schrieb:
Allerfings kommen zum Beginn des Ladevorgangs Fehlermeldungen, die irgendetwas mit PCIe zu tun haben könnten. Da es danach aber noch eine Weile weiterläuft bis zu "starting udev", glaube ich nicht, das es was mit PCI zu hat.

Dann poste die Fehlermeldungen doch mal.
 
Die Fehler posten ist gut gesagt, ich habe ja keinen zugriff auf den text, also geht nur abschreiben. das ist nervig, aber wenn es nützt. Hier die meldungen, aber wie gesagt, das betrifft nur die installation von 11.3
- pcie_pme: probe of 0000:00:0b.0: pcie 01 failed with error 13
- pcie_pme: probe of 0000:00:0c.0: pcie 01 failed with error 13
- pcie_pme: probe of 0000:00:0d.0: Failed to receive control of PCIe PME service: no _OSC support
- pci_stub: invalid id string ""

es kann sein, ich habe jetzt eine zeile nicht erwischt, die sieht aber dann so ähnlich aus.

Der Fehler beim Starten von 11.0 ist folgender:
- CPU#1 unexpected int18 (machine check)
Das interessiert mich ja eigentlich auch viel mehr. Sollte es tatsächlich ein CPU-Fehler sein, warum läuft dann alles andere?
Ich könnte auch z.B. zukünftig mit Ubuntu o.ä. arbeiten, aber gut wäre noch ein zugriff auf die mails und evtl. die mozilla-lesezeichen.
 
hobbyhobbit schrieb:
Die Fehler posten ist gut gesagt, ich habe ja keinen zugriff auf den text, also geht nur abschreiben. das ist nervig, aber wenn es nützt.

- pcie_pme: probe of 0000:00:0b.0: pcie 01 failed with error 13
- pcie_pme: probe of 0000:00:0c.0: pcie 01 failed with error 13
- pcie_pme: probe of 0000:00:0d.0: Failed to receive control of PCIe PME service: no _OSC support
- pci_stub: invalid id string ""

Es nützt nicht nur, sondern bringt auch die mögliche Lösung.

Im Bootmenü gibst du im Feld Bootoptionen mal
Code:
acpi=off
ein boote den Kernel und machst hier Meldung.


hobbyhobbit schrieb:
Der Fehler beim Starten von 11.0 ist folgender:
- CPU#1 unexpected int18 (machine check)

Welche Einstellungen hast du im BIOS verändert?
 
Also die Optionen wie acpi=off hatte ich ja schon alle ausprobiert. Ich habs aber noch mal versucht, gleiches ergebnis, d.h. gleiche fehlermeldungen. das betrifft ja aber die 11.3, die ich nur im notfall installieren und nutzen würde.

wenn ich bei der 11.0 bleiben will, komme ich damit also nicht weiter. auch da geht ja der failsafe-modus (mit acpi=off) nicht.
gleiche meldung wie gehabt, also "...int18".
übrigens funktioniert auch die install-dvd von ubuntu nicht, hier kommen noch nicht mal überhaupt meldungen, sondern der rechner startet gleich neu. aber das alte knoppix 5.3 funktioniert. :???:
im bios hatte ich nichts direkt verändert, lediglich auf standard zurückgestellt. evtl. irgendwelche DMA-angabenmal geändert, aber immer einzeln getestet und wieder auf den ursprung zurückgestellt. jeweils ohne ergebnis.

tja, das sieht nach einer verrückten sache aus. ich tippe inzwischen auf board-/prozessor-unverträglichkeit, falls es sowas gibt.
leider habe ich nicht soviel technik da, um die hardware über kreuz auszutauschen.
was ich noch probiert habe ist, bei den bootoptionen die angabe nomce (hatte ich bisher immer stehen beim standard-boot) wegzulassen, dann kommt die ausgabe: (die ziffern stimmen nicht, geht zum abschreiben aber zu schnell weg)
CPU#1: machine check exception 000000000000
CPU#1: Bank 0 32000000000000
CPU#2: Bank 5 32000000000000
Kernel Panic-not syncing: CPU context corrupt

Diese fehler hatte ich früher aber auch schon, aber da hat sich ja, wie anfangs beschrieben, alles nach 1-2 tagen wieder gegeben, nur diesmal aber nicht. Könnte "Bank" etwas mit dem RAM zu tun haben?

bin gespannt, obs weitere ideen gibt.
 
Beim RAM spricht man auch von Speicherbänken, was dann nicht wirklich was mit der CPU zu tun hat. Geh mal in dein BIOS und schalte ACPI aus.

Was hast du für ein BIOS?
 
Also ich habe ein Phoenix AwardBIOS v.6.00pg in der Version 0607 vom 7.8.2008. (mein update ca. von 2009).
ACPI kann ich nicht ausschalten, nur einstellen. Und zwar den Suspend Type (S1&S3 [default], nur S1 und nur S3). Habe auch alles schon probiert.
Darunter steht zwar ACPI APIC support ENABLED, ist aber grau. Also keine chance. In den startanweisungen bis zum stillstand kommen dann auch diverse ausgaben, aber keine fehlermeldungen.

vg
 
Hier die neuesten Ergebnisse bzw. Zusammenfassung, vielleicht hat ja jemand noch eine Idee.

- WIN2k funktioniert
- Knoppix 5.3 von LiveDVD funktioniert
- PartedMagic von USB-Stick funktioniert
- Suse 10.1 läßt sich nicht installieren (anderes Problem, angeblich kein Medium eingelegt)
- Suse 11.1, 11.3 und Ubuntu 9.04 funktionieren nicht (diverse Fehler wie beschrieben)
- inzwischen habe ich sowohl den Kartenleser als auch die HDD komplett herausgenommen, je keine Änderung

Irgendwie wird es mit der Hardwareerkennung zusammenhängen, mit ACPI und ähnlichem eher nicht, weil das unter Knoppix z.B. als aktiv erkannt und wohl auch benutzt wird, jedenfalls kein Fehler kommt.
Etwas (für mich) merkwürdiges ist mir aufgefallen: Weder unter PartedMagic noch unter Knoppix kann ich das logische LW hdb5 (auf dem meine 11.1-Installation steht), per hand mounten, weil das Dateisystem nicht bekannt ist. Kann sein, weil es nur ein logisches ist. Käme ich da ran, könnte ich mir die emails retten und dann neu formatieren und partitionieren.
Ob das was nützt ist aber fraglich, da ja die Installationen auch nicht starten.

Würde mich freuen, wenn noch jemand weiterhelfen kann.
 
Dann kommt folgendes:

root@Knoppix:/# fdisk -l

Platte /dev/hdb: 41.1 GByte, 41110142976 Byte
255 Köpfe, 63 Sektoren/Spuren, 4998 Zylinder
Einheiten = Zylinder von 16065 × 512 = 8225280 Bytes
Disk identifier: 0x767557de

Gerät boot. Anfang Ende Blöcke Id System
/dev/hdb3 * 1 3826 30732313+ 7 HPFS/NTFS
/dev/hdb4 3827 4998 9414090 f W95 Erw. (LBA)
/dev/hdb5 3827 4869 8377866 8e Linux LVM
/dev/hdb6 4870 4878 72261 83 Linux
/dev/hdb7 4879 4998 963868+ 8e Linux LVM
 
hobbyhobbit schrieb:
/dev/hdb5 3827 4869 8377866 8e Linux LVM
/dev/hdb7 4879 4998 963868+ 8e Linux LVM
Offenbar ist in KNOPPIX die LVM-Unterstützung nicht aktiv. Unter 6.2 könnte es mit
Code:
/etc/init.d/lvm2 start
funktionieren, zu 5.3 kann ich nichts sagen.

hobbyhobbit schrieb:
als einziges der Programme funktioniert der RAM-Test (ohne Fehler)
Heißt das, Du hast mindestens einen vollständigen Test-Durchlauf absolviert?
 
josef-wien schrieb:
/etc/init.d/lvm2 start

sieht unter 5.3 etwas anders aus. einen startbefehl gibt es nicht. vorerst nicht das hauptproblem.

josef-wien schrieb:
Heißt das, Du hast mindestens einen vollständigen Test-Durchlauf absolviert?

ja, der RAM-Test ist komplett durchgelaufen, ohne Fehler.

Mir ist immer noch unklar, warum manches geht und anderes nicht. sieht so aus, als ob die "modernen" OS mit der Hardware nicht klarkommen und umgekehrt. die älteren haben da anscheinend weniger sorgen, weil sie nicht so "empfindlich" sind. ist etwas laienhaft gesagt, ich weiß. :roll:
Im Forum habe ich heute noch ähnliche Probleme gefunden, die auch irgendwie mit alt und neu zu tun haben. nutzt mir aber in dem falle nichts.
Mittlerweile sind mir die daten auf der Platte fast egal, aber wie installiere ich nun ein funktionierendes System?? Ich werde noch mal probieren, die alte platte an einen anderen rechner zu mounten, vielleicht kann ich da zugreifen. geht aber nicht vor morgen.
 
In den Kernel-Quellen von 11.1 finde ich in einigen Dateien des Verzeichnisses /usr/src/linux-2.6.27.45-0.1/arch/x86/kernel/cpu/mcheck
Code:
/* Handle unconfigured int18 (should never happen) */
static void unexpected_machine_check(struct pt_regs *regs, long error_code)
{
	printk(KERN_ERR "CPU#%d: Unexpected int18 (Machine Check).\n", smp_processor_id());
}
und schließe daraus, daß Deine CPU einen Defekt hat. Als Laie kann ich mir vorstellen, daß ältere Distributionen hier anders prüfen, da ja die Fähigkeiten von CPU-Generation zu CPU-Generation mehr werden. Mit dem Parameter nomce wird diese Prüfung beim Boot-Vorgang ausgeschaltet. Ich habe aber keine Ahnung, wie man eine CPU auf Fehler überprüft, um sicherzugehen, daß wirklich die CPU das Problem ist. Eventuell bringen Dir Versuche mit dem Parameter mce mehr Klarheit:
Code:
   mce=off disable machine check
   mce=bootlog Enable logging of machine checks left over from booting.
               Disabled by default on AMD because some BIOS leave bogus ones.
               If your BIOS doesn't do that it's a good idea to enable though
               to make sure you log even machine check events that result
               in a reboot. On Intel systems it is enabled by default.
   mce=nobootlog
		Disable boot machine check logging.
   mce=tolerancelevel (number)
		0: always panic on uncorrected errors, log corrected errors
		1: panic or SIGBUS on uncorrected errors, log corrected errors
		2: SIGBUS or log uncorrected errors, log corrected errors
		3: never panic or SIGBUS, log all errors (for testing only)
		Default is 1
		Can be also set using sysfs which is preferable.
   nomce (for compatibility with i386): same as mce=off
hobbyhobbit schrieb:
sieht unter 5.3 etwas anders aus. einen startbefehl gibt es nicht.
/etc/init.d/lvm2 ist das Programm von 6.2 samt Pfad, start ist ein Parameter für das Programm, das bei 5.3 vielleicht anders heißt. Was ergibt:
Code:
ls -l /etc/init.d/*lvm*
P.S. Eine positive Meldung wäre mir für meinen 1000. Beitrag lieber gewesen.
 
ERFOLG, ERFOLG, ERFOLG!

So schlecht war das 1000. gar nicht. Aber der Reihe nach:
also die Sache mit dem LVM war mir schon klar, aber wie man damit weiter umgeht, nicht.
ist auch erst mal egal, im moment läuft alles wie vorher.

btw.: die partition /hdb5 beinhaltet die ganze linux-installation, insofern wäre es mir wichtig gewesen, dort hinzukommen.
aber nun kann ich mir alles wichtige sichern. :roll:

geholfen hat, obwohl mir nicht ganz erklärlich, der startparameter mce=bootlog. Plötzlich gings, obwohl ich fehlerausgaben
erwartet hatte. klar, kann auch zufall sein, werde ich noch ausprobieren, vielleicht hilft es ja anderen.
das mit dem toleranceleverl werde ich auch ausprobieren.
ansonsten würde mir die erklärung mit dem cpu-fehler durchaus einleuchten, so ähnlich hatte ich es von anfang an in verdacht, als die
fehlermeldungen seinerzeit begannen. irgendwas ist drin, was nicht ganz "sauber" ist oder keiner braucht.

Also mein Dank an alle Beteiligten. Ich gebe noch mal Nachricht, ob es dauerhaft i.o. ist oder doch nicht.
erst mal daten sichern.

vg
 
Abschließend für alle Interessenten:

Ich glaube, dass Problem gelöst zu haben. Es liegt nicht direkt an mce bzw. dessen Optionen, das war ein Irrtum. Es liegt wohl an der CPU-Temperatur, die bei neueren Systemen kritischer ausgewertet wird. Siehe auch hier: http://en.wikipedia.org/wiki/Machine_Check_Exception

Seit heute ist die Raumtemperatur leicht gesunken, obwohl ich mich auch wundere, das 3-4 Grad soviel ausmachen. Meine CPU hat allerdings auch einen starken Heatpipe-Kühler und ist nicht übertaktet oder so. Außerdem hat sie ja beim Systemstart keine so große Last (oder täuscht das?). Allerdings ist alles sehr eng verbaut und der Fehler trat im Winter auch schon auf, dass spricht gegen die Theorie. Trotzdem denke ich, wird zum Start da irgendwas geprüft, was ich allerdings mit nomce ja immer ausgeschaltet hatte, insofern ist mir dieser Punkt noch unklar.

Jedenfalls starten jetzt auch Ubuntu live und Suse 11.3-Install, was vorher beides nicht ging, auch ohne die mce-Angabe startet es. Wenn ich Zeit habe, versuche ich den Fehler zu erzwingen, indem ich kurz den CPU-Lüfter außer Gefecht nehme.
Man könnte auch versuchen, je nach BIOS, den Parameter für die CPU-Überwachung auf DISABLED zu setzen, das kann aber auch schiefgehen, da traue ich mich nicht ran, solange es funktioniert.

Danke an alle und weiter so.
hobbyhobbit
 
An deiner Stelle würde ich mal mit libsensors und einem Frontend die Temperatur überwachen. Zugestaubte Kühlkörper leiten die Wärme nicht wirklich gut ab und die Temperatur kann dann auch schon mal ordentlich hoch werden.

Es ist ziemlich egal, was du für einen CPU Lüfter hast, aber keinen bz. keine Gehäuselüfter die für Luftzirkulation im Gehäuse sorgen und die warme Luft nach draussen saugen, weil der CPU Lüfter irgendwann zwangsläufig warme Luft auf die CPU "pustet".
 
Oben