• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

messages: kernel BUG at ...

Salü zusammen.

Ich bin neu hier im Forum, wenn auch nicht wirklich neu in der Linux-Welt. Ich hoffe, ich habe das richtige Unterforum getroffen, wenn nicht, sorry, bitte korrigieren.

Ich habe auf einem relativ rege genutzten Server seit einiger Zeit ein seltsames Problem. In unregelmäßigen Abständen tritt ein kompletter Server-freeze auf. Auf Ping reagiert der Server noch, ansonsten keine Reaktion.

Die letzte Meldung im /var/log/messages ist:
Feb 19 14:16:14 nexus2 kernel: [65979.175027] kernel BUG at /usr/src/packages/BUILD/kernel-default-2.6.34.7/linux-2.6.34/mm/slab.c:535!
Feb 19 14:16:14 nexus2 kernel: [65979.175033] invalid opcode: 0000 [#1] SMP
Feb 19 14:16:14 nexus2 kernel: [65979.175038] last sysfs file: /sys/devices/system/cpu/cpu3/cache/index2/shared_cpu_map
Feb 19 14:16:14 nexus2 kernel: [65979.175042] CPU 0
Feb 19 14:16:14 nexus2 kernel: [65979.175044] Modules linked in: fuse cpufreq_conservative cpufreq_userspace cpufreq_powersave powernow_k8 mperf ext4 jbd2 crc16 loop dm_mod sr_mod cdrom edac_core k10temp edac_mce_amd pcspkr sg i2c_nforce2 floppy forcedeth usb_storage shpchp pci_hotplug button ohci_hcd sd_mod ehci_hcd ssb usbcore mmc_core pcmcia pcmcia_core edd fan processor ata_generic pata_amd sata_nv libata aacraid scsi_mod thermal thermal_sys [last unloaded: preloadtrace]
Feb 19 14:16:14 nexus2 kernel: [65979.175091]
Feb 19 14:16:14 nexus2 kernel: [65979.175097] Pid: 77, comm: kswapd0 Not tainted 2.6.34.7-0.7-default #1 S2925/empty
Feb 19 14:16:14 nexus2 kernel: [65979.175101] RIP: 0010:[<ffffffff8111f8d6>] [<ffffffff8111f8d6>] free_block+0x176/0x180
Feb 19 14:16:14 nexus2 kernel: [65979.175114] RSP: 0018:ffff8801250c18e0 EFLAGS: 00010046

Danach ist Zapfenstreich.

Hauptaufgabe des Servers ist Samba mit knapp 1 TB Daten für 80 User.
Das Festplattensubsystem sind ein Adaptec 3405 und ein Adaptec 3805 mit RAID 1 und RAID 5
Das Board ist ein Tyan Serverboard (2865), Prozessor ein Phenom X4 9650, 4GB RAM
Der Kernel ist in keinster Weise gepatched, keine besonderen Module geladen.
Das System wurde vor wenigen Tagen auf OpenSuse 11.3 aktualisiert, das Problem tritt aber seit über einem Monat unregelmäßig (am 19.2. zum vierten Mal) auf.
Bisher trat das Problem auch nie unter Last sondern verblüffenderweise immer Nachts oder am Wochenende auf.

Vielleicht hat jemand einen klugen Tipp für mich?

Liebe Grüße
WD Palmer
 
N'abend

ich bin zwar kein kernel-freak, aber
Feb 19 14:16:14 nexus2 kernel: [65979.175027] kernel BUG at /usr/src/packages/BUILD/kernel-default-2.6.34.7/linux-2.6.34/mm/slab.c:535!
Feb 19 14:16:14 nexus2 kernel: [65979.175033] invalid opcode: 0000 [#1] SMP
deutet ja schon auf einen kernel Fehler hin. Vielleicht hilft ja ein anderer Kernel bzw. ein update.
Hast Du mal geschaut, ob es für den Phenom einen speziellen Kernel gibt ?

Feb 19 14:16:14 nexus2 kernel: [65979.175097] Pid: 77, comm: kswapd0 Not tainted 2.6.34.7-0.7-default #1 S2925/empty
Feb 19 14:16:14 nexus2 kernel: [65979.175101] RIP: 0010:[<ffffffff8111f8d6>] [<ffffffff8111f8d6>] free_block+0x176/0x180
Feb 19 14:16:14 nexus2 kernel: [65979.175114] RSP: 0018:ffff8801250c18e0 EFLAGS: 00010046
Hier würde ich im Bereich swap Partition nach der Ursache forschen.
Vielleicht laufen nachts irgendwelche größeren Reorganisationen ab, die zum Auslagern zwingend.
Wie groß ist Deine swap Partition denn und wo befindet sie sich ? (nicht auf dem Raid5, hoffe ich)
Hast Du Platz für eine alternative swap Partition ?
 
Hm swap läge wg. kswapd0 natürlich nahe.
Ich habe eine 8GB swap, allerdings auf dem RAID 1.

Im normalen Serverzustand unter Last habe ich ca 1GB RAM frei und 0 Bytes im Swap.
Mr ist kein spezieller Phenom Kernel bekannt, ich setze auch auf all unseren Servern OpenSuSe in verschiedenen Versionen (10.1 ist momentan die älteste) ein, immer mit den Standard-Kerneln die mit der Distribution kommen, bzw. mit dem Autoupdate. Nur nach dem Distri-livecycle installiere ich gelegentlich fremde RPMs.

Ich weiß, das ist fast eine Schande, aber außer in privaten Bastelsystemen habe ich noch nie mit eigenen Kerneln gespielt...

Danke schonmal und Grüßle. WD
 
http://www.kernel.org/doc/gorman/html/understand/understand011.html schrieb:
To prevent callers using the wrong flags a CREATE_MASK is defined in mm/slab.c consisting of all the allowable flags. When a cache is being created, the requested flags are compared against the CREATE_MASK and reported as a bug if invalid flags are used.
Ich würde als erstes einmal den Hauptspeicher entsprechend ausführlich überprüfen.
 
Danke schonmal.

Hauptspeicherprüfung ist ja immer so eine Sache, ohne spezielle Prüfgeräte bleibt das immer ein Fischen im Trüben. Einen Fehler kann man eventuell finden, keinen Fehler aber nicht ausschließen.

Eine Unsauberkeit habe ich gefunden: In der fstab war /home als ext4 gemountet, das Dateisystem ist jedoch ext3. Ich würde normalerweise sagen, das macht nichts. Kann das zu Problemen führen?

Der nächste Schritt, sollte er wieder einfrieren, ist wohl wirklich die alte lästige Prozedur Speicher - Board - Prozessor...
Grüßle und Danke.
WD
 
Doubleudee schrieb:
In der fstab war /home als ext4 gemountet, das Dateisystem ist jedoch ext3. Ich würde normalerweise sagen, das macht nichts. Kann das zu Problemen führen?
Es ist zulässig, ein Ext3-Dateisystem als Ext4 einzuhängen, um einige Möglichkeiten von Ext4 nutzen zu können (siehe auch http://kernelnewbies.org/Ext4#head-10f27db6b96fe8c88d88528ced83a86c8cf4b6a6, Punkt 3.3).
 
Doubleudee schrieb:
Hauptspeicherprüfung ist ja immer so eine Sache, ohne spezielle Prüfgeräte bleibt das immer ein Fischen im Trüben. Einen Fehler kann man eventuell finden, keinen Fehler aber nicht ausschließen.

memtest sollte dir da schon helfen können. Einfach den Backupserver in Betrieb nehmen und den anderen Server mal diverse Stunden laufen lassen.
Ansonsten ist das Kernel kompilieren ( make ; make clean ; make ....) sehr geeignet um den Speicher unter Stress zu setzten.
Falls der Fehler auftritt: ein Speichermodul entfernen, noch mal laufen lassen.

Darüber hab ich bei mir schon 2 mal defekten Speicher identifiziert.

Haveaniceday

PS: Vielleicht kann man mit dem Problem auch einen 2ten Server als Backupserver begründen, falls keiner da ist.
 
Oben