Schleichender Speicherplatzschwund

Knappe · 13 Nov. 2008

Hallo,

eigentlich hätte ich nicht geglaubt, dass ich hier eine solches Problem mal posten würde. Aber man lernt aber wohl nie aus ...

Ich habe in einem Server mit OpenSuSE 10.2 zwei Raid-1´s.
Davon ist das eine 250 GB groß und beinhaltet nur das Haupt-/Wurzelverzeichnis.

Ich erhalte nunmehr seit einiger Zeit Hinweismeldungen (z.B. von Konqueror etc.), daß der Speicherplatz auf der Home-Partition knapp wird.
Angeblich sind über 98% des Speicherplatzes belegt (heute kamen zusätzlich auch schon Fehlermeldungen von Postifx).

Da diese Belegung jedoch sehr unwahrscheinlich ist, habe ich mit

Code:

du -hs /

mal das Wurzelverzeichnis komplett durchsuchen lassen.

Ergebnis

152 GB

sind nur belegt.

Bin dann auch mal mit Konqueror manuell die einzelnen Hauptverzeichnisse durchgegangen: auch hier kam ich nicht über 150 GB hinaus.

Daraufhin habe ich mir jetzt mal den SMART-Status für die beiden Platten im betreffenden Verbund angesehen :

Ort SCSI Gerät A
Festplattengröße 232.88 GB
Make und Model ATA ST3250623NS
Unterstützt SMART? Ja
SMART eingeschaltet? Ja
Festplattentest durchgeführt? Ja
Offline data collection status Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline data collection 430 seconds.
Offline data collection capabilities SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability Error logging supported.
General Purpose Logging supported.
Short self-test routine recommended polling time 1 minutes.
Extended self-test routine recommended polling time 84 minutes.
Raw Read Error Rate 23825442
Spin Up Time 0
Start Stop Count 66
Reallocated Sector Ct 0
Seek Error Rate 547773958
Power On Hours 14773
Spin Retry Count 0
Power Cycle Count 110
Temperature Celsius 47
Hardware ECC Recovered 23825442
Current Pending Sector 0
Offline Uncorrectable 0
Multi Zone Error Rate 0
TA Increase Count 0

Gemäß der erschreckend hohen "Raw Read Error Rate" und "Seek Error Rate" (übrigens bei beiden Platten - beide gerade mal 2 Jahre alt), werden diese wohl bald "sterben".
Daher habe ich schon zwei Neue hier zum Einbau liegen.

Trotzdem würde mich mal interessieren, ob der Speicherplatzschwund nur auf diese Hardwarefehler zurückzuführen ist oder ob nicht "irgendwo" im System noch irgendwelche Dateireste, Caches, Logs etc. rumschwirren.

Über 100 GB Verlust durch "schleichende" Hardwarefehler ?

Bin für ein paar Tipps & Ratschläge dankbar !
Falls noch zusätzliche Infos benötigt werden ... liefere ich gerne nach.

bike · 15 Nov. 2008

Ich hatte ein ähnliches Problem, das hier
http://www.linux-club.de/viewtopic.php?f=4&t=98013
geklärt wurde.
Könnte ein Ansatz für dich sein.

bike

Knappe · 27 Nov. 2008

Hallo @bike.

vielen Dank für den Tipp, aber in meinem /tmp waren gerade mal 5 Gb belegt.

Der Speicherplatzverlust beträgt aber rd. 100 GB !

Ich habe (mehrfach) die üblichen"Verdächtigen" durchsucht :

Code:

/opt
/usr
/lib
/lib64
/tmp

und natürlich das /home-, /mysql-, /www-Verzeichnis (etc).

Bei einer Komplettkalkulation kam (und komme) ich auf max. 150 GB belegter Platz !

Wo ist der Rest :schockiert:

Schleichender Speicherplatzschwund

Knappe

bike

Knappe