• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

System-Platte plötzlich read-only

Hallo Leute,
folgende Problem: Seit ca. zwei Wochen setzt meine SuSE 10.3 die auf der
Boot-Platte befindlichen Partionen (/ = sda5 und /home = sda6) mitten
in der Arbeit auf read-only. Leider konnte ich auch keinen Hinweis auf das
Problem in der /var/log/messages (weil er nix mehr schreiben kann ;-))
finden. Die zweite HD sdb hat keinerlei Problem.
Nach einem Neustart ist erst mal alles wieder in Butter.
Gestern abend dann die Krönung, die Maschine ließ sich nicht mehr
booten, fsck meldete manuelle Reparatur notwendig, also mit der DVD
gebootet und fsck /dev/sdb5 und dann eine Unmenge (bildschirmseiten-
weise) fehlerhafter inodes. Habs aufgegeben und das Image aus dem
Backup neu draufgespielt, dann lief wieder alles. Nach 10 Minuten dann
wieder read-only...
Meine Fragen:
1.) Kann ich die messages-Datei über einen Link mal temporär auf die
andere Platte legen oder geht das Schreiben dann auch schief, wenn
der Kernel die Systemplatte auf read-only setzt?
(ls -s /var/log/messages /vm/messages, /vm ist auf der sdb)

2.) Ist ein HW-Defekt möglich, smartctl meldet keine Fehler,
der long-test auch nicht)?

Ich werde heute abend mal die Tools von Western Digital über die Platte
schicken, mal sehen, ob was rauskommt.

Gruß
mwue
 

misiu

Moderator
Teammitglied
Prüfe auch, ob sich die Zeit nicht ständig ändert, evtl. die BIOS-Batterie erneuern.

MfG
misiu
 
mwue schrieb:
Habs aufgegeben und das Image aus dem Backup neu draufgespielt, dann lief wieder alles.
Falls das Western Digital-Programm alles für in Ordnung befinden sollte, überprüfe nach einer neuerlichen Wiederherstellung und noch vor dem ersten Neustart die Dateisysteme (und zwar mit dem Parameter "-f").

mwue schrieb:
Kann ich die messages-Datei über einen Link mal temporär auf die andere Platte legen
Ich würde eher in der Datei /etc/syslog-ng/syslog-ng.conf eine andere message-Datei eintragen.
 
So, wieder da.
Der Stand der Dinge:

Habe gestern abend mal folgendes getan:

1.) Komplettes Image der (wieder mal funktionierenden) sda gezogen.
2.) DOS von FD gebootet und die Tests von WD drübergeschickt -> i.O.
3.) Das komplette Drive mit den Tools von WD mit Zeros überschrieben -> i.O.
4.) Image zurückgeschrieben
5.) System mit SuSE-DVD gebootet und fsck -f -c mit sda5 und sda6 durchgeführt -> i.O.
6.) /var/log/messages auf die zweite Platte gelegt (erstmal mit ln -s, danke für den Tip mit der config).
7.) System normal gebootet -> alles i.O.
8.) 3 Stunden richtig Power auf der Kiste gemacht (VMs, Videotranskodierung) -> keine Auffälligkeiten.

Ich werde jetzt mal die Sache weiter beobachten.
Die fstab scheint in Ordnung zu sein (erster Blick im vi), ein fdisk -l werde ich
mal heute abend aufrufen.

Danke erstmal für die Antworten, ich melde mich wieder, wenn es
Neuigkeiten gibt.

Gruß
Maik
 
Hallo Leute,
jetzt ist es wieder passiert und zwar so schlimm, dass ich die Kiste nicht mal
mehr runterfahren konnte (raus aus X auf die Textconsole, beim Login dann root
und wieder kam das Login-Prompt).

fdisk -l und mount -l zeigen normale Ausgaben.

Aber in der messages geht es richtig los:

Code:
Mar 27 21:32:12 Altair-1 kernel: usb 8-4: new high speed USB device using ehci_hcd and address 2
Mar 27 21:32:12 Altair-1 kernel: usb 8-4: new device found, idVendor=054c, idProduct=02f9
Mar 27 21:32:12 Altair-1 kernel: usb 8-4: new device strings: Mfr=1, Product=2, SerialNumbe
r=3
Mar 27 21:32:12 Altair-1 kernel: usb 8-4: Product: Sony DSC
Mar 27 21:32:12 Altair-1 kernel: usb 8-4: Manufacturer: Sony
Mar 27 21:32:12 Altair-1 kernel: usb 8-4: SerialNumber: D25D2016C0DE
Mar 27 21:32:12 Altair-1 kernel: usb 8-4: configuration #1 chosen from 2 choices
Mar 27 21:32:12 Altair-1 kernel: scsi10 : SCSI emulation for USB Mass Storage devices
Mar 27 21:32:12 Altair-1 kernel: usb-storage: device found at 2
Mar 27 21:32:12 Altair-1 kernel: usb-storage: waiting for device to settle before scanning
Mar 27 21:32:13 Altair-1 kernel: scsi 10:0:0:0: Direct-Access     Sony     DSC
 1.00 PQ: 0 ANSI: 0 CCS
Mar 27 21:32:13 Altair-1 kernel: sd 10:0:0:0: [sdd] 1953792 512-byte hardware sectors (1000
 MB)
Mar 27 21:32:13 Altair-1 kernel: sd 10:0:0:0: [sdd] Write Protect is off
Mar 27 21:32:13 Altair-1 kernel: sd 10:0:0:0: [sdd] Mode Sense: 00 6a 20 00
Mar 27 21:32:13 Altair-1 kernel: sd 10:0:0:0: [sdd] Assuming drive cache: write through
Mar 27 21:32:13 Altair-1 kernel: sd 10:0:0:0: [sdd] 1953792 512-byte hardware sectors (1000
 MB)
Mar 27 21:32:13 Altair-1 kernel: sd 10:0:0:0: [sdd] Write Protect is off
Mar 27 21:32:13 Altair-1 kernel: sd 10:0:0:0: [sdd] Mode Sense: 00 6a 20 00
Mar 27 21:32:13 Altair-1 kernel: sd 10:0:0:0: [sdd] Assuming drive cache: write through
Mar 27 21:32:13 Altair-1 kernel:  sdd: sdd1
Mar 27 21:32:13 Altair-1 kernel: sd 10:0:0:0: [sdd] Attached SCSI removable disk
Mar 27 21:32:13 Altair-1 kernel: sd 10:0:0:0: Attached scsi generic sg5 type 0
Mar 27 21:32:13 Altair-1 kernel: usb-storage: device scan complete
Mar 27 21:32:13 Altair-1 hald: mounted /dev/sdd1 on behalf of uid 1000

Mar 27 21:33:25 Altair-1 kernel: ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen
Mar 27 21:33:25 Altair-1 kernel: ata3.00: cmd 35/00:e0:ca:b0:32/00:01:08:00:00/e0 tag 0 cdb 0x0 data 245760 out
Mar 27 21:33:25 Altair-1 kernel:          res 40/00:98:90:26:01/84:01:00:00:00/e0 Emask 0x4 (timeout)
Mar 27 21:33:30 Altair-1 kernel: ata3: port is slow to respond, please be patient (Status 0xd0)
Mar 27 21:33:35 Altair-1 kernel: ata3: device not ready (errno=-16), forcing hardreset
Mar 27 21:33:35 Altair-1 kernel: ata3: soft resetting link
Mar 27 21:33:43 Altair-1 nmbd[3459]: [2009/03/27 21:33:43, 0] nmbd/nmbd_packets.c:process_dgram(1270)
Mar 27 21:33:43 Altair-1 nmbd[3459]:   process_dgram: ignoring malformed3 (datasize = 166,
len=82, off=86) datagram packet sent to name ^A^B__MSBROWSE__^B<01> from IP 192.168.66.249
Mar 27 21:34:05 Altair-1 kernel: ata3.00: qc timeout (cmd 0xec)
Mar 27 21:34:05 Altair-1 kernel: ata3.00: failed to IDENTIFY (I/O error, err_mask=0x4)
Mar 27 21:34:05 Altair-1 kernel: ata3.00: revalidation failed (errno=-5)
Mar 27 21:35:46 Altair-1 syslog-ng[2559]: io.c: do_write: write() failed (errno 30), Read-o
nly file system
Mar 27 21:35:46 Altair-1 syslog-ng[2559]: pkt_buffer::do_flush(): Error flushing data
Mar 27 21:34:05 Altair-1 kernel: ata3: failed to recover some devices, retrying in 5 secs
Mar 27 21:35:46 Altair-1 hald[2645]: forcibly attempting to lazy unmount /dev/sdd1 as enclo
sing drive was disconnected
Mar 27 21:35:46 Altair-1 kernel: ata3: port is slow to respond, please be patient (Status 0
xd0)
Mar 27 21:35:46 Altair-1 kernel: ata3: device not ready (errno=-16), forcing hardreset
Mar 27 21:35:46 Altair-1 kernel: ata3: soft resetting link
Mar 27 21:35:46 Altair-1 kernel: ata3.00: qc timeout (cmd 0xec)
Mar 27 21:35:46 Altair-1 kernel: ata3.00: failed to IDENTIFY (I/O error, err_mask=0x4)
Mar 27 21:35:46 Altair-1 kernel: ata3.00: revalidation failed (errno=-5)
Mar 27 21:35:46 Altair-1 kernel: ata3.00: limiting speed to UDMA/100:PIO3
Mar 27 21:35:46 Altair-1 kernel: ata3: failed to recover some devices, retrying in 5 secs
Mar 27 21:35:46 Altair-1 kernel: ata3: port is slow to respond, please be patient (Status 0xd0)
Mar 27 21:35:46 Altair-1 kernel: ata3: device not ready (errno=-16), forcing hardreset
Mar 27 21:35:46 Altair-1 kernel: ata3: soft resetting link
Mar 27 21:35:46 Altair-1 kernel: usb 8-4: USB disconnect, address 2
Mar 27 21:35:46 Altair-1 kernel: ata3.00: qc timeout (cmd 0xec)
Mar 27 21:35:46 Altair-1 kernel: ata3.00: failed to IDENTIFY (I/O error, err_mask=0x4)
Mar 27 21:35:46 Altair-1 kernel: ata3.00: revalidation failed (errno=-5)
Mar 27 21:35:46 Altair-1 kernel: ata3.00: disabled
Mar 27 21:35:46 Altair-1 kernel: ata3: EH pending after completion, repeating EH (cnt=4)
Mar 27 21:35:46 Altair-1 kernel: ata3: port is slow to respond, please be patient (Status 0xd0)
Mar 27 21:35:46 Altair-1 kernel: ata3: device not ready (errno=-16), forcing hardreset
Mar 27 21:35:46 Altair-1 kernel: ata3: soft resetting link
Mar 27 21:35:46 Altair-1 kernel: ata3: EH complete
Mar 27 21:35:46 Altair-1 kernel: sd 2:0:0:0: [sda] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK,SUGGEST_OK                                                                    Mar 27 21:35:46 Altair-1 kernel: end_request: I/O error, dev sda, sector 137539786         Mar 27 21:35:46 Altair-1 kernel: Buffer I/O error on device sda6, logical block 6181916    Mar 27 21:35:46 Altair-1 kernel: lost page write due to I/O error on sda6                  Mar 27 21:35:46 Altair-1 kernel: Buffer I/O error on device sda6, logical block 6181917    Mar 27 21:35:46 Altair-1 kernel: lost page write due to I/O error on sda6                  Mar 27 21:35:46 Altair-1 kernel: Buffer I/O error on device sda6, logical block 6181918    Mar 27 21:35:46 Altair-1 kernel: lost page write due to I/O error on sda6                  Mar 27 21:35:46 Altair-1 kernel: Buffer I/O error on device sda6, logical block 6181919    Mar 27 21:35:46 Altair-1 kernel: lost page write due to I/O error on sda6                  Mar 27 21:35:46 Altair-1 kernel: Buffer I/O error on device sda6, logical block 6181920    Mar 27 21:35:46 Altair-1 kernel: lost page write due to I/O error on sda6                  Mar 27 21:35:46 Altair-1 kernel: Buffer I/O error on device sda6, logical block 6181921    Mar 27 21:35:46 Altair-1 kernel: lost page write due to I/O error on sda6                  Mar 27 21:35:46 Altair-1 kernel: Buffer I/O error on device sda6, logical block 6181922    Mar 27 21:35:46 Altair-1 kernel: lost page write due to I/O error on sda6                  Mar 27 21:35:46 Altair-1 kernel: Buffer I/O error on device sda6, logical block 6181923    Mar 27 21:35:46 Altair-1 kernel: lost page write due to I/O error on sda6                  Mar 27 21:35:46 Altair-1 kernel: Buffer I/O error on device sda6, logical block 6181924    Mar 27 21:35:46 Altair-1 kernel: lost page write due to I/O error on sda6                  Mar 27 21:35:46 Altair-1 kernel: Buffer I/O error on device sda6, logical block 6181925    Mar 27 21:35:46 Altair-1 kernel: lost page write due to I/O error on sda6                  Mar 27 21:35:46 Altair-1 kernel: sd 2:0:0:0: [sda] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK,SUGGEST_OK                                                                    Mar 27 21:35:46 Altair-1 kernel: end_request: I/O error, dev sda, sector 140414962         Mar 27 21:35:46 Altair-1 kernel: sd 2:0:0:0: [sda] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK,SUGGEST_OK                                                                    Mar 27 21:35:46 Altair-1 kernel: end_request: I/O error, dev sda, sector 184459778         Mar 27 21:35:46 Altair-1 kernel: sd 2:0:0:0: [sda] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK,SUGGEST_OK                                                                    Mar 27 21:35:46 Altair-1 kernel: end_request: I/O error, dev sda, sector 184459786         Mar 27 21:35:46 Altair-1 kernel: sd 2:0:0:0: [sda] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK,SUGGEST_OK

und so geht das dann weiter. Komischerweise hat die HD-LED auch noch Dauerlicht.
Hat jemand eine Idee? Nach dem harten Reset war die Kiste erstmal wieder da.

Über das neue Device Sony am Anfang nicht wundern, ich hatte gerade meine
Kamera angesteckt.

Gruß
Maik
 
Auch wenn das WD-Programm das Gegenteil behauptet, sieht mir das nach einer kaputten Platte aus. Was ergibt:
Code:
smartctl -a /dev/sda
 

misiu

Moderator
Teammitglied
josef-wien schrieb:
Auch wenn das WD-Programm das Gegenteil behauptet, sieht mir das nach einer kaputten Platte aus. Was ergibt:
Code:
smartctl -a /dev/sda

Ist zwar logisch, allerdings habe ich ähnliches schon gehabt, Festplatte ausgetauscht und am Ende war es der
SATA-Kontroller selbst. Nach Motherboard-Wechsel ist wieder Ruhe. Auch die angeblich defekte Platte (laut smart)
läuft weiter.

MfG
misiu
 
Im Prinzip können alle beteiligten Komponenten spinnen oder du hast einfach nur ein Temperaturproblem. Denn wenn ich das richtig sehe, ist deine Festplatte mit 10.000 U/min nicht nur schnell und laut, sondern dürfte auch ziemlich warm werden.
Checkliste:

  • SATA-Controller, Platte an anderen SATA-Anschluss stecken.
    SATA-Kabel, mit DVD-Brenner tauschen.
    Temperatur mit smartctl kontrollieren, eventuell mit offenen PC-Gehäuse betreiben.
    Als letzten Festplatte in einen anderen Rechner testen bzw auswechseln.
 
misiu schrieb:
josef-wien schrieb:
Auch wenn das WD-Programm das Gegenteil behauptet, sieht mir das nach einer kaputten Platte aus. Was ergibt:
Code:
smartctl -a /dev/sda

Ist zwar logisch, allerdings habe ich ähnliches schon gehabt, Festplatte ausgetauscht und am Ende war es der
SATA-Kontroller selbst. Nach Motherboard-Wechsel ist wieder Ruhe. Auch die angeblich defekte Platte (laut smart)
läuft weiter.

MfG
misiu

Hi,
hier die Ausgabe von smartctl -a /dev/sda

Code:
smartctl version 5.37 [i686-suse-linux-gnu] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Raptor family
Device Model:     WDC WD1500ADFD-00NLR5
Serial Number:    WD-WMAP42125559
Firmware Version: 21.07QR5
User Capacity:    150,039,945,216 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   7
ATA Standard is:  ATA/ATAPI-7 published, ANSI INCITS 397-2005
Local Time is:    Sat Mar 28 20:19:58 2009 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x84)	Offline data collection activity
					was suspended by an interrupting command from host.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		 (4783) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 (  72) minutes.
Conveyance self-test routine
recommended polling time: 	 (   5) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0007   171   163   021    Pre-fail  Always       -       4450
  4 Start_Stop_Count        0x0032   100   100   040    Old_age   Always       -       337
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000a   200   200   051    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       405
 10 Spin_Retry_Count        0x0012   100   100   051    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0012   100   100   051    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       337
194 Temperature_Celsius     0x0022   124   090   000    Old_age   Always       -       23
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0012   200   200   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x000a   200   253   000    Old_age   Always       -       1018
200 Multi_Zone_Error_Rate   0x0008   200   200   051    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Conveyance offline  Completed without error       00%       398         -
# 2  Extended offline    Interrupted (host reset)      60%       397         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Gruß
Maik
 
Tooltime schrieb:
Im Prinzip können alle beteiligten Komponenten spinnen oder du hast einfach nur ein Temperaturproblem. Denn wenn ich das richtig sehe, ist deine Festplatte mit 10.000 U/min nicht nur schnell und laut, sondern dürfte auch ziemlich warm werden.
Checkliste:

  • SATA-Controller, Platte an anderen SATA-Anschluss stecken.
    SATA-Kabel, mit DVD-Brenner tauschen.
    Temperatur mit smartctl kontrollieren, eventuell mit offenen PC-Gehäuse betreiben.
    Als letzten Festplatte in einen anderen Rechner testen bzw auswechseln.

Hi Tooltime,
ich werde mir mal die HW-Komponenten vornehmen.

Gruß
Maik
 
mwue schrieb:
199 UDMA_CRC_Error_Count 0x000a 200 253 000 Old_age Always - 1018
Das scheint in erster Linie auf das Kabel hinzudeuten. Alle anderen Werte sind in Ordnung.

Ich nehme an, die 23 Grad sind kurz nach dem Einschalten. Beobachte auf jeden Fall mit
Code:
smartctl -l scttemp /dev/sda
die Temperatur.
 
josef-wien schrieb:
mwue schrieb:
199 UDMA_CRC_Error_Count 0x000a 200 253 000 Old_age Always - 1018
Das scheint in erster Linie auf das Kabel hinzudeuten. Alle anderen Werte sind in Ordnung.

Ich nehme an, die 23 Grad sind kurz nach dem Einschalten. Beobachte auf jeden Fall mit
Code:
smartctl -l scttemp /dev/sda
die Temperatur.

Hi,
habe die Kiste aufgehabt und mal alle Kabel neu gesteckt (soll ja manchmal Wunder bewirken). Außerdem
haben die Schrauber die Platten mit Schaumstoff !!! zugedeckt (vermutlich wegen Lärm). Ich habe den
ganzen Mist erstmal rausgefetzt.
Den Parameter "scttemp" gibt es bei meinem smartctl nicht, aber -a zeigt ja auch alles an.

Also, ich beobachte weiter...

Gruß
Maik
 
Den Parameter gibt es erst seit "SMARTMONTOOLS STABLE RELEASE 5.38 2008/03/10". Schade, denn damit kann die Temperaturentwicklung (standardmäßig der letzten 128 Betriebsminuten) dargestellt werden.
 
Hi,
so ich habe jetzt seit einer Stunde in Script laufen, welches mir 4GB
in einer Endlosschleife von sda nach sdb kopiert und wieder zurück.
Die Temperaturen der HDs liegen bei 50 Grad (sda) und bei 40 Grad (sdb),
also ich denke mal, das ist normal.
Bisher ist der Fehler auch nicht wieder aufgetreten, also ich beobachte
weiter...

Gruß
Maik
 
mwue schrieb:
Die Temperaturen der HDs liegen bei 50 Grad (sda) und bei 40 Grad (sdb),
also ich denke mal, das ist normal.
Im Prinzip schon, aber auch nur wenn du garantieren kannst, das die Umweltbedingungen sich nicht ändern. Wenn der Rechner in normaler Umgebung betrieben wird (nix Klima) steigen die Temperaturen im Sommer mal locker um 10°C. Ich kenne deine Festplatte nicht, aber 60°C ist normaler Weise das Ende der zulässigen Betriebstemperatur. Ohne aktive Kühlung bewegst du dich dann auf sehr dünnen Eis.

Wenn die Platte ohne Lärmschutzverkleidung schon so warm wird, könnte die Temperatur wirklich dein Problem gewesen sein. Läuft smartd bei dir? Dann grep doch mal in der /var/log/messages nach Meldungen von smartd, vielleicht lässt so die Theorie bestätigen.
 
Hallo,
gerade mal die messages durchgrept:

Es tauchen ab und zu folgende smartd-Meldungen auf:

Mar 30 21:39:13 Altair-1 smartd[3972]: Device: /dev/sda, SMART Usage Attribute: 194 Temperature_Celsius changed from 99 to 96
Mar 30 21:39:13 Altair-1 smartd[3972]: Device: /dev/sdb, SMART Usage Attribute: 190 Temperature_Celsius changed from 75 to 71
Mar 30 21:39:13 Altair-1 smartd[3972]: Device: /dev/sdb, SMART Usage Attribute: 194 Temperature_Celsius changed from 63 to 59

Dürfte doch nicht kritisch sein, oder? Die hintere Zahl ist doch nicht wirklich die Temperatur da müssten
die Platten ja schon glühen.

Gruß
Maik
 
Schau Dir einmal die Paramter -r und -R von smartd an.

Ich habe diese regelmäßig erstellten Temoeraturänderungsmeldungen in smartd.conf abgedreht und durch eine Temperaturüberwachung ersetzt:
Code:
/dev/sdb -a -I 194 -W 0,0,48 -m root@localhost -M exec /usr/lib/smartmontools/smartd-josef
smartd-josef ist eine modifizierte Version von smartd-notify, bei der ich zusätzlich zum Popup-Fenster auch eine e-mail-Nachricht sende:
Code:
/usr/lib/powersave/powersave-notify "<b>Your hard disk drive is failing!</b>
S.M.A.R.T. message:
$SMARTD_MESSAGE" > /dev/null
cat > /root/tempfile-smartd
/bin/mail -s "S.M.A.R.T. errors detected on host: `hostname`" $SMARTD_ADDRESS < /root/tempfile-smartd
 
Oben