DMA_timer_expiry

geloescht_Muchacho-Man · 15. Mai 2008

Morgen meine lieben Mitdelinquenten

hab heute mal eine Frage zu einer Fehlermeldung meines Servers. In unregelmäßigen Abständen (Zeitraum: Stunden-Tage) wird mir auf der Konsole folgendes mitgeteilt:


hdb: dma_timer_expiry: dma status == 0x64

hdb: DMA interrupt recovery

hdb: lost interrupt

zum Server:

Das is ein kleiner Debian etch (stable ) Server der mir File/ftp/ntp Services bietet.

Meine Datenplatten sind mit einem Software RAID1 redundant gehalten, wobei die beiden Spiegelplatten bewusst an unterschiedlichen IDE Channels angestöpselt sind um eine etwas höhere Performance zu haben.

hda ist die Systempartition die nicht gespiegelt wird

hdb ist die erste Spiegelplatte

hdc ist das CD-Rom Laufwerk

hdd ist die zweite Spiegelplatte

Aus dem was ich bisher gefunden hab wird mir das nicht so ganz schlüssig, hier mal ne kurze Aufzählung der Varianten:

Hab gelesen das es an den verwendeten Kabeln liegen kann die dann die Lese und Schreib vorgänge beeinflussen.
Das schließe ich aus, weil ich aufgrund von Problemen beim Insatallieren neue Kabel gekauft hatte.
Das der Chipsatz nicht mit Linux mag.
Das schließe ich auch aus weil auf der Plattform vorher auch schon Debian lief und ich da nicht solche Fehler produziert hab.
Die Festplatte geht langsam in die Binsen.
Nachdem die Platte nur maximal 2 Monate alt ist und auch nichts bei Benchmarks zu bemerken ist glaube ich auch nicht hieran.

Was mich bisschen wundert ist die Tatsache das bei allem was ich dazu gefunden hab in Kombination mit Bootproblemen bestanden was bei mir nicht der Fall ist. Ich weiß das es dabei um die Aushandlung der Festplattenmodi geht die ich aber alle automatisch vom Bios verteilen lasse.

Das einzige was mir aufgefallen ist, ist das ich als ich vor kurzem viele Daten auf das raid geschoben hab oft Dateisystem Probleme hatte (inkonsistenzen etc) und mir deshalb das Filesystem in ein "Read-Only"Mode gefallen ist. Was nach einem reboot aber wieder alles sauber lief.

Hat jemand ne Idee oder weiß wo der Wurm drinnen ist?

Mfg Muchacho-man

dr.disk · 15. Mai 2008

Normalerweise kommen solche Meldungen von einem defekter Festplatte/defektes Kabel/defekter Kontroller (auf Board oder Zusatzkarte). Meistens ist's aber die Platte (bei mir zumindest - gerade bei neuen Platten passiert mir das auch ganz gerne...).

Wenn mehr wissen willst was die Platte hat, dann lies doch den SMART-Controller aus (unter Linux heißen mögliche Tools dafür "smartmontools").

geloescht_Muchacho-Man · 15. Mai 2008

Mh nachdem ich smartmontools installiert hab, mich bisschen drüber belesen hab und gleich tests laufen lassen, allerdings werden mir dort keine fehler oder ähnliches angezeigt. Ich bezweifle das es an den Platten liegt... Das mit dem Chipsatz scheint mir noch ne Möglichkeit zu sein. Gibts da möglichkeiten auf Funktion zu Prüfen?

dr.disk · 16. Mai 2008

Da gibt's zwei einfache Möglichkeiten:

Tausche die entsprechende Platte gegen eine Andere. Gibt's immer noch die gleichen Probleme, dann liegt's am Kontroller (oder doch am Kabel).
Setzte die Platte in eine andere Maschine. Falls dort die gleichen Probleme hast, dann ist's doch die Platte.

Kleiner Nachtrag: Wenn die smartmontools Fehler melden ist es eh schon zu spät. Die Werte da drin sollte man auf Veränderung beobachten damit man rechtzeitig reagieren kann. Ah ja, nochwas: In ein paar seltenen Fällen hatte ich schon mal, dass ein BIOS Update diese Probleme beseitigt hat. Schon mal in die Richtung gesucht?

geloescht_Muchacho-Man · 16. Mai 2008

joa hab schon das neuste Bios drauf...

Sollte wenn der Chipsatz einen Fehler produziert nicht auch /dev/hda von dem Fehler betroffen sein oder kann das dann spezifisch zwischen Master und Slave auftreten (sprich /dev/hda und /dev/hdb unabhängig)? Denn der Fehler tritt wie gesagt nur bei der zweiten Platte auf...

Die Theorie mit dem Kabel kann ich mir fast nicht vorstellen weil ich mir die kabel vor dem Einbau der Hardware neu gekauft hab... will zwar einen Produktionsfehler nicht ganz und gar ausschließen halte ihn aber eher für unwahrscheinlich.

dr.disk · 16. Mai 2008

War alles schon da, hat's alles schon gegeben... Ernsthaft: Ja, kann schon sein. Ich selbst hatte den Fall auch schon ein paar mal, dass mehrere Platten gingen, eine nicht. Und gelegen hat's am Board.

geloescht_Muchacho-Man · 8. Juli 2008

UPDATE:

Nach einigem Suchen und Nachlesen im Internet hab ich Zufällig etwas darüber gelesen dass dieses Verhalten auf defekten Arbeitsspeicher zurrück zu führen ist. Auch mein Problem mit dem Korrumpierten Dateisystem hat sich dadurch scheinbar behoben.

Dadurch das ich über 1 GB Ram eingebaut hatte, hat es scheinbar erst nach einiger Zeit bzw höherem Datenaufkommen, dazu geführt das "falsche", "kaputte" Daten übertragen wurden, die zunächst den Controller und danach das Filesystem beeinträchtigt hatten.

Nachdem ich einen Memtest hab laufen lassen und den Riegel ausgebaut hab, habe ich keine Probleme mehr mit meinem Server.

Trotzdem ein ganz großes Danke für dein mitdenken Dr.Disk...

Anmelden

DMA_timer_expiry

Empfohlene Beiträge

geloescht_Muchacho-Man

dr.disk

geloescht_Muchacho-Man

dr.disk

geloescht_Muchacho-Man

dr.disk

geloescht_Muchacho-Man

Dein Kommentar

Fachinformatiker Jobs

Fachinformatiker.de, 2024 by SE Internet Services

Links

Fachinformatiker.de App

Kontakt

Social media u. feeds

Jobboard für Fachinformatiker und IT-Fachkräfte

Umsehen

Aktivitäten

Stellenanzeigen

Blog

Über Fachinformatiker.de