geloescht_Muchacho-Man Geschrieben 15. Mai 2008 Geschrieben 15. Mai 2008 Morgen meine lieben Mitdelinquenten hab heute mal eine Frage zu einer Fehlermeldung meines Servers. In unregelmäßigen Abständen (Zeitraum: Stunden-Tage) wird mir auf der Konsole folgendes mitgeteilt: hdb: dma_timer_expiry: dma status == 0x64 hdb: DMA interrupt recovery hdb: lost interrupt zum Server: Das is ein kleiner Debian etch (stable ) Server der mir File/ftp/ntp Services bietet. Meine Datenplatten sind mit einem Software RAID1 redundant gehalten, wobei die beiden Spiegelplatten bewusst an unterschiedlichen IDE Channels angestöpselt sind um eine etwas höhere Performance zu haben. hda ist die Systempartition die nicht gespiegelt wird hdb ist die erste Spiegelplatte hdc ist das CD-Rom Laufwerk hdd ist die zweite Spiegelplatte Aus dem was ich bisher gefunden hab wird mir das nicht so ganz schlüssig, hier mal ne kurze Aufzählung der Varianten: Hab gelesen das es an den verwendeten Kabeln liegen kann die dann die Lese und Schreib vorgänge beeinflussen. Das schließe ich aus, weil ich aufgrund von Problemen beim Insatallieren neue Kabel gekauft hatte.Das der Chipsatz nicht mit Linux mag. Das schließe ich auch aus weil auf der Plattform vorher auch schon Debian lief und ich da nicht solche Fehler produziert hab.Die Festplatte geht langsam in die Binsen. Nachdem die Platte nur maximal 2 Monate alt ist und auch nichts bei Benchmarks zu bemerken ist glaube ich auch nicht hieran. Was mich bisschen wundert ist die Tatsache das bei allem was ich dazu gefunden hab in Kombination mit Bootproblemen bestanden was bei mir nicht der Fall ist. Ich weiß das es dabei um die Aushandlung der Festplattenmodi geht die ich aber alle automatisch vom Bios verteilen lasse. Das einzige was mir aufgefallen ist, ist das ich als ich vor kurzem viele Daten auf das raid geschoben hab oft Dateisystem Probleme hatte (inkonsistenzen etc) und mir deshalb das Filesystem in ein "Read-Only"Mode gefallen ist. Was nach einem reboot aber wieder alles sauber lief. Hat jemand ne Idee oder weiß wo der Wurm drinnen ist? Mfg Muchacho-man Zitieren
dr.disk Geschrieben 15. Mai 2008 Geschrieben 15. Mai 2008 Normalerweise kommen solche Meldungen von einem defekter Festplatte/defektes Kabel/defekter Kontroller (auf Board oder Zusatzkarte). Meistens ist's aber die Platte (bei mir zumindest - gerade bei neuen Platten passiert mir das auch ganz gerne...). Wenn mehr wissen willst was die Platte hat, dann lies doch den SMART-Controller aus (unter Linux heißen mögliche Tools dafür "smartmontools"). Zitieren
geloescht_Muchacho-Man Geschrieben 15. Mai 2008 Autor Geschrieben 15. Mai 2008 Mh nachdem ich smartmontools installiert hab, mich bisschen drüber belesen hab und gleich tests laufen lassen, allerdings werden mir dort keine fehler oder ähnliches angezeigt. Ich bezweifle das es an den Platten liegt... Das mit dem Chipsatz scheint mir noch ne Möglichkeit zu sein. Gibts da möglichkeiten auf Funktion zu Prüfen? Zitieren
dr.disk Geschrieben 16. Mai 2008 Geschrieben 16. Mai 2008 Da gibt's zwei einfache Möglichkeiten: Tausche die entsprechende Platte gegen eine Andere. Gibt's immer noch die gleichen Probleme, dann liegt's am Kontroller (oder doch am Kabel).Setzte die Platte in eine andere Maschine. Falls dort die gleichen Probleme hast, dann ist's doch die Platte. Kleiner Nachtrag: Wenn die smartmontools Fehler melden ist es eh schon zu spät. Die Werte da drin sollte man auf Veränderung beobachten damit man rechtzeitig reagieren kann. Ah ja, nochwas: In ein paar seltenen Fällen hatte ich schon mal, dass ein BIOS Update diese Probleme beseitigt hat. Schon mal in die Richtung gesucht? Zitieren
geloescht_Muchacho-Man Geschrieben 16. Mai 2008 Autor Geschrieben 16. Mai 2008 joa hab schon das neuste Bios drauf... Sollte wenn der Chipsatz einen Fehler produziert nicht auch /dev/hda von dem Fehler betroffen sein oder kann das dann spezifisch zwischen Master und Slave auftreten (sprich /dev/hda und /dev/hdb unabhängig)? Denn der Fehler tritt wie gesagt nur bei der zweiten Platte auf... Die Theorie mit dem Kabel kann ich mir fast nicht vorstellen weil ich mir die kabel vor dem Einbau der Hardware neu gekauft hab... will zwar einen Produktionsfehler nicht ganz und gar ausschließen halte ihn aber eher für unwahrscheinlich. Zitieren
dr.disk Geschrieben 16. Mai 2008 Geschrieben 16. Mai 2008 War alles schon da, hat's alles schon gegeben... Ernsthaft: Ja, kann schon sein. Ich selbst hatte den Fall auch schon ein paar mal, dass mehrere Platten gingen, eine nicht. Und gelegen hat's am Board. Zitieren
geloescht_Muchacho-Man Geschrieben 8. Juli 2008 Autor Geschrieben 8. Juli 2008 UPDATE: Nach einigem Suchen und Nachlesen im Internet hab ich Zufällig etwas darüber gelesen dass dieses Verhalten auf defekten Arbeitsspeicher zurrück zu führen ist. Auch mein Problem mit dem Korrumpierten Dateisystem hat sich dadurch scheinbar behoben. Dadurch das ich über 1 GB Ram eingebaut hatte, hat es scheinbar erst nach einiger Zeit bzw höherem Datenaufkommen, dazu geführt das "falsche", "kaputte" Daten übertragen wurden, die zunächst den Controller und danach das Filesystem beeinträchtigt hatten. Nachdem ich einen Memtest hab laufen lassen und den Riegel ausgebaut hab, habe ich keine Probleme mehr mit meinem Server. Trotzdem ein ganz großes Danke für dein mitdenken Dr.Disk... Zitieren
Empfohlene Beiträge
Dein Kommentar
Du kannst jetzt schreiben und Dich später registrieren. Wenn Du ein Konto hast, melde Dich jetzt an, um unter Deinem Benutzernamen zu schreiben.