Zum Inhalt springen

Empfohlene Beiträge

Geschrieben

Morgen meine lieben Mitdelinquenten ;)

hab heute mal eine Frage zu einer Fehlermeldung meines Servers. In unregelmäßigen Abständen (Zeitraum: Stunden-Tage) wird mir auf der Konsole folgendes mitgeteilt:


hdb: dma_timer_expiry: dma status == 0x64

hdb: DMA interrupt recovery

hdb: lost interrupt

zum Server:

Das is ein kleiner Debian etch (stable ) Server der mir File/ftp/ntp Services bietet.

Meine Datenplatten sind mit einem Software RAID1 redundant gehalten, wobei die beiden Spiegelplatten bewusst an unterschiedlichen IDE Channels angestöpselt sind um eine etwas höhere Performance zu haben.

hda ist die Systempartition die nicht gespiegelt wird

hdb ist die erste Spiegelplatte

hdc ist das CD-Rom Laufwerk

hdd ist die zweite Spiegelplatte

Aus dem was ich bisher gefunden hab wird mir das nicht so ganz schlüssig, hier mal ne kurze Aufzählung der Varianten:

  1. Hab gelesen das es an den verwendeten Kabeln liegen kann die dann die Lese und Schreib vorgänge beeinflussen.
    Das schließe ich aus, weil ich aufgrund von Problemen beim Insatallieren neue Kabel gekauft hatte.
  2. Das der Chipsatz nicht mit Linux mag.
    Das schließe ich auch aus weil auf der Plattform vorher auch schon Debian lief und ich da nicht solche Fehler produziert hab.
  3. Die Festplatte geht langsam in die Binsen.
    Nachdem die Platte nur maximal 2 Monate alt ist und auch nichts bei Benchmarks zu bemerken ist glaube ich auch nicht hieran.

Was mich bisschen wundert ist die Tatsache das bei allem was ich dazu gefunden hab in Kombination mit Bootproblemen bestanden was bei mir nicht der Fall ist. Ich weiß das es dabei um die Aushandlung der Festplattenmodi geht die ich aber alle automatisch vom Bios verteilen lasse.

Das einzige was mir aufgefallen ist, ist das ich als ich vor kurzem viele Daten auf das raid geschoben hab oft Dateisystem Probleme hatte (inkonsistenzen etc) und mir deshalb das Filesystem in ein "Read-Only"Mode gefallen ist. Was nach einem reboot aber wieder alles sauber lief.

Hat jemand ne Idee oder weiß wo der Wurm drinnen ist?

Mfg Muchacho-man

Geschrieben

Normalerweise kommen solche Meldungen von einem defekter Festplatte/defektes Kabel/defekter Kontroller (auf Board oder Zusatzkarte). Meistens ist's aber die Platte (bei mir zumindest - gerade bei neuen Platten passiert mir das auch ganz gerne...).

Wenn mehr wissen willst was die Platte hat, dann lies doch den SMART-Controller aus (unter Linux heißen mögliche Tools dafür "smartmontools").

Geschrieben

Mh nachdem ich smartmontools installiert hab, mich bisschen drüber belesen hab und gleich tests laufen lassen, allerdings werden mir dort keine fehler oder ähnliches angezeigt. Ich bezweifle das es an den Platten liegt... Das mit dem Chipsatz scheint mir noch ne Möglichkeit zu sein. Gibts da möglichkeiten auf Funktion zu Prüfen?

Geschrieben

Da gibt's zwei einfache Möglichkeiten:

  • Tausche die entsprechende Platte gegen eine Andere. Gibt's immer noch die gleichen Probleme, dann liegt's am Kontroller (oder doch am Kabel).
  • Setzte die Platte in eine andere Maschine. Falls dort die gleichen Probleme hast, dann ist's doch die Platte.

Kleiner Nachtrag: Wenn die smartmontools Fehler melden ist es eh schon zu spät. Die Werte da drin sollte man auf Veränderung beobachten damit man rechtzeitig reagieren kann. Ah ja, nochwas: In ein paar seltenen Fällen hatte ich schon mal, dass ein BIOS Update diese Probleme beseitigt hat. Schon mal in die Richtung gesucht?

Geschrieben

joa hab schon das neuste Bios drauf...

Sollte wenn der Chipsatz einen Fehler produziert nicht auch /dev/hda von dem Fehler betroffen sein oder kann das dann spezifisch zwischen Master und Slave auftreten (sprich /dev/hda und /dev/hdb unabhängig)? Denn der Fehler tritt wie gesagt nur bei der zweiten Platte auf...

Die Theorie mit dem Kabel kann ich mir fast nicht vorstellen weil ich mir die kabel vor dem Einbau der Hardware neu gekauft hab... will zwar einen Produktionsfehler nicht ganz und gar ausschließen halte ihn aber eher für unwahrscheinlich.

Geschrieben

War alles schon da, hat's alles schon gegeben... Ernsthaft: Ja, kann schon sein. Ich selbst hatte den Fall auch schon ein paar mal, dass mehrere Platten gingen, eine nicht. Und gelegen hat's am Board.

  • 1 Monat später...
Geschrieben

UPDATE:

Nach einigem Suchen und Nachlesen im Internet hab ich Zufällig etwas darüber gelesen dass dieses Verhalten auf defekten Arbeitsspeicher zurrück zu führen ist. Auch mein Problem mit dem Korrumpierten Dateisystem hat sich dadurch scheinbar behoben.

Dadurch das ich über 1 GB Ram eingebaut hatte, hat es scheinbar erst nach einiger Zeit bzw höherem Datenaufkommen, dazu geführt das "falsche", "kaputte" Daten übertragen wurden, die zunächst den Controller und danach das Filesystem beeinträchtigt hatten.

Nachdem ich einen Memtest hab laufen lassen und den Riegel ausgebaut hab, habe ich keine Probleme mehr mit meinem Server.

Trotzdem ein ganz großes Danke für dein mitdenken Dr.Disk...

Dein Kommentar

Du kannst jetzt schreiben und Dich später registrieren. Wenn Du ein Konto hast, melde Dich jetzt an, um unter Deinem Benutzernamen zu schreiben.

Gast
Auf dieses Thema antworten...

×   Du hast formatierten Text eingefügt.   Formatierung wiederherstellen

  Nur 75 Emojis sind erlaubt.

×   Dein Link wurde automatisch eingebettet.   Einbetten rückgängig machen und als Link darstellen

×   Dein vorheriger Inhalt wurde wiederhergestellt.   Editor leeren

×   Du kannst Bilder nicht direkt einfügen. Lade Bilder hoch oder lade sie von einer URL.

Fachinformatiker.de, 2024 by SE Internet Services

fidelogo_small.png

Schicke uns eine Nachricht!

Fachinformatiker.de ist die größte IT-Community
rund um Ausbildung, Job, Weiterbildung für IT-Fachkräfte.

Fachinformatiker.de App

Download on the App Store
Get it on Google Play

Kontakt

Hier werben?
Oder sende eine E-Mail an

Social media u. feeds

Jobboard für Fachinformatiker und IT-Fachkräfte

×
×
  • Neu erstellen...