r00tcc Geschrieben 28. Mai 2015 Teilen Geschrieben 28. Mai 2015 Hallo zusammen, ich habe einen Nagios Server konfiguriert, welcher 20 Server überwacht. Seit letzten Freitag ist Nagios im Einsatz. Als ich am Montag ins Büro kam kamen schon die ersten Anrufe, dass Rechner und Maschinen langsam sind. Zwei Beispiele: 1) In der Kunststofftechnik laufen Maschinen. Die Maschinen konnte man anpingen. Allerdings kam es wenn man einen dauerhaften Ping laufen ließ zwischendurch zu einer Zeitüberschreitung der Anforderung. 2) Druckaufträge aus dem ERP System dauerten teilweise 2-5 Minuten. Wir haben sehr lange probiert die Fehler zu lokalisieren. Als wir gestern den Wireshark durchlaufen ließen haben wir festgestellt, dass der Nagios Server dauernt durch das Netwerk pollt. Der Nagios Server wurde abgeschaltet und siehe da alle Probleme waren von jetzt auf gleich behoben. Wie kann das sein, dass Nagios das Netzwerk so auslastet? Sind manche Konfigurationen eventuell falsch konfiguert worden? Über Lösungsansätze bin ich sehr dankbar LG Zitieren Link zu diesem Kommentar Auf anderen Seiten teilen Mehr Optionen zum Teilen...
carstenj Geschrieben 28. Mai 2015 Teilen Geschrieben 28. Mai 2015 Hi, also je nach Einstellung Pingt der einen Server alle zwei Minuten an. Das kann eigentlich nicht das Problem sein. Wenn du 20 Server hast, werden die nach und nach durchgepingt und evtl. noch andere Dinge überwacht, und dann ist natürlich klar dass da ständig Traffic durchgejagt wird. Aber das ist nichts, was durchschnittliche, aktuelle Hardware auch nur im Ansatz so belasten würde, dass irgendwas merklich langsamer würde. Ich würde vermutlich eher mal in Richtung Netzwerkkomponenten forschen. Zitieren Link zu diesem Kommentar Auf anderen Seiten teilen Mehr Optionen zum Teilen...
dirk12345 Geschrieben 29. Mai 2015 Teilen Geschrieben 29. Mai 2015 Prinzipiell stimme ich carstenj zu und würde mich auch nicht zu sehr auf Nagios und die Standard Checks versteifen und eher an anderen Stellen, vor allem den Netzwerkkomponenten (NIC, Kabel, Switchport etc.) + Einstellungen, nach der Ursache suchen. Dennoch solltest Du schon mal einen Blick auf die allgemeine Performance des Servers und die Performancedaten von Nagios (Webinterface -> Performance Info) werfen. Interessant ist, das alles schnell läuft wenn der Nagios Server ausgeschaltet wird. Ich bin schon oft damit konfrontiert worden, dass vermutet wurde das schlechte Performance durch das Monitoring verursacht wird und es hat sich bis dato immer (100%) herausgestellt, dass es nicht am Monitoring lag. Wenn Du die Hardwarekomponenten ausschließen kannst und es trotzdem noch Probleme gibt, könntest Du auf Eurem Monitoring Server auch einfach mal nur den Nagios Dienst beenden und die Server von der Konsole aus anpingen und schauen was passiert. Dann Nagios einschalten, mal nur einen Server überwachen und nach und nach weitere dazu nehmen. Dann kannst Du Dich an das Problem herantasten und findest so wahrscheinlich auch die Ursache. Zitieren Link zu diesem Kommentar Auf anderen Seiten teilen Mehr Optionen zum Teilen...
docbrown0_1 Geschrieben 30. Mai 2015 Teilen Geschrieben 30. Mai 2015 Hallo zusammen, ich habe einen Nagios Server konfiguriert, welcher 20 Server überwacht. Seit letzten Freitag ist Nagios im Einsatz. Als ich am Montag ins Büro kam kamen schon die ersten Anrufe, dass Rechner und Maschinen langsam sind. Zwei Beispiele: 1) In der Kunststofftechnik laufen Maschinen. Die Maschinen konnte man anpingen. Allerdings kam es wenn man einen dauerhaften Ping laufen ließ zwischendurch zu einer Zeitüberschreitung der Anforderung. 2) Druckaufträge aus dem ERP System dauerten teilweise 2-5 Minuten. Wir haben sehr lange probiert die Fehler zu lokalisieren. Als wir gestern den Wireshark durchlaufen ließen haben wir festgestellt, dass der Nagios Server dauernt durch das Netwerk pollt. Der Nagios Server wurde abgeschaltet und siehe da alle Probleme waren von jetzt auf gleich behoben. Wie kann das sein, dass Nagios das Netzwerk so auslastet? Sind manche Konfigurationen eventuell falsch konfiguert worden? Über Lösungsansätze bin ich sehr dankbar LG Nutze zum Abfragen passive Verbindungen mit check_mk. Nur so können viele Hosts ohne größere Netzwerkbelastungen regelmäßig abgefragt werden. Zitieren Link zu diesem Kommentar Auf anderen Seiten teilen Mehr Optionen zum Teilen...
Asura Geschrieben 2. Juni 2015 Teilen Geschrieben 2. Juni 2015 Nutze zum Abfragen passive Verbindungen mit check_mk. Nur so können viele Hosts ohne größere Netzwerkbelastungen regelmäßig abgefragt werden. Nagios sorgt natürlich für eine gewisse Auslastung, allerdings dürfte es eine relativ aktuelle Hardware nicht im entferntesten jucken. Wie hast du deine Checks definiert? Du kannst Zeitintervalle konfigurieren und anpassen. Bei 20 überwachten Rechnern dürfte so eine starke Auslastung nicht der Fall sein. Network-Monitoring wird oft als Ursache für so ein Störverhalten gesehen, ist es aber in den wenigstens Fällen. Wie meine Vorgänger würde ich als erstes auf die Hardware losgehen, kann es ausgeschlossen werden ein wenig in den Konfigurationen arbeiten. Wie kann das sein, dass Nagios das Netzwerk so auslastet? Sollte nicht sein, nicht bei 20 Systemen. Sind manche Konfigurationen eventuell falsch konfiguert worden? Können wir nicht sagen, würde aber eher darauf tippen, dass trotz "falscher" Konfigurationen, das Netzwerk nicht so ausgelastet werden sollte. Rechner langsam inwiefern? Nagios hat eigentlich nur Lesezugriff und sollte kein komplettes System verlangsamen.. Mal davon ausgegangen, dass die Anrufe von typischen User kamen und sie sich ungefähr jede Kleinigkeit einbilden und aufs neue System schieben. Meine Schritte wären ebenfalls als erstes die Hardware zu überprüfen und danach mal Konfigurationen zu überprüfen und gegebenenfalls die Abfragen in einerm größeren Zeitraum zu machen, antatt alle 10s Pingen mal alle 2-3 Minuten und die Standardchecks alle 5min. Du hast ein Template, kann man es ja schön definieren. Gruß, AsuraDeYien Zitieren Link zu diesem Kommentar Auf anderen Seiten teilen Mehr Optionen zum Teilen...
Crash2001 Geschrieben 3. Juni 2015 Teilen Geschrieben 3. Juni 2015 Ich meine - gut, hängt halt davon ab, wie ausgelastet die Maschinen und das Netzwerk vorher bereits waren, und was für Services alles abgefragt wird, aber 20 Maschinen ist definitiv keine Größe, bei der ein Netzwerk lahmgelegt werden sollte. Da muss schon irgendetwas falsch konfiguriert sein, oder aber die Maschinen vorher schon am Leistungslimit gelaufen sein, so dass das nun das Fass zum überlaufen gebracht hat. Davon gehe ich aber eigentlich eher nicht aus, denn alle x Sekunden einen Ping oder eine SNMP-Abfrage zu beantworten lastet weder ein System, noch das Netzwerk spürbar aus, wenn es vernünftig aufgebaut ist. Es gibt diverse sachen, die das Netzwerk lahmlegen könnten, die mir spontan dazu einfallen würden. defekte HardwareHardware, bei der die Autonegotiation versagt, oder die statisch und falsch konfiguriert sind und somit im Half-Duplex-Modus laufen und Kollisionen verursachen.physikalische Schleifen im Netz, so dass sich der Broadcast-Traffic langsam hochschaukelt.Routing-Loops im NetzTeile des Netzes noch per Hub statt Switch angebundenFirewalls als Flaschenhals im Netz und da nun doch einiges mehr an Abfragen regelmässig übers Netz geht, dass die Durchsatzrate der Firewall einfach erreicht ist.Auslastung auf DNS-Server zu hoch oder falsch konfiguriert, so dass dieser beim DNS schwächelt. Vor allem wenn RDNS nicht richtig funktioniert, kann es durchaus auch zu derartigen Symptomen kommen. Dann geht die Rückwärtsauflösung einfach zu langsam / nicht richtig und dadurch werden diverse Abfragen verzögert.... Was für Hardware wird denn überhaupt verwendet? Ich gehe in der heutigen Zeit eigentlich mindestens von einem 100MBit-Full-Duplex-Netz aus, wenn nicht sogar 1Gbit/s komplett durch die Reihe. Zitieren Link zu diesem Kommentar Auf anderen Seiten teilen Mehr Optionen zum Teilen...
Empfohlene Beiträge
Dein Kommentar
Du kannst jetzt schreiben und Dich später registrieren. Wenn Du ein Konto hast, melde Dich jetzt an, um unter Deinem Benutzernamen zu schreiben.