Linux Load größer 170

M

MaierCH

Grünschnabel
Hallo zusammen,


seit einigen Tagen hängt sich mein Linux Server (Ubuntu) mit einer schmalen Nagios/NDO/MySQL Installation ständig auf. Es wird über einen längeren Zeitraum ein Load von über 170 erzeugt mit einer hohen Anzahl an Prozessen.

top - 20:34:56 up 3:13, 1 user, load average: 168.07, 167.98, 162.00
Tasks: 631 total, 3 running, 628 sleeping, 0 stopped, 0 zombie
Cpu(s): 11.3%us, 86.7%sy, 0.0%ni, 0.0%id, 0.0%wa, 0.0%hi, 2.0%si, 0.0%st
Mem: 2072680k total, 2020712k used, 51968k free, 2720k buffers
Swap: 827308k total, 16300k used, 811008k free, 808988k cached

Wie kann ich das Problem lokalisieren bzw. wie bekomme ich das System in einen erträglichen Zustand ???

Danke

Grüße

Chris
 
Ich würd mal sagen, dass das daran liegen wird, dass du im swap heurmfährst.
Schau dir mal an was so viel ram verbraucht und sägs ab.

Mit "swapoff -a" kannst du den swapspace deaktivieren, damit kannst du das os zwingen alle daten aus dem swap in den ram zu laden. Für den laufenden zustand würd ich den swap aber wieder aufdrehen.

Ich nehm stark an das das entweder an einem Programm mit Memoryleaks, oder an einer zu großen Datenbank liegen wird.

Wenns memoryleaks sind probier eine neuere Version für das Programm einzuspielen und drück die daumen, dass das dort gefixt wurde.

Wenns die Datenbank ist kannst du dir ram dazukaufen, oder deinen usern limits setzen.
 
Interessant fände ich ja, welche Prozesse da aktiv sind (oder eben darauf warten, dass sie aktiv werden dürfen). Wieviele Services überwachst du mit deiner Nagios-Installation? Warten da eventuell massenweise irgendwelche Plugins darauf, dass sie Ergebnisse bekommen?

(NB: wenn von >800 MB swap space gerade mal 16 MB belegt sind, und von 2 GB RAM noch 50 MB frei sind, würde ich zunächst mal nicht auf einen Engpass beim Paging/Swapping tippen, aber ich lass mich da gerne aufklären ...)

Ansonsten natürlich mal die üblichen Verdächtigen abchecken: die letzten Einträge in den verschiedenen Logs (/var/log/messages, Fehlermeldungen auf der Konsole, Nagios-Logs, etc.)

Gruss,
A.
 
Durch übermäßiges Swappen kommt die Last offenbar nicht. Da wäre die Swap-Partition schon voller und es steht ja auch noch eine Menge Cache zur Verfügung. Der Prozessor frisst aber eine Menge Systemzeit, also könnte der HDD-Durchsatz, ein übermäßiges Forken bzw. Erstellen/Zerstören von Prozessen oder das Netzwerk für die Last verantwortlich sein. Da der Rechner primär mit Nagios beschäftigt zu sein scheint, würde ich darauf tippen, dass die Prozesse, die durch die Plugins zustande kommen, für die hohe Last vertantwortlich sind. Du musst also nur rausbekommen ob irgendwo ein Loop existiert, der dafür sorgt, dass solche Prozesse sehr schnell erzeugt werden, oder ob da irgendwelche Plugins hängen, die auf Antworten warten. Ein genauer Blick in die Nagios-Logs dürfte da weiterhelfen. Vor allem auch mal auf die Timestamps der Logs achten.
 
Hallo,

danke für die Feedbacks, mittlerweile läuft der Server wieder IO
Stressauslöser ware ein wildgewordener Cron Job den ich auch noch selbs definiert hatte :(.

Grüße

Chris
 

Ähnliche Themen

load avarage permanent 10

NagiosGrapher 1.7.1 funktioniert nicht

RHEVM-SETUP Fehler bei der Erstellung der Datenbank

Problem mit Apache2 + MySQL Server

100% CPU Usage, über 50% vom System

Zurück
Oben