Rätselhaftes Verhalten eines Servers bei "stress"
Ich habe in die letzten Tage damit verbracht, dass Verhalten eines Server unter "stress" zu deuten. Nach einiger Zeit (halbe Stunde, bis vier Stunden) ist der Server wie tot. Das Consolen-Wechseln (Alt-F1 usw.) geht nicht mehr. Tasten haben auch sonst keine Wirkung. Manchmal tritt dieser Effekt auch genau dann auf, wenn man gerade eine Taste drückt. Auch ein Ping über's Netzwerk wird dann (unter Umständen, nicht immer) nicht mehr beantwortet. Manchmal ist der Server übers Netzwerk aber noch normal nutzbar. Das Verhalten ist höchst unterschiedlich.
Was meist noch geht, ist ein Alt-SysRq-i, um alle Prozesse zu killen. Wenn man das gemacht hat, ist alles wieder in Ordnung, die Maschine ist normal nutzbar.
Ich beobachte, das Problem auf verschiedenen, aber baugleichen Maschinen. Ein einmaliger Hardware-Defekt scheidet damit aus.
Ich habe jetzt schon verschiedenste Sachen variiert. RAID-Controller-Firmware, Steckplatz, RAID-Level, andere Festplatte, anderer Linux-Treiber, Kernel, etc. Ändert alles nichts.
Zur Maschine: 2 x XEON E5420, Adaptec 8505, 8 Platten.
Debian-Lenny, Standard-Kernel 2.6.26-2.
Stress lief mit den Parametern aus der man-page.
stress --cpu 8 --io 4 --vm 2 --vm-bytes 128M --timeout 10h
Ich hab das Gefühl, dass sich die Interrupts irgendwann überschlagen, es zu irgendwo zu einem Deadlock kommt und dann alles steht. Kann man das irgendworan festmachen? Hat jemand solche Effekte auch schonmal gehabt?
|