Veröffentlicht 22. April 201015 j Moin Leute, folgendes Szenario eben: unsere Website war von innen und außen nicht mehr erreichbar. Ich habe dann auf dem Server nachgeschaut, keine load, keine CPU-Auslastung, genug freier RAM vorhanden, genug freier Festplattenplatz vorhanden. "ps -A | grep apache2" brachte mir ca. 30 Childs zum Vorschein, einer davor war 18min alt, alle anderen nie älter als 10sek. Ab dem Zeitpunkt, ab dem die Website tot war, hat der Apache im error_log nichts mehr protokolliert, der nächste Eintrag stamme vom Neustart (des Indianers). Es waren keine auffäliigen Einträge dabei. Das Problem war mit einem stop/start des Apachen behoben. Was könnte das gewesen sein? Access_log prüf ich noch, dass muss erstmal auf meine lokale Kiste gebuttert werden, ist 11GB groß (Firma, die eigentlich die Dinger betreut (weil Wartungsvertrag zwecks Webshop bei denen) hat irgendwie von logrotate noch nichts gehört). Gruß axxis
22. April 201015 j Autor So, das Access_Log ist erfolgreich übertragen und gesplittet: in der Zeit des Absturzes muss sich die Logging Funktion total verhaspelt haben: x.x.x.x - - [22/Apr/2010:14:54:31 +0200] "GET /xxx.jpg HTTP/1.1" 200 509 x.x.x.x - - [22/Apr/2010:14:54:31 +0200] "GET /xxx.jpg HTTP/1.1" 200 3697 x.x.x.x - - [22/Apr/2010:14:53:23 +0200] "GET /xxx.css?VERSION=31 HTTP/1.1" 200 86584 x.x.x.x - - [22/Apr/2010:14:58:23 +0200] "GET /xxx.jpg HTTP/1.1" 200 8894 x.x.x.x - - [22/Apr/2010:14:51:21 +0200] "GET /xxx.html?queryFromSuggest=&[...] HTTP/1.1" 200 42960 x.x.x.x - - [22/Apr/2010:14:53:57 +0200] "GET /xxx.html HTTP/1.1" 200 35329 x.x.x.x - - [22/Apr/2010:15:05:49 +0200] "GET /favicon.ico HTTP/1.1" 200 3638 Die letzten Einträge sind von der Zeit her total durcheinander gewürfelt. Gruß axxis
22. April 201015 j Ich würde jetzt erstmal schauen, ob merkwürdige HTTP-Requests zu der Zeit aufgetreten sind in dem Zeitraum, in dem der Prozess abgestürzt ist. Habt ihr einen Verlauf der Load-, CPU- und RAM-Auslastung gespeichert? Dass das Protokoll nicht chronologisch geordnet ist, könnte daran liegen, dass die Informationen nicht zeitnah in die Datei geschrieben werden konnten, durch die existenten Childs (zu hohe I/O, Kanäle nicht geflushed?).
23. April 201015 j Autor Moin, CPU, RAM und Load-Werte haben wir nicht abgespeichert, da unser Partner (der, der es nicht rafft mal nen logrotate einzurichten) es auch nicht gebacken bekommt, die nagios- bzw. icinga-plugins auf den Kisten zu installieren. Kurze Zeit vor dem Absturz (ca. 5min) hat eine IP-Adresse immer wieder einen selben Request auf eine ganz bestimmte Suchanfrage innerhalb unseres CMS gestellt. Das sind grob überblickt mehrere hundert Anfragen innerhalb von 5min. Allerdings hat das ca. 2min vor Ausfall wieder aufgehört. Kanäle flushen? Kannst du mir das kurz näher bringen ? Gruß axxis
23. April 201015 j es auch nicht gebacken bekommt, die nagios- bzw. icinga-plugins auf den Kisten zu installieren. SNMPd reicht doch vollkommen aus für CPU, RAM und Load... Fürn Apache Mod_Status Und dann alles in nen (externes) Cacti schaufeln.. Zugriff auf die Mod_Status Seite und per SNMP reicht da vollkommen aus ... Wenn du dann noch Warnungen haben willst Cacti_THold dazu und scho is gut
23. April 201015 j Autor Wie schon gesagt ICH bzw. wir würden das gern umsetzen, aber das System wird "eigentlich" von Externen betreut, wobei wir die ******e aus auslöffeln müssen, wenn was passiert. Traurig aber wahr. Gruß axxis
23. April 201015 j Wie sah denn der Request aus? Einige hundert Mal den selben Request abzusenden, macht bestimmt kein normaler Browser.
26. April 201015 j Autor Moin, der Request war eine ganz bestimme Suche über die Shopsuchfunktion. Kann leider auf Grund der PHP SessionID, die terminiert ist, nicht mehr nachvollziehen, wonach genau da gesucht wurde. Gruß axxis
Archiv
Dieses Thema wurde archiviert und kann nicht mehr beantwortet werden.