Bei meiner VM auf der dieser Blog laeuft ist in den letzten Tage oefter mal MySQL abgestuerzt. Das ist ziemlich aergerlich da dann der Blog und einige andere Dinge auch nicht mehr funktionieren. Da ich nur eingeschraenkt vor dem Rechner sitze und es ueber mein Handy sehr umstaendlich ist mittels MidpSSH sich einzuloggen und den Dienst neuzustarten, hab ich mich kurz mit den EventHandlern bei Nagios auseinandergesetzt und im folgenden eine kurze Anleitung was ich gemacht habe:
Lesen: das und das und viele andere Dinge bis ich schliesslich bei dem Artikel „Event Handlers heute mal dynamisch“ (PDF) von RomanK im Nagios-Portal Forum gelandet bin.
Alle im folgenden hier genannten Skripte sind nicht mein Werk, sondern stammen aus besagtem Artikel und wurden von mir auf die Debian-Verhaeltnisse meines Servers und auf meine Problematik angepasst.
Definition des Befehls in der /etc/nagios3/commands.cfg:
define command{
command_name do_event
command_line /usr/lib/nagios/libexec/event/run_command $SERVICESTATE$ $SERVICESTATETYPE$ $SERVICEATTEMPT$ $HOSTADDRESS$ $ARG1$
} |
define command{
command_name do_event
command_line /usr/lib/nagios/libexec/event/run_command $SERVICESTATE$ $SERVICESTATETYPE$ $SERVICEATTEMPT$ $HOSTADDRESS$ $ARG1$
}
Das Skript run_command in dem Ordner /usr/lib/nagios/libexec/event/ ablegen:
#!/bin/bash
case "$1" in
OK)
;;
WARNING)
;;
UNKNOWN)
;;
CRITICAL)
case "$2" in
SOFT)
case "$3" in
3)
echo -n "Restarting Service (3rd soft critical state)..."
/usr/lib/nagios/plugins/check_nrpe -H "$4" -c "$5"
;;
esac
;;
HARD)
echo -n "Restarting Service..."
/usr/lib/nagios/plugins/check_nrpe -H "$4" -c "$5"
;;
esac
;;
esac
exit 0 |
#!/bin/bash
case "$1" in
OK)
;;
WARNING)
;;
UNKNOWN)
;;
CRITICAL)
case "$2" in
SOFT)
case "$3" in
3)
echo -n "Restarting Service (3rd soft critical state)..."
/usr/lib/nagios/plugins/check_nrpe -H "$4" -c "$5"
;;
esac
;;
HARD)
echo -n "Restarting Service..."
/usr/lib/nagios/plugins/check_nrpe -H "$4" -c "$5"
;;
esac
;;
esac
exit 0
Auf dieser VM habe ich dann zwei neue NRPE-Checks in der /etc/nagios/nrpe_local.cfg eingerichtet, einen zum ueberpruefen ob MySQL laeuft, und einen der als Event Handler ausgefuehrt wird:
command[check_mysql]=sudo /usr/lib/nagios/plugins/check_mysql
command[restart_mysqld]=sudo /etc/init.d/mysql restart |
command[check_mysql]=sudo /usr/lib/nagios/plugins/check_mysql
command[restart_mysqld]=sudo /etc/init.d/mysql restart
und die dafuer erforderlichen Eintraege in der /etc/sudoers:
nagios pregos = NOPASSWD: /usr/lib/nagios/plugins/check_mysql
nagios pregos = NOPASSWD: /etc/init.d/mysql |
nagios pregos = NOPASSWD: /usr/lib/nagios/plugins/check_mysql
nagios pregos = NOPASSWD: /etc/init.d/mysql
Nun auf dem Nagios-Server den Servicecheck mit entsprechendem Event Handler definieren:
define service{
use jan-service
host_name pregos.info
service_description MySQL
max_check_attempts 4
event_handler do_event!restart_mysqld
check_command check_nrpe_1arg!check_mysql
}
} |
define service{
use jan-service
host_name pregos.info
service_description MySQL
max_check_attempts 4
event_handler do_event!restart_mysqld
check_command check_nrpe_1arg!check_mysql
}
}
Nun kann man noch ueberpruefen ob das ganze funktioniert, indem man einfach den MySQL-Dienst beendet und per Webinterface einige male hintereinander den Servicecheck manuell anstoesst.
Wenn man an der max_check_attempts in der config was aendern will, muessen natuerlich auch evtl. Aenderungen in der run_command bei der case-Anweisung gemacht werden.