Nagios "CRITICAL – Socket timeout after 10 seconds" problemas con el servicio y el anfitrión Cheques

Tiene un poco de un problema con un sistema Nagios que estamos utilizando en nuestra oficina, que sólo recientemente ha comenzado a aparecer.

Lo que me gustaría saber realmente es la mejor solución para resolver este problema como ive hecho un poco de lectura sobre él y parece que hay un montón de diferentes maneras de resolverlo ..

Básicamente en puntos aleatorios a lo largo del día y en los anfitriones / servicios aleatorios recibiremos una advertencia crítica señalada que algo no se está comportando como debe, cuando investigamos 9 veces sobre 10 terminamos con esto como mensaje de error.

"SERVICE ALERT: SERVERNAME ;NSClient++ Version;CRITICAL;SOFT;1;CRITICAL - Socket timeout after 10 seconds" 

Indicando que el servicio o el anfitrión ha agotado el tiempo de espera, ¿a dónde debo fijar los tiempos de espera para que esto se detenga? He leído que algunos de los tiempos de espera de plugin son tan bajos como 10 segundos …

Gracias Kris

En general, con cualquier servicio que recibirá a veces, si el servidor está demasiado ocupado para responder, hickup en la red, etc Usted puede tratar de ver si el servidor en carga cuando recibe estas alertas.

Creo que lo principal que quieres ver es la directiva max_check_attempts asociada con el servicio o la plantilla del servicio para que no obtengas una alerta hasta que el cheque haya pasado al estado fallido / crítico un par de veces seguidas. También puede ajustar el valor de tiempo de espera del complemento check_nt con el conmutador -t :

 -t, --timeout=INTEGER Seconds before connection attempt times out (default: 10) 

También recomendaría comprobar el NSClient en el host supervisado.