esxi nagios problema de velocidad

Estoy tratando de agregar mis serveres esxi (tengo 3 de ellos) a mi monitorización nagios. Estoy utilizando el perl SDK y script como documentado en varios lugares en Internet, el último script está aquí: http://git.op5.org/git/?p=nagios/op5plugins.git;a=blob_plain;f = check_esx3.pl; hb = HEAD

He actualizado mis dos cajas esxi4 a 4.1u1 (4.1.0, 348481)

El problema que estoy experimentando es que los cheques son muy lentos.

He rastreado el command perl usando DProf

/usr/bin/perl -d:DProf /usr/lib/nagios/plugins/check_esxi -H HOSTNAME -u nagios -p PASSWORD -l cpu -s usage -w 85 -c 95 

y obtengo la salida siguiente (vía dproff)

  Total Elapsed Time = 6.634312 Seconds User+System Time = 5.154312 Seconds Exclusive Times %Time ExclSec CumulS #Calls sec/call Csec/c Name 44.1 2.276 4.339 2 1.1380 2.1695 Vim::login 12.9 0.667 1.638 4254 0.0002 0.0004 Class::MethodMaker::Engine::create_methods 8.91 0.459 0.588 4254 0.0001 0.0001 Class::MethodMaker::scalar::scal0000 5.18 0.267 0.304 4254 0.0001 0.0001 Class::MethodMaker::Engine::install_methods 3.20 0.165 0.165 26005 0.0000 0.0000 XML::LibXML::Node::nodeName 2.50 0.129 0.129 4254 0.0000 0.0000 Class::MethodMaker::Engine::check_opts 2.41 0.124 0.594 925 0.0001 0.0006 ComplexType::deserialize 1.92 0.099 0.091 1561 0.0001 0.0001 Class::MethodMaker::Engine::_find_target_class 1.40 0.072 0.072 3326 0.0000 0.0000 XML::LibXML::Node::textContent 1.36 0.070 0.336 5816 0.0000 0.0001 XML::LibXML::Element::getChildrenByTagName 1.14 0.059 0.068 4254 0.0000 0.0000 Class::MethodMaker::OptExt::encode 1.07 0.055 0.055 5816 0.0000 0.0000 XML::LibXML::Node::_childNodes 1.05 0.054 1.820 1561 0.0000 0.0012 Class::MethodMaker::Engine::import 0.97 0.050 0.050 1 0.0500 0.0500 utf8::AUTOLOAD 0.97 0.050 0.205 25 0.0020 0.0082 main::BEGIN 

Como estoy corriendo 4.1, he habilitado SSH y conectado a la console. Esto es lo que veo en / var / log / messages (esto esxi4 así que no hay logging de vkernel)

  [2011-09-05 22:53:36.543 51E40B90 verbose 'Proxysvc Req06598'] New proxy client SSL(TCP(local=192.168.99.101:57617, peer=192.168.99.22:443)) [2011-09-05 22:53:43.091 52081B90 verbose 'Proxysvc Req06599'] New proxy client SSL(TCP(local=192.168.99.101:57652, peer=192.168.99.22:443)) [2011-09-05 22:53:43.136 51E81B90 info 'Vimsvc'] [Auth]: User nagios [2011-09-05 22:53:43.137 51E81B90 info 'ha-eventmgr'] Event 4814 : User nagios@192.168.99.101 logged in [2011-09-05 22:53:44.429 52081B90 verbose 'App'] CloseSession called for session id=5260ca10-fdc9-3a26-4d0c-45be7792c716 [2011-09-05 22:53:44.430 52081B90 info 'ha-eventmgr'] Event 4815 : User nagios logged out 

Observe los dos inicios de session, separados por aproximadamente 7 segundos – con el segundo completando el cheque rápidamente.

Como un aparte, también estoy viendo dos de estos regularmente en el logging, pero creo que es independiente

  [2011-09-05 22:53:40.031 51AD1B90 verbose 'Statssvc'] HostCtl exception Unable to complete Sysinfo operation. Please see the VMkernel log file for more details. 

También me doy count de inicio de session en el server a través de vsphere es razonablemente lento, también unos 3-4 segundos antes de que comience a cargar. Esto podría no estar relacionado. El server esxi no está bajo carga enorme, aunque tiene iscsi luns montados y tal vez cerca de 6-7 máquinas virtuales activas. He comprobado (y aumentado) la asignación de resources para el host y también he comprobado esxtop (sin hallazgos) mientras ejecuta el command check.

Este retraso es un problema, porque los processs perl de nagios se ejecutan a 100% cpu mientras están intentando conectarse, y está sucediendo en todos los 3 de mis serveres esxi. Así como nagios emite más y más controles, la CPU del server de monitoreo y los promedios de carga pasan por el techo ya que todos los processs están esperando respuestas. Esto sólo sirve para exasperar la cuestión de retraso y hacer que todos los controles de time de espera.

Un amigo, que también ejecuta nagios, el mismo script de supervisión y la misma actualización esxi puede ejecutar la misma comprobación y se completa en less de un segundo, mientras que para mí se tarda hasta 10 segundos (como se puede ver en la salida dproff)

Por favor, hágamelo saber si hay alguna información adicional que pueda proporcionar para ayudar a diagnosticar este problema Los anfitriones se reiniciaron (con la actualización 4.1) anoche

Gracias por adelantado,

Gareth

–edit1: agregó el total de veces a la salida proff y realizó una order de verificación perl una cita de bloque

–edit2:

He estado diagnosticando activamente esto desde la publicación. He encontrado que mis amigos nagios server es una máquina x64, por lo que se levantó un nuevo Ubuntu 10.4 x64 VM (en un host diferente que usted) Después de instalar todo lo necesario para los cheques esxi (se necesitan muchos modules cpan) puede time las comprobaciones en esa nueva installation y una comprobación de la CPU se completa en alnetworkingedor de 2 segundos.

Esto indica que el problema reside en el server nagios o perl, no con el (los) server (es) esxi de VMWare

Me he asegurado de que

  1. las herramientas vmware están instaladas
  2. todos los modules cpan que tuve que instalar en el server de testing están actualizados en el server de producción
  3. el server de producción es aptitude update && aptitude upgrade 'd
  4. El DNS inverso (como se indica a continuación) está funcionando
  5. los DNs directos (como se indica a continuación) están funcionando
  6. probado con IP directa, sin hostame
  7. Detenido el server nagios por lo que el LA baja a 0,01 antes de hacer mis testings
  8. Cambiado el conductor del vmware nic de flexible (el anfitrión es esxi3.5) a un vmxnet aumentado
  9. Aumentó el recuento de la CPU virtual de 1 a 2

No puedo migrar nagios a la nueva máquina x64, no funciona en nuestro server vm de administración (que contiene esta caja de monitorización más algunos jumphosts)

El cuadro de 32 bits (que he iniciado originalmente con y perfilado anteriormente) sigue teniendo 8-10 segundos de 100% de CPU para completar un cheque de la CPU

Me di count de que el disco es un disco virtual montado en un lun iSCSI para este server y que ralentiza el disco IO hacia abajo un poco, pero no esperaría consultar a un server remoto para ser una operación de alto IO de disco.

One Solution collect form web for “esxi nagios problema de velocidad”

¿Cómo está su DNS? ¿Existe una input DNS inversa para su server de supervisión en el file host del server VMWare? ¿El DNS inverso puede resolverse a través del server DNS de su sitio? Esa puede ser la causa del retraso. Si no puede realizar un cambio en el server DNS, intente agregar una input /etc/hosts para su server Nagios en los serveres afectados de VMWare y ver si mejora el time de inicio de session / ejecución.

  • Prueba de sanidad de la CPU ESXi 5.5
  • Recupere la VM eliminada de Inventario en vCenter
  • ESXI 5.1 "El disco no está finamente aprovisionado" después de copyr vmdk en un nuevo almacén de datos
  • ¿Cómo comprobar la conectividad de fibra en ESXi 5.0?
  • Software de copy de security gratuito que admite Incrementals
  • VMware escribe zeros ansiosos después de la creación del disco
  • ¿Cómo instalar packages (antiguos) para Ubuntu 9.04?
  • VmWare Esxi en un ml350 g6: necesita ejecutar Windows Server Standard R2 2008
  • Anfitrión Esxi: aceptación excesiva de memory
  • Los hosts de ESXi 5.5 tienen varias inputs de HostDateTimeSystem
  • "Unballooning" RAM que ha sido globalizado por VMware
  • Pregunta de cuello de botella de la networking
  • Valores pnetworkingeterminados de configuration para VMWare vSphere Virtual Machines
  • El linux y los temas del servidor de Windows, como ubuntu, centos, apache, nginx, debian y consejos de red.