ESXi :: vmxnet3 vNIC y errores del kernel de Linux

un tiro largo, pero pensé que daría aquí un bash (ninguna solución en el foro de la comunidad de VMware).

En un invitado de Linux (CentOS 5.7 de 64 bits) con vmxnet3 vNIC estamos recibiendo unos pocos cientos de errores de kernel por día en eth0 primario, DMZ NIC, que maneja la mayoría del tráfico de networking (eth1 & eth2 realiza copys de security y otras actividades de networking no frecuentes ).

Los 3 NICs tienen vmxnet3 como tipo de adaptador, pero los errores del kernel sólo ocurren en eth0, el único NIC con exposition pública (a través de IPs NAT de Cisco ASA NAT).

Ejemplo de input en el logging:

Nov 2 17:49:40 localhost kernel: eth0: tq error 0x80000000 Nov 2 17:49:40 localhost kernel: eth0: resetting Nov 2 17:49:40 localhost kernel: eth0: intr type 2, mode 0, 1 vectors allocated Nov 2 17:49:40 localhost kernel: eth0: NIC Link is Up 10000 Mbps 

Las inputs son desconcertantes dado que eth0 bajó ayer y tuvo que ser ifup'd (aunque el nuevo server ha estado en 2 semanas sin problema).

Ir a bajar a vmxnet2 en el AM y ver si eso resuelve el problema, pero por el bien de mí y futuros enfermos de este problema, voy a dejar esto por ahí – cada problema en algún momento tiene una solución 😉

Sólo algunas conjeturas.

También puede intentar utilizar el controller e1000 en lugar de vmxnet3. Su limitación es 1G MBits, pero podría ser una buena testing de copy de security.

¿Apenas un pensamiento está usted en el nivel actual de las herramientas de VMWare en el sistema del anfitrión? Es posible que tenga que volver a instalar las herramientas VMWare después de una actualización del núcleo.

¿Existe la posibilidad de un error ethernet h / w en el propio host ESX?

¿El controller / núcleo del sistema operativo está actualizado?

  Linux hostname 2.6.18-274.7.1.el5 #1 SMP Thu Oct 20 16:21:01 EDT 2011 x86_64 x86_64 x86_64 GNU/Linux 

**** Actualización 2 ****

El parche de KB para actualizar 2 funciona, pero tiene que deshabilitar TSO (KB dice que sólo es necesario para esxi 4.1 actualización 1 o less). Así que, ok, funciona, pero es necesario en un host con NIC 4X gigabit y discos SCSI locales? Probablemente no…

**** Actualización 1 ****

Actualización de la versión 2 de VMware para ESXi 4.1 que aparentemente soluciona este problema> esxi-update2

Acabo de encontrarlo y el comienzo del día laboral ya está aquí; intentará mañana en la madrugada y volverá a publicar los resultados …

**** Original **** Como he mencionado ESXi anfitrión se sienta detrás de un Cisco ASA.

El invitado Linux afectado utiliza un panel de control parecido al plesk que tiene habilitado el cortafuegos del software APF. Después de haber apagado APF, asumí que el firewall de software no era el culpable. Resulta que el cierre de APF no borra los sets de reglas iptables.

Reinició la VM con chkconfig apf –off y voila, eth0 kernel errores desaparecidos 😉

Sería bueno encontrar la causa real (es decir, en realidad, me gustaría APF habilitado como el ASA carece de resources de hardware [limitado de cpu / memory] para manejar grandes negar lists). Voy a hacer algunas testings más temprano AM mañana y ver si puedo encontrar lo que APF no le gusta sobre el tráfico ASA NAT entrante.

En cualquier caso, después de haber gastado $ 5K en un server de virtualización, aprovechar la última y más grande tecnología ayuda a justificar el gasto (aunque en realidad es probable que haya ganancia de performance cero entre e1000 y vmxnet3 para este host modestamente cargado).

Para resumir: vmxnet3 vNIC funciona muy bien en un host Dell R610 que ejecuta un invitado de 64 bits de CentOS 5.7. TBD es la razón por la cual ASA + ESXi + APF no juegan bien juntos …