Ceguera ARP aleatoria y selectiva en VMWare ESXi 4.1

Tenemos varios serveres VMware ESX distribuidos entre nuestra empresa, haciendo varias tareas. Un anfitrión ESXi particular está exhibiendo un comportamiento muy peculiar. Lo detectamos cuando nuestro sistema de monitoreo (Orion) nos notifica que ya no puede hacer ping a la caja.

Al saltar en la console local del invitado en cuestión, vemos que no puede hacer ping a ninguna dirección nueva que no esté ya en su tabla ARP.

Al principio pensamos que el problema estaba relacionado con uno de nuestros huéspedes, ya que el problema parecía que siempre pasó a otro huésped, DevRedis . Sin embargo, esta tarde el problema cambió y comenzó a suceder en ApacheBox en lugar de DevRedis.

Cuando he tenido la suerte de detectar el problema, he ejecutado tcpdump en ambos lados de la connection (un lado es vmware, el otro lado es un server web físico) y he notado el siguiente curso de events:

  1. Guest ApacheBox envía una request ARP para la dirección física del server WindowsBeast
  2. WindowsBeast licita un ARP-de vuelta a la networking que indica su dirección física de mac.
  3. ApacheBox nunca ve el ARP es-en la respuesta.

El host ESX en cuestión ejecuta VMware ESXi, 4.1.0, 348481

Los dos invitados ( DevRedis y ApacheBox ) están ejecutando CentOS 6.3, sin embargo están ejecutando dos versiones de kernel ( 2.6.32-279.9.1.el6.x86_64 y 2.6.32-279.el6.x86_64 ) así que no estoy completamente seguro de que es un problema de CentOS.

¿Alguien tiene alguna idea sobre lo que podría causar esto? ¿Alguien se ha topado con él antes?

Esto suena como usted apenas pudo tener una colisión del MAC-en sus manos. El hecho de que las dos cajas están intercambiando es lo que me lo sugiere. Algo en la capa vSwitch puede reenviar packages incorrectamente.