Error de partición de networking RabbitMQ

Estoy corriendo un racimo de RabbitMQ (versión 3.0.2, Erlang R15B) con dos nodos y siguen experimentando periódicamente un error de la partición de la networking. Están físicamente ubicados en el mismo centro de datos y su networking debe ser confiable. Cuando compruebo sus loggings, ambos serveres informan del error "running_partitioned_network" aproximadamente al mismo time y ambos nodos continúan ejecutándose, así que no creo que sea un fallo de hardware o que uno de los nodos termine inesperadamente. He modificado el net_ticktime a 120 segundos para tratar de mitigar el problema, y ​​dejó de ocurrir durante casi un mes, pero recientemente comenzó a ocurrir de nuevo una vez cada pocos días. Ahora no estoy seguro de si el net_ticktime ayudado o si fue sólo coincidencia.

Con el fin de solucionar más adelante, comencé una traza de la networking que rueda usando Wireshark y utilicé una tarea progtwigda para parar la traza cuando los nodos se volvieron a particionar. Mi objective es determinar si la partición es causada por una networking no confiable, o si la aplicación no responde. Nada en el rastreo de packages salta como mostrando un fallo de networking, sólo hay un puñado de retransmisiones de TCP y un montón de otros packages se envían con éxito entre ellos.

En este momento no estoy seguro de qué más mirar en el seguimiento de packages para probar o refutar que la networking causó el error. Wireshark puede identificar y descodificar el Protocolo de Distribución de Erlang, pero no sé cómo interpretar los posts para saber qué causa que los nodos detecten una partición. Además, net_ticktime se establece en 120 segundos, y no veo una diferencia de 120 segundos en los serveres que reciben posts entre sí. El intervalo más largo en el que no se reciben posts Erlang desde el otro server es de 22 segundos (mucho less si se countn los reconocimientos de TCP). Mi único otro pensamiento es que si un particular "ping" post de tipo tiene que ser enviado entre los nodos y que los posts en particular se interrumpió, pero no sé lo que se vería en la traza.

Cualquier idea sobre cómo diagnosticar más la causa de este problema sería útil.

2 Solutions collect form web for “Error de partición de networking RabbitMQ”

No estoy seguro de si este es realmente el caso, pero parece que el clustering de Erlang puede romperse cuando se están transmitiendo posts grandes. Echa un vistazo a este hilo en la RabbitMQ discutir list de correo: http://lists.rabbitmq.com/pipermail/rabbitmq-discuss/2012-March/018745.html

He visto problemas similares con RabbitMQ 2.8.4 en Erlang R14B03, aunque sin duda sin el post "running_partitioned_network". No ha ocurrido en unos pocos meses para nosotros (sí, sucedió bastante veces que tenemos un cheque Nagios check_rabbitmq_splitbrain cheque), pero voy a ver si puedo capturar algunos detalles si ocurre de nuevo …

  • ¿Por qué TCP Reno corta la window de congestión por la mitad cuando recibo ACKs duplicates?
  • ADVERTENCIA: no recibió ack del último datagtwig después de 10 bashs
  • Solaris no sabe qué dirección MAC utilizar para enviar un post de multidifusión UDP
  • IC socket en las tarjetas de networking?
  • Mellanox connectX-2 - compatibilidad
  • Hyper-V multi-homed host NIC?
  • ¿Cómo configurar teaming, VLANs asociadas e hiperv?
  • nslookup falla en la cárcel freebsd
  • Olfatear el tráfico saliente en mi server en un canal SSL
  • La máquina base de Windows Server 2008 R2 no puede detectar el adaptador de networking
  • ¿Puedo parar el apretón de manos del tcp por el ICMP de la huésped inalcanzable
  • ¿Cómo mostrar información de tráfico en un formatting analizable?
  • ¿Es posible WOL a través de Internet a través de UnifiedRemote (VPN)?
  • El linux y los temas del servidor de Windows, como ubuntu, centos, apache, nginx, debian y consejos de red.