Error de partición de networking RabbitMQ

Estoy corriendo un racimo de RabbitMQ (versión 3.0.2, Erlang R15B) con dos nodos y siguen experimentando periódicamente un error de la partición de la networking. Están físicamente ubicados en el mismo centro de datos y su networking debe ser confiable. Cuando compruebo sus loggings, ambos serveres informan del error "running_partitioned_network" aproximadamente al mismo time y ambos nodos continúan ejecutándose, así que no creo que sea un fallo de hardware o que uno de los nodos termine inesperadamente. He modificado el net_ticktime a 120 segundos para tratar de mitigar el problema, y ​​dejó de ocurrir durante casi un mes, pero recientemente comenzó a ocurrir de nuevo una vez cada pocos días. Ahora no estoy seguro de si el net_ticktime ayudado o si fue sólo coincidencia.

Con el fin de solucionar más adelante, comencé una traza de la networking que rueda usando Wireshark y utilicé una tarea progtwigda para parar la traza cuando los nodos se volvieron a particionar. Mi objective es determinar si la partición es causada por una networking no confiable, o si la aplicación no responde. Nada en el rastreo de packages salta como mostrando un fallo de networking, sólo hay un puñado de retransmisiones de TCP y un montón de otros packages se envían con éxito entre ellos.

En este momento no estoy seguro de qué más mirar en el seguimiento de packages para probar o refutar que la networking causó el error. Wireshark puede identificar y descodificar el Protocolo de Distribución de Erlang, pero no sé cómo interpretar los posts para saber qué causa que los nodos detecten una partición. Además, net_ticktime se establece en 120 segundos, y no veo una diferencia de 120 segundos en los serveres que reciben posts entre sí. El intervalo más largo en el que no se reciben posts Erlang desde el otro server es de 22 segundos (mucho less si se countn los reconocimientos de TCP). Mi único otro pensamiento es que si un particular "ping" post de tipo tiene que ser enviado entre los nodos y que los posts en particular se interrumpió, pero no sé lo que se vería en la traza.

Cualquier idea sobre cómo diagnosticar más la causa de este problema sería útil.

2 Solutions collect form web for “Error de partición de networking RabbitMQ”

No estoy seguro de si este es realmente el caso, pero parece que el clustering de Erlang puede romperse cuando se están transmitiendo posts grandes. Echa un vistazo a este hilo en la RabbitMQ discutir list de correo: http://lists.rabbitmq.com/pipermail/rabbitmq-discuss/2012-March/018745.html

He visto problemas similares con RabbitMQ 2.8.4 en Erlang R14B03, aunque sin duda sin el post "running_partitioned_network". No ha ocurrido en unos pocos meses para nosotros (sí, sucedió bastante veces que tenemos un cheque Nagios check_rabbitmq_splitbrain cheque), pero voy a ver si puedo capturar algunos detalles si ocurre de nuevo …

  • ¿Cómo configuro varias agrupaciones de direcciones para el server OpenVPN?
  • Solaris no sabe qué dirección MAC utilizar para enviar un post de multidifusión UDP
  • configuration de prioridad de puente de protocolo de tree de expansión (STP)
  • Bond4 Configuración más de 6 nic - ayuda necesaria
  • Dada una connection de 100mbit, ¿cuál es su velocidad de flujo descendente máxima?
  • ¿Cómo se ve físicamente una connection de networking abierta y ociosa?
  • ¿Cómo Intel AMT (Active Management Technology) no interfiere con la stack de host TCP / IP?
  • ¿Cómo desconectar el cliente openvpn, cuando otro cliente se conecta usando el mismo certificate?
  • ¿Qué es el model OSI y cómo se aplica a las networkinges actuales?
  • CentOS 6.3 Virtual bajo OpenVZ no puede hacer ping, búsquedas de host, conexiones salientes mientras se ejecuta postfix
  • Extraño problema de conectividad de networking
  • ¿Cómo localiza un host un server PXE?
  • Nuevo enlace MPLS que interrumpe la networking - Spanning Tree Protocol
  • El linux y los temas del servidor de Windows, como ubuntu, centos, apache, nginx, debian y consejos de red.