El assembly GlusterFS se mantiene desconectado aleatoriamente

Estamos utilizando GlusterFS para proporcionar un sistema de files distribuido en 2 serveres web que utilizan un directory de medios compartidos y caching. Así que he creado 2 volúmenes (media y var) y los he montado en / var / www / site / media y / var / www / site / var /.

Cada server está ejecutando el server gluster y el cliente para que tengamos alguna networkingundancia y consigamos mantener los datos replicados. El volumen var se escribe y se lee muy fuertemente.

El problema que estamos encontrando es que random las monturas se romperán y cuando usted realiza un ls -lah en el directory que está demostrando como d ???????. Para resolver el problema todo lo que tenemos que hacer es umount el directory y remontarlo.

He revisado los files de logging de glusterfs y puedo ver cuando el monumento desapareció

[2013-05-02 11:32:02.105021] I [client3_1-fops.c:502:client3_1_unlink_cbk] 0-site-media-client-1: remote operation failed: No such file or directory [2013-05-02 11:32:02.105270] I [client3_1-fops.c:502:client3_1_unlink_cbk] 0-site-media-client-0: remote operation failed: No such file or directory [2013-05-02 11:32:02.105299] W [fuse-bridge.c:911:fuse_unlink_cbk] 0-glusterfs-fuse: 11806336: UNLINK() /catalog/product/cache/1/image/1000x1000/9df78eab33525d08d6e5fb8d27136e95/v/e/some-stuff-0915740$ [2013-05-02 11:32:02.378497] I [client3_1-fops.c:502:client3_1_unlink_cbk] 0-site-media-client-0: remote operation failed: No such file or directory [2013-05-02 11:32:02.378625] I [client3_1-fops.c:502:client3_1_unlink_cbk] 0-site-media-client-1: remote operation failed: No such file or directory 

Nos gustaría saber qué está causando estos problemas y resolverlos para evitar estas interrupciones en el service.

Si necesita más información no dude en preguntar y le daré lo que pueda.

La información adicional solicitada se encuentra a continuación, los dos serveres son idénticos:

Ubuntu 12.04.2

Linux VDED-XXX-XXX 3.2.0-39-genérico # 62-Ubuntu SMP Jue Feb 28 00:28:53 UTC x86_64 x86_64 x86_64 GNU / Linux

glusterfs 3.2.5 construido en Jan 31 2012 07:39:59

Servidores VMWare ESX

Errores de los loggings de ladrillo en el momento de la caída / desconnection / problema:

sitio-medios de comunicación logging de ladrillos:

 [2013-05-02 11:32:00.849296] I [server3_1-fops.c:964:server_unlink_cbk] 0-site-media-server: 9109306: UNLINK /catalog/product/cache/1/image/1000x1000/9df78eab33525d08d6e5fb8d27136e95/v/e/some-stuff-091574183930-box.jpg (0) ==> -1 (No such file or directory) [2013-05-02 11:32:02.86607] I [server3_1-fops.c:964:server_unlink_cbk] 0-site-media-server: 9109345: UNLINK /catalog/product/cache/1/image/1000x1000/9df78eab33525d08d6e5fb8d27136e95/v/e/some-stuff-091574098692.jpg (0) ==> -1 (No such file or directory) [2013-05-02 11:32:02.105131] I [server3_1-fops.c:964:server_unlink_cbk] 0-site-media-server: 12553441: UNLINK /catalog/product/cache/1/image/1000x1000/9df78eab33525d08d6e5fb8d27136e95/v/e/some-stuff-091574097992-box.jpg (0) ==> -1 (No such file or directory) [2013-05-02 11:32:02.485694] W [inode.c:1044:inode_path] (-->/usr/lib/glusterfs/3.2.5/xlator/protocol/server.so(server_resolve+0xf8) [0x7f4534639418] (-->/usr/lib/glusterfs/3.2.5/xlator/protocol/server.so(server_resolve_inode+0x70) [0x7f4534639290] (-->/usr/lib/glusterfs/3.2.5/xlator/protocol/server.so(resolve_loc_touchup+0x105) [0x7f4534638425]))) 0-/var/gluster/wwrd-media/inode: no dentry for non-root inode 184269351: 11a65ece-7b4b-4364-a28c-63df686f5648 

sitio-var logging de ladrillo no parece contener ningún error

Mirando los troncos. Definitivamente parece una especie de condición de carrera, ya que hay una escritura intensa en esa carpeta. Hubo algunos errores reportados para estos en 3.2. * Versión Gluster. Le sugiero que actualice a 3.3.1, que es totalmente compatible con su sistema operativo. Se resolvió una gran cantidad de errores y problemas de performance. También puede realizar la actualización desde su versión.