De repente no puede alcanzar (ping) el server remoto en un sitio remoto

Tenemos 2 sitios enlazados junto con el túnel VPN (dispositivos Fortigate 60C). En cada sitio tengo server ESXi con un par de máquinas virtuales. Normalmente, todo funciona bien.

La subnetworking del sitio 1 (S1) es 192.168.254.0/24, con la máquina A1, A2 en ESXi1
La subnetworking del sitio 2 (S2) es 192.168.253.0/24, con la máquina B1, B2 en ESXi2

Todo el ping entre esas máquinas funciona normalmente a través del túnel VPN.

De repente, S1-A1 no puede hacer ping a S2-B1 más, pero S2-B1 todavía ping S1-A1.

Todos los pings (usando direcciones IP) en todas las máquinas (VMs y ESXi) funcionan excepto de S1-A1 -> S2-B1.

Traceroute resultados de Traceroute fueron:
S1-A1 -> S2-B1 -> a través de Internet (?????)
S1-A1 -> S2-B2 -> a través del túnel VPN
S2-B2 -> S1-A1 -> a través del túnel VPN
S1-A1 -> S2-ESXi2 -> a través del túnel VPN

La máquina A1 es un Windows 2003 R2 – SP2. Hay 5 direcciones IP enlazadas en la NIC. Intenté inhabilitar y permitir el NIC pero la gerencia de la networking dejó de responder. Sólo un reinicio solucionó el problema.

route print no cambió. Gateway es el mismo y no hay ruta específica para llegar a B2.

arp -a no mostró nada relacionado con 192.168.253.0/24.

No entiendo por qué S1-A1 -> S2-ESXi2 trabajado pero no S1-A1 -> S2-B1 porque B2 (192.168.253.18) se está ejecutando en ESXi2 (192.168.253.23).

Entrada del logging de la interfaz de networking

 Windows Registry Editor Version 5.00 [HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Tcpip\Parameters\Interfaces\{0E114693-5FC8-4AA4-AB98-14CE43E24DE5}] "UseZeroBroadcast"=dword:00000000 "EnableDeadGWDetect"=dword:00000001 "EnableDHCP"=dword:00000000 "IPAddress"=hex(7):31,00,39,00,32,00,2e,00,31,00,36,00,38,00,2e,00,32,00,35,00,\ 34,00,2e,00,31,00,35,00,00,00,31,00,39,00,32,00,2e,00,31,00,36,00,38,00,2e,\ 00,32,00,35,00,34,00,2e,00,31,00,32,00,00,00,31,00,39,00,32,00,2e,00,31,00,\ 36,00,38,00,2e,00,32,00,35,00,34,00,2e,00,31,00,33,00,00,00,31,00,39,00,32,\ 00,2e,00,31,00,36,00,38,00,2e,00,32,00,35,00,34,00,2e,00,31,00,35,00,31,00,\ 00,00,31,00,39,00,32,00,2e,00,31,00,36,00,38,00,2e,00,32,00,35,00,34,00,2e,\ 00,34,00,30,00,00,00,00,00 which is 192.168.254.15 192.168.254.12 192.168.254.13 192.168.254.151 192.168.254.40 "SubnetMask"=hex(7):32,00,35,00,35,00,2e,00,32,00,35,00,35,00,2e,00,32,00,35,\ 00,35,00,2e,00,30,00,00,00,32,00,35,00,35,00,2e,00,32,00,35,00,35,00,2e,00,\ 32,00,35,00,35,00,2e,00,30,00,00,00,32,00,35,00,35,00,2e,00,32,00,35,00,35,\ 00,2e,00,32,00,35,00,35,00,2e,00,30,00,00,00,32,00,35,00,35,00,2e,00,32,00,\ 35,00,35,00,2e,00,32,00,35,00,35,00,2e,00,30,00,00,00,32,00,35,00,35,00,2e,\ 00,32,00,35,00,35,00,2e,00,32,00,35,00,35,00,2e,00,30,00,00,00,00,00 which is 255.255.255.0 255.255.255.0 255.255.255.0 255.255.255.0 255.255.255.0 "DefaultGateway"=hex(7):31,00,39,00,32,00,2e,00,31,00,36,00,38,00,2e,00,32,00,\ 35,00,34,00,2e,00,32,00,35,00,34,00,00,00,00,00 which is 192.168.254.254 "DefaultGatewayMetric"=hex(7):30,00,00,00,00,00 "NameServer"="192.168.254.254" "Domain"="" "RegistrationEnabled"=dword:00000001 "RegisterAdapterName"=dword:00000000 "TCPAllowedPorts"=hex(7):30,00,00,00,00,00 "UDPAllowedPorts"=hex(7):30,00,00,00,00,00 "RawIPAllowedProtocols"=hex(7):30,00,00,00,00,00 "NTEContextList"=hex(7):00,00 "DhcpClassIdBin"=hex: "DhcpServer"="255.255.255.255" "Lease"=dword:00000e10 "LeaseObtainedTime"=dword:51185713 "T1"=dword:51185e1b "T2"=dword:51186361 "LeaseTerminatesTime"=dword:51186523 "IPAutoconfigurationAddress"="0.0.0.0" "IPAutoconfigurationMask"="255.255.0.0" "IPAutoconfigurationSeed"=dword:00000000 "AddressType"=dword:00000000 

Excluyo a los Fortigates como parte del problema ya que solo necesitaba reiniciar A1.

2013-09-19: Emisión de nuevo. Parece ocurrir cada vez que las VPNs caen entre los Fortigates.

 HOCHELAGA_2 # get router info routing-table all Codes: K - kernel, C - connected, S - static, R - RIP, B - BGP O - OSPF, IA - OSPF inter area N1 - OSPF NSSA external type 1, N2 - OSPF NSSA external type 2 E1 - OSPF external type 1, E2 - OSPF external type 2 i - IS-IS, L1 - IS-IS level-1, L2 - IS-IS level-2, ia - IS-IS inter area * - candidate default S* 0.0.0.0/0 [10/0] via 64.15.130.49, wan1 C 10.10.10.0/24 is directly connected, dmz C 10.100.254.1/32 is directly connected, fat C 10.100.254.2/32 is directly connected, fat C 64.15.130.48/28 is directly connected, wan1 is directly connected, wan1 is directly connected, wan1 is directly connected, wan1 is directly connected, wan1 is directly connected, wan1 S 192.168.200.0/24 [10/0] via 10.100.254.2, fat C 192.168.250.0/24 is directly connected, internal S 192.168.252.0/24 [10/0] is directly connected, hoch st-bruno S 192.168.253.0/24 [10/0] is directly connected, HOCH-KAN C 192.168.254.0/24 is directly connected, internal is directly connected, internal is directly connected, internal HOCHELAGA_2 # diagnose ip route list tab=254 vf=0 scope=253 type=1 proto=2 prio=0 0.0.0.0/0.0.0.0/0->10.100.254.2/32 pref=10.100.254.1 gwy=0.0.0.0 dev=11(fat) tab=254 vf=0 scope=253 type=1 proto=2 prio=0 0.0.0.0/0.0.0.0/0->64.15.130.48/28 pref=64.15.130.56 gwy=0.0.0.0 dev=3(wan1) tab=254 vf=0 scope=253 type=1 proto=2 prio=0 0.0.0.0/0.0.0.0/0->169.254.0.64/26 pref=169.254.0.66 gwy=0.0.0.0 dev=16(havdlink1) tab=254 vf=0 scope=0 type=1 proto=11 prio=0 0.0.0.0/0.0.0.0/0->192.168.200.0/24 pref=0.0.0.0 gwy=10.100.254.2 dev=11(fat) tab=254 vf=0 scope=253 type=1 proto=2 prio=0 0.0.0.0/0.0.0.0/0->192.168.250.0/24 pref=192.168.250.254 gwy=0.0.0.0 dev=5(internal) tab=254 vf=0 scope=253 type=1 proto=2 prio=0 0.0.0.0/0.0.0.0/0->10.10.10.0/24 pref=10.10.10.1 gwy=0.0.0.0 dev=4(dmz) tab=254 vf=0 scope=0 type=1 proto=11 prio=0 0.0.0.0/0.0.0.0/0->192.168.252.0/24 pref=0.0.0.0 gwy=0.0.0.0 dev=9(hoch st-bruno) tab=254 vf=0 scope=0 type=1 proto=11 prio=0 0.0.0.0/0.0.0.0/0->192.168.253.0/24 pref=0.0.0.0 gwy=0.0.0.0 dev=10(HOCH-KAN) tab=254 vf=0 scope=253 type=1 proto=2 prio=0 0.0.0.0/0.0.0.0/0->192.168.254.0/24 pref=192.168.254.254 gwy=0.0.0.0 dev=5(internal) tab=254 vf=0 scope=0 type=1 proto=11 prio=0 0.0.0.0/0.0.0.0/0->0.0.0.0/0 pref=0.0.0.0 gwy=64.15.130.49 dev=3(wan1) tab=255 vf=0 scope=253 type=3 proto=2 prio=0 0.0.0.0/0.0.0.0/0->64.15.130.63/32 pref=64.15.130.56 gwy=0.0.0.0 dev=3(wan1) tab=255 vf=0 scope=253 type=3 proto=2 prio=0 0.0.0.0/0.0.0.0/0->127.255.255.255/32 pref=127.0.0.1 gwy=0.0.0.0 dev=7(root) tab=255 vf=0 scope=254 type=2 proto=2 prio=0 0.0.0.0/0.0.0.0/0->10.10.10.1/32 pref=10.10.10.1 gwy=0.0.0.0 dev=4(dmz) tab=255 vf=0 scope=253 type=3 proto=2 prio=0 0.0.0.0/0.0.0.0/0->10.10.10.0/32 pref=10.10.10.1 gwy=0.0.0.0 dev=4(dmz) tab=255 vf=0 scope=254 type=2 proto=2 prio=0 0.0.0.0/0.0.0.0/0->10.100.254.1/32 pref=10.100.254.1 gwy=0.0.0.0 dev=11(fat) tab=255 vf=0 scope=254 type=2 proto=2 prio=0 0.0.0.0/0.0.0.0/0->64.15.130.59/32 pref=64.15.130.59 gwy=0.0.0.0 dev=2(wan2) tab=255 vf=0 scope=254 type=2 proto=2 prio=0 0.0.0.0/0.0.0.0/0->192.168.254.2/32 pref=192.168.254.254 gwy=0.0.0.0 dev=5(internal) tab=255 vf=0 scope=254 type=2 proto=2 prio=0 0.0.0.0/0.0.0.0/0->64.15.130.58/32 pref=64.15.130.56 gwy=0.0.0.0 dev=3(wan1) tab=255 vf=0 scope=254 type=2 proto=2 prio=0 0.0.0.0/0.0.0.0/0->169.254.0.66/32 pref=169.254.0.66 gwy=0.0.0.0 dev=16(havdlink1) tab=255 vf=0 scope=253 type=3 proto=2 prio=0 0.0.0.0/0.0.0.0/0->192.168.250.0/32 pref=192.168.250.254 gwy=0.0.0.0 dev=5(internal) tab=255 vf=0 scope=254 type=2 proto=2 prio=0 0.0.0.0/0.0.0.0/0->192.168.254.1/32 pref=192.168.254.254 gwy=0.0.0.0 dev=5(internal) tab=255 vf=0 scope=254 type=2 proto=2 prio=0 0.0.0.0/0.0.0.0/0->64.15.130.57/32 pref=64.15.130.56 gwy=0.0.0.0 dev=3(wan1) tab=255 vf=0 scope=253 type=3 proto=2 prio=0 0.0.0.0/0.0.0.0/0->192.168.254.0/32 pref=192.168.254.254 gwy=0.0.0.0 dev=5(internal) tab=255 vf=0 scope=254 type=2 proto=2 prio=0 0.0.0.0/0.0.0.0/0->64.15.130.56/32 pref=64.15.130.56 gwy=0.0.0.0 dev=3(wan1) tab=255 vf=0 scope=253 type=3 proto=2 prio=0 0.0.0.0/0.0.0.0/0->169.254.0.64/32 pref=169.254.0.66 gwy=0.0.0.0 dev=16(havdlink1) tab=255 vf=0 scope=254 type=2 proto=2 prio=0 0.0.0.0/0.0.0.0/0->64.15.130.54/32 pref=64.15.130.56 gwy=0.0.0.0 dev=3(wan1) tab=255 vf=0 scope=253 type=3 proto=2 prio=0 0.0.0.0/0.0.0.0/0->169.254.0.127/32 pref=169.254.0.66 gwy=0.0.0.0 dev=16(havdlink1) tab=255 vf=0 scope=254 type=2 proto=2 prio=0 0.0.0.0/0.0.0.0/0->64.15.130.53/32 pref=64.15.130.56 gwy=0.0.0.0 dev=3(wan1) tab=255 vf=0 scope=254 type=2 proto=2 prio=0 0.0.0.0/0.0.0.0/0->64.15.130.52/32 pref=64.15.130.56 gwy=0.0.0.0 dev=3(wan1) tab=255 vf=0 scope=253 type=3 proto=2 prio=0 0.0.0.0/0.0.0.0/0->10.10.10.255/32 pref=10.10.10.1 gwy=0.0.0.0 dev=4(dmz) tab=255 vf=0 scope=253 type=3 proto=2 prio=0 0.0.0.0/0.0.0.0/0->127.0.0.0/32 pref=127.0.0.1 gwy=0.0.0.0 dev=7(root) tab=255 vf=0 scope=254 type=2 proto=2 prio=0 0.0.0.0/0.0.0.0/0->192.168.254.254/32 pref=192.168.254.254 gwy=0.0.0.0 dev=5(internal) tab=255 vf=0 scope=253 type=3 proto=2 prio=0 0.0.0.0/0.0.0.0/0->192.168.250.255/32 pref=192.168.250.254 gwy=0.0.0.0 dev=5(internal) tab=255 vf=0 scope=254 type=2 proto=2 prio=0 0.0.0.0/0.0.0.0/0->127.0.0.1/32 pref=127.0.0.1 gwy=0.0.0.0 dev=7(root) tab=255 vf=0 scope=253 type=3 proto=2 prio=0 0.0.0.0/0.0.0.0/0->64.15.130.48/32 pref=64.15.130.56 gwy=0.0.0.0 dev=3(wan1) tab=255 vf=0 scope=254 type=2 proto=2 prio=0 0.0.0.0/0.0.0.0/0->192.168.250.254/32 pref=192.168.250.254 gwy=0.0.0.0 dev=5(internal) tab=255 vf=0 scope=253 type=3 proto=2 prio=0 0.0.0.0/0.0.0.0/0->192.168.254.255/32 pref=192.168.254.254 gwy=0.0.0.0 dev=5(internal) tab=255 vf=0 scope=254 type=2 proto=2 prio=0 0.0.0.0/0.0.0.0/0->127.0.0.0/8 pref=127.0.0.1 gwy=0.0.0.0 dev=7(root) 

PING exitosamente en un server

 diagnose sniffer packet any "host 192.168.253.23" 4 23.232067 internal in 192.168.254.15 -> 192.168.253.23: icmp: echo request 23.232329 HOCH-KAN out 192.168.254.15 -> 192.168.253.23: icmp: echo request 23.248800 HOCH-KAN in 192.168.253.23 -> 192.168.254.15: icmp: echo reply 23.248932 internal out 192.168.253.23 -> 192.168.254.15: icmp: echo reply 

PING falló en un server

 diagnose sniffer packet any "host 192.168.253.18" 4 8.212249 internal in 192.168.254.15 -> 192.168.253.18: icmp: echo request 8.212479 wan1 out 64.15.130.56 -> 192.168.253.18: icmp: echo request 10.508155 internal in 192.168.254.15.1113 -> 192.168.253.18.139: syn 1271941747 10.508436 wan1 out 64.15.130.56.42334 -> 192.168.253.18.139: syn 1271941747 11.706287 internal in 192.168.254.15.1112 -> 192.168.253.18.445: syn 341420858 11.706540 wan1 out 64.15.130.56.42332 -> 192.168.253.18.445: syn 341420858 

¿Por qué la ruta tomada es diferente para el server en la misma networking? Yo no uso RIP, OSPF, BGP routing. No hay routing de políticas. Justa una ruta estática entre VPNs. Nada muestra una ruta dinámica para 192.168.253.23 y el Fortigate decide enrutarlo en la interfaz wan1.

Cualquier cosa que podría comprobar la próxima vez que sucede?

Gracias de antemano
Y lo siento si no está completamente claro, el francés es mi lengua materna
S

Finalmente encontramos la razón. Está relacionado con el problema de time de espera de la session Fortigate ICMP. Cuando la VPN está inactiva, la session ICMP está marcada para ir a través de la interfaz directamente en lugar de túnel VPN. Sin embargo, cuando la VPN se recupera, la session vía ruta no se modifica hasta que el time en vivo se convierte en cero. Si sigues haciendo ping, el time en vivo nunca puede ser cero.

Agregue una ruta de "agujero negro" para la subnetworking remota con una prioridad inferior, de modo que los packages no ganen la ruta pnetworkingeterminada (interfaz). En su lugar va a las routes Black Hole y cae allí. Cuando el túnel está en ARRIBA, se reanuda para enviar el tráfico con la ruta con mayor prioridad.