Infiniband Comprobación de que RDMA está funcionando

Tengo dos computadoras idénticas con tarjetas Mellanox conectadas entre sí a través de un cable. No hay interruptor. Uso de opensm.

He realizado varias testings, incluyendo ping_pong testings, ibping, etc Todos parecen funcionar. Sin embargo, cuando ejecuto esta testing, vuelve con lo que parece ser un error, que no entiendo.

Le dije al cortafuegos

sudo iptables -I INPUT -p tcp -s 192.168.0.0/24 -j ACCEPT -m comment --comment "Allow Infiniband" sudo iptables -I INPUT -p udp -s 192.168.0.0/24 -j ACCEPT -m comment --comment "Allow Infiniband" 

Cualquier ayuda descifrar y una posible solución sería genial.

 [idf@node2 Downloads]$ sudo ib_write_bw ************************************ * Waiting for client to connect... * ************************************ --------------------------------------------------------------------------------------- RDMA_Write BW Test Dual-port : OFF Device : mlx4_0 Number of qps : 1 Transport type : IB Connection type : RC Using SRQ : OFF CQ Moderation : 100 Mtu : 4096[B] Link type : IB Max inline data : 0[B] rdma_cm QPs : OFF Data ex. method : Ethernet --------------------------------------------------------------------------------------- local address: LID 0x01 QPN 0x004a PSN 0xa79f2e RKey 0x50042a04 VAddr 0x007f1682804000 remote address: LID 0x02 QPN 0x004a PSN 0x5ef914 RKey 0x40042502 VAddr 0x007f94f9ce9000 --------------------------------------------------------------------------------------- #bytes #iterations BW peak[MB/sec] BW average[MB/sec] MsgRate[Mpps] ethernet_read_keys: Couldn't read remote address Unable to read to socket/rdam_cm Failed to exchange data between server and clients [idf@node2 Downloads]$ [idf@node1 python]$ sudo ib_write_bw 192.168.0.1 --------------------------------------------------------------------------------------- RDMA_Write BW Test Dual-port : OFF Device : mlx4_0 Number of qps : 1 Transport type : IB Connection type : RC Using SRQ : OFF TX depth : 128 CQ Moderation : 100 Mtu : 4096[B] Link type : IB Max inline data : 0[B] rdma_cm QPs : OFF Data ex. method : Ethernet --------------------------------------------------------------------------------------- local address: LID 0x02 QPN 0x004a PSN 0x5ef914 RKey 0x40042502 VAddr 0x007f94f9ce9000 remote address: LID 0x01 QPN 0x004a PSN 0xa79f2e RKey 0x50042a04 VAddr 0x007f1682804000 --------------------------------------------------------------------------------------- #bytes #iterations BW peak[MB/sec] BW average[MB/sec] MsgRate[Mpps] Conflicting CPU frequency values detected: 1600.000000 != 1733.000000 Can't produce a report [idf@node1 python]$ 

Resulta que esto se ha visto antes. No me gusta la respuesta porque parece barrerla debajo de la alfombra, pero es una respuesta no obstante:

http://linuxtoolkit.blogspot.com/2013/01/errors-when-running-doing-ib-testing.html

Esto suele ser el resultado de no tener todos los modules necesarios cargados en el kernel. No se cargan por defecto. No estoy seguro de cómo centos se ocupa de él, pero en Ubuntu es necesario poner estos modules en / etc / modules para que el núcleo los cargue.

 mlx4_ib rdma_ucm ib_umad ib_uverbs ib_ipoib 

Supongo que ib_ipoib y mlx4_ib ya están cargados o de lo contrario no obtendrá networkinges IP a través de trabajo infiniband.

También tendrá que instalar libmlx4 si no lo ha instalado.

A falta de eso, testing este enlace que list todos los packages requeridos para Centos (Nota: libmthca es para un chipset mellanox más antiguo [infinihost] así que no lo necesitarás en tu caso.

https://sort.symantec.com/public/documents/sfha/6.1/linux/productguides/html/sfrac_install/apls05s02.htm