Я пытаюсь запустить многолокальный код Chapel в кластере с сетью MXM Infiniband (40 Гбит/с, модель: Mellanox Technologies MT26428).
Я следил за документацией Chapel и GASNet и установил
export CHPL_COMM_SUBSTRATE=ibv
export CHPL_LAUNCHER=gasnetrun_ibv
export GASNET_IBV_SPAWNER=mpi
вместо использования CHPL_COMM_SUBSTRATE=mxm
после того, как mxm устарел.
Проблема в том, что я могу построить Chapel, используя субстрат ibv. Но я не могу работать на нескольких локалях. Я получаю огромное количество ошибок тайм-аута.
Во-первых, я думал, что проблема в PKEY. Итак, я добавил "--mca btl_openib_pkey "0x8100""
к MPIRUN_CMD
. Но никакого успеха.
Я также пытался использовать устаревшую конфигурацию mxm:
CHPL_LAUNCHER=gasnetrun_mxm
export CHPL_LAUNCHER=gasnetrun_ibv
export GASNET_MXM_SPAWNER=mpi
Однако я не могу построить Chapel с такой конфигурацией. Это сообщение об ошибке:
"User requested --enable-mxm, but I don't know how to build mxm programs for your system."
Кстати, использование GASNET поверх MPI, UDP и Infiniband без ключа раздела работает просто отлично.
Кто-нибудь знает, как использовать Chapel в кластере, оснащенном сетью MXM Infiniband и ключом раздела (PKEY)?
С уважением,
Тьяго Карнейро.
develop
после клонирования GASNet. Какую ветку клонировать? Спасибо. 17.12.2018cd third-party/gasnet/gasnet-src && wget -q -O - https://bitbucket.org/PHHargrove/gasnet-public/commits/ibv-pkey/raw | patch -p1
18.12.2018cd .../gasnet-scr/ibv-conduit
. Затем мне пришлось экспортироватьGASNET_IBV_PKEY='0x8100'
, который является моим pkey. В противном случае соединение возвращаетstatus=12
. Наконец, необходимо вручную установитьMPIRUN_CMD="... --mca btl_openib_pkey "0x8100" ..."
в случаеGASNET_IBV_SPAWNER=mpi
. Еще раз спасибо за ваше терпение и время! 18.12.2018