Pregunta

Estoy tratando de configurar un clúster de MPI. Pero tengo el problema de que el número de CPU añadidos al archivo mpd.conf no se utiliza correctamente. Tengo tres servidores de Ubuntu. opteron con 48 núcleos CALC1 con 8 Cores CALC2 con 8 núcleos.

Mis mpd.hosts se parece a:
opteron:46
calc1:6
calc2:6

Después de arrancar (mpdboot -n 3 -f mpd.hosts) el sistema está funcionando. mpdtrace -.> los tres de ellos se enumeran

Sin embargo, la ejecución de un Programm como "mpiexec -n 58 raxmlHPC-MPI ..." hace que CALC1 y CALC2 llegar a muchos puestos de trabajo y Opteron llega a unos pocos a la vez. ¿Qué estoy haciendo mal?

Regards

Bjoern

¿Fue útil?

Solución

He encontrado una solución. He utilizado el parámetro "/path/to/mpd.hosts -machinefile" adicionales para el comando mpiexec. Y ahora, todos los nodos están funcionando correctamente. Uno de los problemas que obtuve fue que me siguiente mensaje de error:

... MPIU_SHMW_Seg_create_attach_templ (671): abierta fallado - No existe el fichero o directorio ...

Para solucionarlo, tenía que establecer la variable de entorno MPICH_NO_LOCAL=1

Otros consejos

A medida que averiguado, que debe pasar la machinefile tanto mpdboot y mpiexec con el fin de uso del número de procesos por el huésped. La cuestión "abierta fallido" es un error conocido en el MPD, el gestor de procesos que está utilizando. Tenga en cuenta que la solución MPICH_NO_LOCAL=1 va a funcionar, pero probablemente resultará en una reducción del rendimiento grande para la comunicación intranodal.

Está utilizando claramente MPICH2 (o un derivado MPICH2), pero no está claro cuál es la versión que está utilizando. Si puedes, no te recomiendo actualizar a cualquiera MPICH2 1.2.1p1 o (mejor aún) 1.3.1. Ambas publicaciones incluyen un gestor de procesos más nuevo llamado hidra que es mucho más rápido y más robusto. En 1.3.1, Hydra es el gestor de procesos por defecto. No requiere una fase mpdboot, y es compatible con una variable de entorno $HYDRA_HOST_FILE de modo que usted no tiene que especificar el archivo de la máquina en cada mpiexec.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top