Domanda

Sto provando ad installare un cluster MPI. Ma ho il problema che il numero di CPU aggiunti al file mpd.conf non viene utilizzato correttamente. Ho tre server Ubuntu. Opteron con 48 core CALC1 con 8 core CALC2 con 8 core.

I miei mpd.hosts assomiglia:
opteron:46
calc1:6
calc2:6

Dopo l'avvio (mpdboot -n 3 -f mpd.hosts) il sistema è in esecuzione. mpdtrace -.> tutti e tre di essi sono elencati

Ma l'esecuzione di un Programma come "mpiexec -n 58 raxmlHPC-MPI ..." fa sì che CALC1 e CALC2 get a molti posti di lavoro e Opteron arriva a pochi allo stesso tempo. Che cosa sto facendo di sbagliato?

Saluti

Bjoern

È stato utile?

Soluzione

Ho trovato una soluzione. Ho utilizzato il parametro aggiuntivi "/path/to/mpd.hosts -machinefile" per il comando mpiexec. E ora, tutti i nodi sono in esecuzione in modo corretto. Un problema che ho avuto è stato che mi sono seguente messaggio di errore:

... MPIU_SHMW_Seg_create_attach_templ (671): aperto fallito - Nessun file o directory ...

Per risolvere il problema, ho dovuto impostare la variabile d'ambiente MPICH_NO_LOCAL=1

Altri suggerimenti

Come è capito, si deve passare il machinefile sia mpdboot e mpiexec Per poter utilizzare singoli host conteggi del processo. Il "fallito aperto" questione è un bug noto in MPD, il gestore del processo che si sta utilizzando. Si noti che la soluzione MPICH_NO_LOCAL=1 funzionerà, ma probabilmente porterà ad una grande penalizzazione delle prestazioni per la comunicazione intranode.

Si utilizza chiaramente MPICH2 (o un derivato MPICH2), ma non è chiaro quale versione si sta utilizzando. Se è possibile, che vi consiglio vivamente l'aggiornamento a uno MPICH2 1.2.1p1 o (meglio ancora) 1.3.1. Entrambe queste versioni includono un più nuovo gestore di processo chiamato idra che è molto più veloce e più robusto. In 1.3.1, Hydra è il gestore del processo di default. Non richiede una fase di mpdboot, e supporta una variabile di ambiente $HYDRA_HOST_FILE in modo che non c'è bisogno di specificare il file della macchina su ogni mpiexec.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top