Tolleranza ai guasti in MPICH/OpenMPI
-
28-10-2019 - |
Domanda
Ho due domande-
Q1. Esiste un modo più efficiente per gestire la situazione degli errori in MPI, oltre a check-point/rollback? Vedo che se un nodo "muore", il programma si ferma bruscamente .. c'è un modo per andare avanti con l'esecuzione dopo che muore un nodo ?? (Nessun problema se è a costo di precisione)
Q2. Ho letto in "http://stackoverflow.com/questions/144309/what-is-the-best-mpi-implementation", che OpenMPI ha una migliore tolleranza ai guasti e recentemente MPich-2 ha anche realizzato caratteristiche simili. Qualcuno sa cosa sono e come usarli? È una "modalità"? possono aiutare nella situazione indicata Q1 ?
rispondi gentilmente. Grazie.
Soluzione
MPI - tutte le implementazioni - hanno avuto la capacità di continuare dopo un errore per un po '. L'impostazione predefinita è morire - cioè il gestore degli errori predefiniti è mpi_errors_are_fatal - ma che può essere impostato (ad esempio, vedere la discussione qui). Ma lo standard non è attualmente molto oltre; Cioè, è difficile recuperare e continuare dopo un tale errore. Se il tuo programma è sufficientemente semplice - una sorta di configurazione di maestro -lavoro - potrebbe essere possibile continuare in questo modo.
Il Forum MPI sta attualmente lavorando su ciò che diventerà MPI-3 e la gestione degli errori e la tolleranza agli errori saranno un componente importante del nuovo standard (c'è un gruppo di lavoro dedicato all'argomento). Fino a quando quel lavoro è completo, tuttavia, l'unico modo per ottenere una tolleranza di guasto più forte da MPI è utilizzare estensioni precedenti, non standard. Ft-mpi è stato un progetto che ha sviluppato un MPI molto robusto, ma sterzantemente si basa su MPI1.2; una versione molto iniziale dello standard. L'affermazione qui È che ora stanno lavorando con OpenMPI, ma non so cosa ne sia. C'è Mpich-v, basato su MPI2, ma è più basato sul restart del checkpoint di quello che penso stai cercando.
Aggiornato ad Aggiungi: La tolleranza agli errori non è entrata in MPI-3, ma il gruppo di lavoro continua il suo lavoro e l'aspettativa è che qualcosa deriverà da quello prima a lungo.