Domanda

Ho due domande-

Q1. Esiste un modo più efficiente per gestire la situazione degli errori in MPI, oltre a check-point/rollback? Vedo che se un nodo "muore", il programma si ferma bruscamente .. c'è un modo per andare avanti con l'esecuzione dopo che muore un nodo ?? (Nessun problema se è a costo di precisione)

Q2. Ho letto in "http://stackoverflow.com/questions/144309/what-is-the-best-mpi-implementation", che OpenMPI ha una migliore tolleranza ai guasti e recentemente MPich-2 ha anche realizzato caratteristiche simili. Qualcuno sa cosa sono e come usarli? È una "modalità"? possono aiutare nella situazione indicata Q1 ?

rispondi gentilmente. Grazie.

È stato utile?

Soluzione

MPI - tutte le implementazioni - hanno avuto la capacità di continuare dopo un errore per un po '. L'impostazione predefinita è morire - cioè il gestore degli errori predefiniti è mpi_errors_are_fatal - ma che può essere impostato (ad esempio, vedere la discussione qui). Ma lo standard non è attualmente molto oltre; Cioè, è difficile recuperare e continuare dopo un tale errore. Se il tuo programma è sufficientemente semplice - una sorta di configurazione di maestro -lavoro - potrebbe essere possibile continuare in questo modo.

Il Forum MPI sta attualmente lavorando su ciò che diventerà MPI-3 e la gestione degli errori e la tolleranza agli errori saranno un componente importante del nuovo standard (c'è un gruppo di lavoro dedicato all'argomento). Fino a quando quel lavoro è completo, tuttavia, l'unico modo per ottenere una tolleranza di guasto più forte da MPI è utilizzare estensioni precedenti, non standard. Ft-mpi è stato un progetto che ha sviluppato un MPI molto robusto, ma sterzantemente si basa su MPI1.2; una versione molto iniziale dello standard. L'affermazione qui È che ora stanno lavorando con OpenMPI, ma non so cosa ne sia. C'è Mpich-v, basato su MPI2, ma è più basato sul restart del checkpoint di quello che penso stai cercando.

Aggiornato ad Aggiungi: La tolleranza agli errori non è entrata in MPI-3, ma il gruppo di lavoro continua il suo lavoro e l'aspettativa è che qualcosa deriverà da quello prima a lungo.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top