Pregunta

Tengo dos preguntas-

Q1. ¿Existe una forma más eficiente de manejar la situación de error en MPI, aparte del punto de vista/reversión? Veo que si un nodo "muere", el programa se detiene abruptamente ... ¿hay alguna forma de seguir adelante con la ejecución después de que un nodo muera? (No hay problemas si es a costa de la precisión)

Q2. Leí en "http://stackoverflow.com/questions/144309/what-is-the-best-mpi-implementation", que OpenMPI tiene una mejor tolerancia a fallas y recientemente MPICH-2 también ha surgido con características similares. ¿Alguien sabe cuáles son y cómo usarlos? ¿Es un "modo"? ¿Pueden ayudar en la situación establecida en Q1 ?

Respuesta amable. Gracias.

¿Fue útil?

Solución

MPI, todas las implementaciones, han tenido la capacidad de continuar después de un error por un tiempo. El valor predeterminado es morir, es decir, el controlador de error predeterminado es MPI_ERRORS_ARE_FATAL, pero eso se puede configurar (por ejemplo, vea la discusión aquí). Pero el estándar actualmente no es mucho más allá de eso; Es decir, es difícil recuperarse y continuar después de tal error. Si su programa es lo suficientemente simple, algún tipo de configuración del trabajador maestro, puede ser posible continuar de esta manera.

los Foro de MPI Actualmente está trabajando en lo que se convertirá en MPI-3, y el manejo de errores y la tolerancia a fallas serán un componente importante del nuevo estándar (hay un grupo de trabajo dedicado al tema). Sin embargo, hasta que se complete ese trabajo, la única forma de obtener una tolerancia a fallas más fuerte de MPI es usar extensiones anteriores, no estándar. FT-MPI fue un proyecto que desarrolló un MPI muy robusto, pero desagradablemente se basa en MPI1.2; Una versión muy temprana del estándar. La reclamación aquí es que ahora están trabajando con OpenMPI, pero no sé qué ha sido de eso. Hay Mpich-v, basado en MPI2, pero eso es más basado en el punto de referencia de control de lo que creo que estás buscando.

Actualizado para agregar: La tolerancia de fallas no llegó a MPI-3, pero el grupo de trabajo continúa su trabajo y la expectativa es que algo resultará de eso en poco tiempo.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top