Question

J'ai deux questions-

Q1 .Existe-t-il un moyen plus efficace de gérer la situation d'erreur dans MPI, autre que le point de contrôle / la restauration?Je vois que si un nœud "meurt", le programme s'arrête brusquement .. Y a-t-il un moyen de poursuivre l'exécution après la mort d'un nœud ??(pas de problème si c'est au détriment de la précision)

Q2 .J'ai lu dans "http://stackoverflow.com/questions/144309/what-is-the-best-mpi-implementation", qu'OpenMPI a une meilleure tolérance aux pannes et récemment MPICH-2 a également proposé des fonctionnalités similaires.quelqu'un sait ce qu'ils sont et comment les utiliser?est-ce un "mode"?peuvent-ils aider dans la situation décrite au Q1 ?

veuillez répondre.Merci.

Était-ce utile?

La solution

MPI - toutes les implémentations - ont eu la possibilité de continuer après une erreur pendant un certain temps. La valeur par défaut est de mourir - autrement dit, le gestionnaire d'erreurs par défaut est MPI_ERRORS_ARE_FATAL - mais cela peut être défini (par exemple, voir la discussion ici ). Mais la norme ne dépasse actuellement pas beaucoup cela; c'est-à-dire qu'il est difficile de récupérer et de continuer après une telle erreur. Si votre programme est suffisamment simple - une sorte de configuration de type maître-ouvrier - il peut être possible de continuer ainsi.

Le forum MPI travaille actuellement sur ce qui deviendra MPI-3, ainsi que sur la gestion des erreurs et des pannes la tolérance sera un élément important de la nouvelle norme (il existe un groupe de travail dédié au sujet). Jusqu'à ce que ce travail soit terminé, cependant, le seul moyen d'améliorer la tolérance aux pannes de MPI est d'utiliser des extensions antérieures, non standard. FT-MPI était un projet qui a développé un MPI très robuste, mais malheureusement il est basé sur MPI1. 2; une toute première version de la norme. L'affirmation ici est qu'ils travaillent maintenant avec OpenMPI, mais je ne Je ne sais pas ce qu'il en est. Il y a MPICH-V , basé sur MPI2, mais c'est plus basé sur le redémarrage du point de contrôle que ce que je pense que vous ' recherchent.

Mise à jour pour ajouter : la tolérance aux pannes n'a pas été intégrée au MPI-3, mais le groupe de travail continue son travail et on s'attend à ce que quelque chose en résultera d'ici peu.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top