質問

私には2つの質問があります -

Q1. 。チェックポイント/ロールバック以外に、MPIのエラー状況を処理するためのより効率的な方法はありますか?ノードが「死ぬ」場合、プログラムは突然停止します。ノードが死んだ後に実行する方法はありますか? (それが正確さを犠牲にしても問題はありません)

Q2. 。 「http://stackoverflow.com/questions/144309/what-is-the-best-mpi-implementation」で読みました。OpenMPIはより良い断層トレランスを持ち、最近MPICH-2も同様の機能を思いつきました。誰かが彼らが何であるか、そしてそれらをどのように使用するか知っていますか?それは「モード」ですか?彼らは述べられている状況で助けることができますか Q1 ?

親切に返信してください。ありがとうございました。

役に立ちましたか?

解決

MPI-すべての実装 - しばらくの間エラー後に継続することができました。デフォルトは死ぬことです - つまり、デフォルトのエラーハンドラーはMPI_ERRORS_ARE_FATALです - しかし、それは設定できます(例:ディスカッションを参照してください ここ)。しかし、標準は現在、それ以上ではありません。つまり、そのようなエラーの後、回復して継続することは困難です。プログラムが十分に単純な場合 - ある種のマスターワーカータイプのセットアップ - この方法を継続することが可能かもしれません。

MPIフォーラム 現在、MPI-3になるものに取り組んでおり、エラー処理とフォールトトレランスは新しい標準の重要なコンポーネントになります( ワーキンググループ トピックに専念)。ただし、その作業が完了するまで、MPIからより強力なフォールトトレランスを取得する唯一の方法は、以前の非標準的な拡張機能を使用することです。 ft-mpi 非常に堅牢なMPIを開発したプロジェクトでしたが、不幸にはMPI1.2に基づいています。標準の非常に初期のバージョン。請求 ここ 彼らは現在OpenMPIで作業しているということですが、それがどうなったのかわかりません。あります mpich-v, 、MPI2に基づいていますが、それはあなたが探していると思っているものよりもチェックポイントリスートベースです。

追加するために更新されました: :フォールトトレランスはMPI-3にはなりませんでしたが、ワーキンググループはその仕事を続けており、期待は、すぐに何かが生じるということです。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top