Numpyに依存するAmazonElastic Mapreduceジョブを実行する方法は何ですか?
-
27-10-2019 - |
質問
Mapreduceジョブのマップ部分はNumpyに依存しています。つまり、ブートストラップアクションの一部としてnumpyをインストールする必要があるということです。
私が考えているのは、ブートストラップアクション中にフェッチおよびインストールされるS3に保存されたカスタムNumpyパッケージを構築することです。
もっと良い方法はありますか?
解決
NumpyはAmazonElastic MapReduceインスタンスにインストールされるようになりましたが、他のモジュールを使用する場合は、それらを圧縮し、DistributedCacheを使用して(「-cacheFile」を使用して)ワーカーに配布してから、Pythonを使用してインポートできます。組み込みの「zipimport」モジュール。
参照: http://www.cloudera.com/blog/2008/11/sending-files-to-remote-task-nodes-with-hadoop-mapreduce/
所属していません StackOverflow