Numpyに依存するAmazonElastic Mapreduceジョブを実行する方法は何ですか?

StackOverflow https://stackoverflow.com/questions/5838020

  •  27-10-2019
  •  | 
  •  

質問

Mapreduceジョブのマップ部分はNumpyに依存しています。つまり、ブートストラップアクションの一部としてnumpyをインストールする必要があるということです。

私が考えているのは、ブートストラップアクション中にフェッチおよびインストールされるS3に保存されたカスタムNumpyパッケージを構築することです。

もっと良い方法はありますか?

役に立ちましたか?

解決

NumpyはAmazonElastic MapReduceインスタンスにインストールされるようになりましたが、他のモジュールを使用する場合は、それらを圧縮し、DistributedCacheを使用して(「-cacheFile」を使用して)ワーカーに配布してから、Pythonを使用してインポートできます。組み込みの「zipimport」モジュール。

参照: http://www.cloudera.com/blog/2008/11/sending-files-to-remote-task-nodes-with-hadoop-mapreduce/

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top