質問

私は、正しい方法でこれを求めている願っています。私は、Elastic MapReduceの周り私の方法を学んでいると私は、「ストリーミング」のジョブフローで使用できる「集計」減速への多数の参考文献を見てきました。

PDF Amazonの "AmazonでElastic MapReduceの概要" では、それは状態が "アマゾンElastic MapReduceのはaggregrateというデフォルトの減速を持っている"

私は何を知りたいのは、次のとおりです。そこには、他のデフォルトの減速のですavailiable

私は自分の減速を書くことができることを理解し、私はすでに存在していると私は私の車は、オリジナルと同じくらい良いではないと確信しているので、「車輪の再発明」何かを書き終わるしたくありません。

役に立ちましたか?

解決

私は似たような状況にいますよ。私は答えは今、たとえば、のようなデフォルトの減速を持っていることが明らかに有用であろうので種類の、吸うれ、「平均」または「中央値「いや、Hadoopのには他のデフォルトの減速が存在しない」であるGoogleの検索結果などから推測します「あなたは自分自身を記述する必要はありません。

http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/mapred/lib/aggregate/package-summary.html には、便利なアグリゲータの使用回数を示しますが、私は見つけることができませんマニュアルおよびエリック・フォースバーグの答えで説明した非常に基本的なキー/値の合計よりも、他の機能にアクセスする方法については、マニュアルを参照してください。おそらく、この機能は唯一私が使用したくないのJava APIで公開されています。

ちなみに、私はエリック・フォースバーグの答えは、この特定の質問に対する良い答えではありません怖いです。それが役に立つ答えである可能性があるため、別の質問を構築することができるが、それはOPが求めているものではありません。

他のヒント

彼らはを参照して減速がここに文書化されます:

HTTP ://hadoop.apache.org/docs/stable/api/org/apache/hadoop/mapred/lib/aggregate/package-summary.htmlする

これは、ストリーミングユーティリティに組み込まれて減速です。これは、出力キーは特別な方法でフォーマットされていることマッパーを書き込むことによって、共通の計算を行うための簡単な方法を提供しています。

たとえば、あなたのマッパー出力の場合:

LongValueSum:id1\t12
LongValueSum:id1\t13
LongValueSum:id2\t1
UniqValueCount:id3\tval1
UniqValueCount:id3\tval2

減速、各LongValueSumの和を計算し、UniqValueCountための異なる値をカウントします。減速機の出力は、それゆえになります:

id1\t25
id2\t12
id3\t2

このパッケージの減速とコンバイナは非常に高速なので、便利かつ高速の両方で集計パッケージを使用して、ストリーミングコンバイナと減速を実行していると比較されます。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top