糸の同時MapReduceタスクの制御と監視数
質問
私は少数の強力なマシンにHadoop 2.2クラスターを展開しています。私はフレームワークとして糸を使うための制約があります。
- 実際の地図の数を制御し、並行して実行されるタスクを削減する方法各マシンにはCPUコア(12-32)と十分なRAMがあります。最大限に活用したいです。
- 私の設定を実際に機械のより良い利用につながったことを監視する方法は?特定のジョブ中にコア(スレッド、プロセス)の数を確認できますか?
これらのマシンを溶かすのを手伝ってくれてありがとう:)
解決
1。
MR1では、mavred.tasktracker.map.tasks.maximumとmapred.tasktracker.reduce.tasks.maximumプロパティは、各タスクトラッカーが持っていたスロット数を削減したマップ数を決定しました。
これらの特性はもはや糸に存在しません。代わりに、yarnはyarn.nodemanager.resource.memory-mbとyarn.nodemanager.resource.cpu-vcoresを使用しています。これは各ノード上のメモリとCPUの量を制御します。両方のマップで利用可能で
本質的に:
ヤーンにはタスクトラッカーはありませんが、まさに一般的なNodeManagers。したがって、これ以上マップスロットはなく、スロットの分離を減らすことはできません。すべてが使用/要求されているメモリの量によって異なります
2;
Web UIを使用すると、監視/管理者の種類の情報が入手できます。
NameNode - http://:50070 /
リソースマネージャ - http://:8088 /
さらにApache Ambariはこれを意味します。 http://ambari.apache.org/
とHadoop / Yarnクラスタとインターフェースするための色相さまざまな方法で: http://gethue.com/
他のヒント
- 良いHortonWorks からのヤーン構成についてのガイド
- 求人履歴サーバ。通常、ポート19888にあります。 ambari と
私は同じ問題を抱えています マッパーの数を増やすためには、入力分割のサイズを小さくすることをお勧めします(各入力分割はマッパーなどで処理されます)。私はそれをする方法がわからない、
確かに、Hadoop 2.2 / YARNは考慮されません以下の設定のいずれもありません
<property>
<name>mapreduce.input.fileinputformat.split.minsize</name>
<value>1</value>
</property>
<property>
<name>mapreduce.input.fileinputformat.split.maxsize</name>
<value>16777216</value>
</property>
<property>
<name>mapred.min.split.size</name>
<value>1</value>
</property>
<property>
<name>mapred.max.split.size</name>
<value>16777216</value>
</property>
.
最高