Hadoopタスクスケジューラ:容量対公正な共有など?
-
03-10-2019 - |
質問
バックグラウンド
私の雇用主は、MySQLからHadoop(DFS&Hive)にリソース集中的なETLおよびバックエンド処理ロジックを徐々にシフトしています。現時点では、すべてがまだやや小さくて管理可能です(10個以上のノードを超える20 TB)が、クラスターサイズを徐々に増やすつもりです。
Hadoopが生産の使用にシフトされているため、Ad-HocユーザーHiveクエリ、1時間ごとのM/Rプロセスの間でクラスターのバッチスケジューリングと共有のより大きな問題になり、最終的にはHBaseの使用量があると思います。恐れは、不当な時間(たとえば4時間)をタスクキューを詰まらせ、潜在的なインフラストラクチャの負荷不安定性を生成する可能性があるユーザーによって、素朴なクエリが行われることです。
質問
私の会社の別のセクションはすでにFlumeの未熟によって焼かれているので、私の質問は、2つの既知のスケジューラー(キャパシティとフェア)とスポンサー会社(Yahoo&Facebook)の使用に加えて、他の場所で使用されていますか?
編集:背景情報
http://www.cloudera.com/blog/2008/11/job-scheduling-in-hadoop/
http://hadoop.apache.org/mapreduce/docs/r0.21.0/fair_scheduler.html
http://hadoop.apache.org/mapreduce/docs/r0.21.0/capacity_scheduler.html
解決
公正な共有スケジューラとともにCDHにデフォルトで出荷します。それは非常に安定しています。
所属していません StackOverflow