Планировщики задач Hadoop: емкость против справедливого обмена или что-то еще?
-
03-10-2019 - |
Вопрос
Задний план
Мой работодатель постепенно перенадает нашу логику обработки ресурсов ITL и Backend от MySQL в Hadoop (DFS & Cive). На данный момент все еще несколько малое и управляемое (20 тб более 10 узлов), но мы намереваемся постепенно увеличить размер кластера.
Теперь, когда Hadoop переходит в производственное использование, становится большим выпуском планирования партии и совместным использованием кластера между AD-HOC-запросами пользователей, почасовых процессах M / R, и я считаю, что в конечном итоге некоторое использование HBase. Страх состоит в том, что наивный запрос будет сделан пользователем, который потенциально может запускать необоснованное время (скажем, 4 часа) забивая очередь задач и создавая потенциальную инфраструктуру нагрузки.
Вопрос
Еще один раздел моей компании уже сожжен незрелостью FLULE, поэтому мой вопрос, насколько стабильно являются двумя известными планировщиками (потенциалью и справедливой) и помимо использования в своих спонсорских компаниях (Yahoo & Facebook) они используются в другом месте?
Редактировать: Фоновая информация
http://www.cloudera.com/blog/2008/11/job-scheduling-in-hadoop/
http://hadoop.apache.org/mapreduce/docs/r0.21.0/fair_scheduler.html.
http://hadoop.apache.org/mapreduce/docs/r0.21.0/capity_scheduler.html.
Решение
Мы отправляем CDH с планировщиком справедливой доли по умолчанию. Это довольно стабильно.