Планировщики задач Hadoop: емкость против справедливого обмена или что-то еще?

StackOverflow https://stackoverflow.com/questions/3721693

Вопрос

Задний план

Мой работодатель постепенно перенадает нашу логику обработки ресурсов ITL и Backend от MySQL в Hadoop (DFS & Cive). На данный момент все еще несколько малое и управляемое (20 тб более 10 узлов), но мы намереваемся постепенно увеличить размер кластера.

Теперь, когда Hadoop переходит в производственное использование, становится большим выпуском планирования партии и совместным использованием кластера между AD-HOC-запросами пользователей, почасовых процессах M / R, и я считаю, что в конечном итоге некоторое использование HBase. Страх состоит в том, что наивный запрос будет сделан пользователем, который потенциально может запускать необоснованное время (скажем, 4 часа) забивая очередь задач и создавая потенциальную инфраструктуру нагрузки.

Вопрос

Еще один раздел моей компании уже сожжен незрелостью FLULE, поэтому мой вопрос, насколько стабильно являются двумя известными планировщиками (потенциалью и справедливой) и помимо использования в своих спонсорских компаниях (Yahoo & Facebook) они используются в другом месте?

Редактировать: Фоновая информация

http://www.cloudera.com/blog/2008/11/job-scheduling-in-hadoop/

http://hadoop.apache.org/mapreduce/docs/r0.21.0/fair_scheduler.html.

http://hadoop.apache.org/mapreduce/docs/r0.21.0/capity_scheduler.html.

Это было полезно?

Решение

Мы отправляем CDH с планировщиком справедливой доли по умолчанию. Это довольно стабильно.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top