Hadoop Namenode: единственная точка отказа

https://stackoverflow.com/questions/4502275

12-10-2019
|

Вопрос

Наменод в архитектуре Hadoop является единственной точкой отказа.

Как люди, которые имеют большие кластеры Hadoop, справляются с этой проблемой?

Существует ли отраслевое решение, которое хорошо сработало, в котором вторичный Namenode вступает во владение на случай, если первичный сбой?

Решение

Yahoo есть определенные рекомендации Для настройки конфигурации в разных размерах кластера, чтобы учитывать сбой Namenode. Например:

Единственной точкой отказа в кластере Hadoop является Namenode. Хотя потеря любой другой машины (периодически или навсегда) не приводит к потере данных, потеря наменоде приводит к неоплачиваемости кластера. Постоянная потеря данных о наменде сделает HDF -классы неоперабельной кластера.

Следовательно, в этой конфигурации следует сделать еще один шаг для резервного копирования метаданных Namenode

Facebook использует измененная версия Hadoop для своих хранилищ данных; оно имеет Некоторые оптимизации Это сосредоточено на надежности Наменоде. Кроме того Аватарноде специально для быстрого переключения между первичными и вторичными наменями. Блог Дхруба Бортхакур Содержит несколько других записей, предлагающих дальнейшее понимание наменоде как единственную точку отказа.

Редактировать: Дополнительная информация об улучшениях Facebook в Namenode.

Другие советы

Высокая доступность Наменод был введен с Hadoop 2.x выпуск.

Это может быть достигнуто в двух режимах - С NFS а также С QJM

Но высокая доступность с Менеджер журнала Quorum (QJM) является предпочтительным вариантом.

В типичном кластере HA две отдельные машины настроены как наменоды. В любой момент времени один из наменей находится в активном состоянии, а другой находится в резервном состоянии. А Активный наменод несет ответственность за все операции клиентов в кластере, в то время как резервная служба просто действует как раб, поддерживая достаточное количество состояний, чтобы обеспечить быстрое аварийное переключение, если это необходимо.

Посмотрите на вопросы ниже SE, что объясняет полный процесс переключения.

Вторичное использование Namenode и высокая доступность в Hadoop 2.x

Как работает процесс отказоустойчивости Hadoop Namenode?

Большие кластеры Hadoop имеют тысячи узлов данных и один узел имени. Вероятность отказа возрастает линейно с количеством машин (при равных). Так что, если Hadoop не справился с неудачами узлов данных, он не будет масштабироваться. Поскольку существует только один узел имени, есть единственная точка отказа (SPOF), но вероятность отказа все еще низкая.

Этот грустный, ответ БККБрада о том, что Facebook добавил возможности отказа от переключения к имени Узел, в порядке.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow