Hadoop: Недостатки использования всего 2 машины?

https://stackoverflow.com/questions/2246463

20-09-2019
|

Вопрос

Я хочу провести анализ журналов огромных объемов данных и собрать аналитическую информацию. Однако все данные поступают из внешних источников, и у меня есть только 2 машины для хранения - одна в качестве резервного копирования/репликации.

Я пытаюсь использовать Hadoop, Lucene ... для этого. Но во всех учебных документах упоминается, что Hadoop полезен для распределенной обработки, мульти-узлы. Моя установка не вписывается в эту архитектуру.

Используют ли они накладные расходы с использованием Hadoop всего с 2 машинами? Если Hadoop не является хорошим выбором, есть ли альтернативы? Мы смотрели на Splunk, нам это нравится, но это дорого для покупки. Мы просто хотим построить свои собственные.

Решение

Hadoop следует использовать для проблем с распределенной пакетной обработкой.

5-й-подвески-О-хадуп

Анализ файлов журнала является одним из наиболее распространенных применений Hadoop, его одна из задач Facebook использует его.

Если у вас есть две машины, у вас по определению есть мульти-узловый кластер. Вы можете использовать Hadoop на одной машине, если хотите, но при добавлении большего количества узлов время, необходимое для обработки того же количества данных, уменьшается.

Вы говорите, что у вас огромные объемы данных? Это важные цифры, чтобы понять. Лично, когда я считаю огромным с точки зрения данных, я думаю, что в диапазоне Terabytes+ 100 -х. Если это так, вам, вероятно, понадобится более двух машин, особенно если вы хотите использовать репликацию над HDF.

Аналитическая информация, которую вы хотите собрать? Вы определили, что на эти вопросы можно ответить, используя подход MapReduce?

То, что вы могли бы рассмотреть, было бы использовать Hadoop на Amazon EC2, если у вас ограниченное количество аппаратных ресурсов. Вот несколько ссылок, чтобы начать вас:

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow