Вопрос

Проходя через презентацию и материал Summingbird от Twitter, одной из причин, которые упоминаются для использования кластеров Storm и Hadoop вместе в Summingbird, является то, что обработка через шторм приводит к каскаде ошибки. Чтобы избежать этого каскада ошибок и накопления, кластер Hadoop используется для обработки процесса данных и отказа от результатов шторма после того, как те же данные обрабатываются Hadoop.

Каковы причины генерации этого накопления ошибки? И почему его нет в Hadoop? Поскольку я не работал с Штормом, я не знаю причин этого. Это потому, что Storm использует какой -то приблизительный алгоритм для обработки данных, чтобы обработать их в режиме реального времени? Или причина что -то еще?

Это было полезно?

Решение

Twitter использует Storm для обработки данных в реальном времени. Проблемы могут возникнуть с данными в реальном времени. Системы могут пойти вниз. Данные могут быть непреднамеренно обработаны дважды. Сетевые подключения могут быть потеряны. Многое может произойти в системе в реальном времени.

Они используют Hadoop, чтобы надежно обрабатывать исторические данные. Я не знаю специфики, но, например, получение надежной информации из агрегированных журналов, вероятно, более надежна, чем прикрепление к потоку.

Если бы они просто полагались на шторм для всего - у Шторма будут проблемы из -за характера предоставления информации в реальном времени в масштабе. Если они полагались на Hadoop для всего, есть много задержки. Объединение двух с Summingbird - следующий логический шаг.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с datascience.stackexchange
scroll top