Заменяет ли Amazon Redshift Hadoop для данных ~ 1xTB?

https://datascience.stackexchange.com/questions/305

16-10-2019
|

Вопрос

Есть много шумихи, окружающих Хадуп и его экосистема. Однако на практике, когда многие наборы данных находятся в диапазоне терабайт, не более разумно использовать Amazon Redshift Для запроса больших наборов данных, а не тратить время и усилия по созданию кластера Hadoop?

Кроме того, как Amazon Redshift сравнивается с Hadoop в отношении сложности настройки, затрат и производительности?

Решение

TL; DR: Они заметно различаются во многих аспектах, и я не могу думать, что Redshift заменит Hadoop.

-Функция
Вы не можете запустить ничего, кроме SQL на Redshift. Возможно, самое главное, вы не можете запустить какие -либо пользовательские функции на Redshift. В Hadoop вы можете, используя множество языков (Java, Python, Ruby .. Вы называете это). Например, NLP в Hadoop прост, а в Redshift более или менее невозможно. Т.е. есть много вещей, которые вы можете сделать в Hadoop, но не на красном смещении. Это, наверное, самое важное различие.

-Подмерция профиля
Выполнение запроса на Redshift в большинстве случаев значительно более эффективно, чем на Hadoop. Тем не менее, эта эффективность исходит из индексации, которая выполняется, когда данные загружаются в RedLeashift (я использую термин indexing Очень свободно здесь). Поэтому это здорово, если вы загружаете свои данные один раз и выполняете несколько запросов, но если вы хотите выполнить только один запрос, например, вы можете проиграть в целом в целом.

-Кост профиль
Какое решение выигрывает затрат, зависит от ситуации (например, производительность), но вам, вероятно, нужно довольно много запросов, чтобы сделать его дешевле, чем Hadoop (более конкретно упругая карта Amazon). Например, если вы делаете Olap, очень вероятно, что Redshift выходит дешевле. Если вы делаете ежедневные партии ETL, Hadoop с большей вероятностью выйдет дешевле.

Сказав это, мы заменили часть нашего ETL, которая была сделана в Hive to Redshift, и это был довольно большой опыт; в основном для простоты развития. Двигатель запросов Redshift основан на PostgreSQL и очень зрелый, по сравнению с Hive. Его кислотные характеристики облегчают рассуждение об этом, и более быстрое время отклика позволяет провести больше тестирования. Это отличный инструмент, но он не заменит Hadoop.

РЕДАКТИРОВАТЬ: Что касается сложности настройки, я бы даже сказал, что с Hadoop легче, если вы используете AWS EMR. Их инструменты настолько зрелые, что смехотворно легко выполнить работу Hadoop. Инструменты и механизмы, связанные с работой Redshift, еще не настолько зрелыми. Например, Redshift не может справиться с нагрузкой, и, таким образом, вам нужно придумать что -то, что превращает это в пакетную нагрузку, которая может добавить некоторую сложность в ваш ETL.

Другие советы

Предел текущего размера для Amazon Redshift составляет 128 узлов или 2 PBS сжатых данных. Может быть, около 6 п.н., хотя пробег варьируется для сжатия. Вы всегда можете сообщить нам, если вам нужно больше. Anurag@AWS (я управляю Amazon Redshift и Amazon EMR)

Лично я не думаю, что это так сложно настроить кластер Hadoop, но я знаю, что иногда это больно, когда вы начинаете.

Ограничения размера HDFS хорошо превышают туберкулез (или вы имели в виду Exabyte?). Если я не ошибаюсь, это масштабируется на йоттабайты или какое -то другое измерение, которое я даже не знаю слова. Что бы это ни было, это действительно большое.

У инструментов, таких как Redshift, есть свое место, но я всегда беспокоюсь о конкретных решениях поставщиков. Моя главная забота всегда - «Что мне делать, когда я недоволен их службой?» - Я могу пойти в Google и перенести свою анализ в их парадигме, или я могу перейти в Hadoop и перенести ту же работу в эту систему. В любом случае, мне придется узнать что -то новое и много работы переводит вещи.

Тем не менее, приятно иметь возможность загружать набор данных и быстро работать, особенно если то, что я делаю, имеет короткий жизненный цикл. Amazon проделал хорошую работу, отвечая на проблему безопасности данных.

Если вы хотите избежать Hadoop, всегда будет альтернатива. Но с этим не так сложно работать, как только вы пойдете с этим.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange