Как работает Netezza? Как это сравнивается с Hadoop?

https://stackoverflow.com/questions/4553712

13-10-2019
|

Вопрос

Хочу понять, Netezza или же Hadoop является правильным выбором для приведенных ниже целей:

Вытащите файлы подачи из нескольких онлайн -источников значительного размера порой более чем в ГБ.
Очистите, фильтруйте, преобразуйте и вычислите дополнительную информацию из каналов.
Генерировать метрики на разных измерениях, сродни тому, как это делают кубики хранилища данных, и
Помогите веб -приложениям для доступа к конечным данным/метрикам быстрее, используя SQL или любые другие стандартные механизмы.

Решение

Как это работает:
По мере того, как данные загружаются в прибор, он разумно разделяет каждую таблицу через 108 SPU.
Как правило, жесткий диск является самой медленной частью компьютера. Представьте себе 108 из них сразу, загружая небольшой кусочек стола. Вот как Netezza достигает 500 гигабайт в час.
После того, как часть таблицы загружается и хранится на каждом SPU (компьютер на интегрированной цепной карте), каждый столбец анализируется для получения описательной статистики, такой как минимальные и максимальные значения. Эти значения хранятся на каждом из 108 SPU, вместо индексов, которые требуют времени, чтобы создать, обновлять и занимать ненужное пространство.
Представьте себе свою среду без необходимости создавать индексы. Когда пришло время запросить данные, мастер -компьютер внутри устройства запрашивает SPU, чтобы увидеть, какие из них содержат необходимые данные.
Только SPU, которые содержат соответствующую информацию о возврате данных, поэтому меньше перемещения информации по сети на сервер бизнес -аналитики/аналитики. Для присоединения данных это становится еще лучше.
Прибор распространяет данные в нескольких таблицах по нескольким SPU с помощью ключа. Каждая SPU содержит частичные данные для нескольких таблиц. Он соединяет части каждой таблицы локально на каждой SPU, возвращая только локальный результат. Все «локальные результаты» собираются внутри кабинета, а затем возвращаются на сервер бизнес -аналитики/аналитики в качестве результата запроса. Эта методология также способствует истории скорости.
Ключом ко всему этому является «меньше перемещения данных по сети». Прибор возвращает только данные обратно на сервер бизнес -аналитики/аналитики в сети организации 1000/100 МБ.
Это сильно отличается от традиционной обработки, где программное обеспечение для бизнес -аналитики/аналитики обычно извлекает большую часть данных из базы данных, чтобы выполнить свою обработку на своем собственном сервере. База данных выполняет работу для определения необходимых данных, возвращая меньший результат подмножества на сервер бизнес -аналитики/аналитики.
Резервная копия и избыточность
Чтобы понять, как данные и система настроены почти на 100% времени безотказной работы, важно понять внутренний дизайн. Он использует внешнюю, самую быструю, одну треть части каждого диска 400 гигабайтов для хранения и извлечения данных. Одна треть диска хранит описательную статистику, а другая третья хранит горячие данные о других SPU. Каждый шкаф для прибора также содержит 4 дополнительных SPU для автоматического сбоя по сравнению с любым из 108 SPU.
Взял из http://www2.sas.com

Другие советы

Я бы подумал о разделении проектирования процесса пакетного ETL и дальнейших запросов SQL. Я думаю, что следующие цифры важны для оценки решений:

а) Сколько данных строк вы хотите обрабатывать ежедневно?
б) Сколько данных строк вы хотите сохранить в системе?
C) Каков будет размер набора данных RDBMS.
D) Какие у вас будут SQL? Здесь я имею в виду - есть ли специальные SQL или хорошо спланированные отчеты. Другие вопросы - вам нужны Jons между двумя большими таблицами.

С ответами на вышеуказанные вопросы можно будет дать лучшие ответы. Например, я бы считал Netezza опцией, когда вам нужны соединения очень больших таблиц, и Hadoop - если вам нужно хранить терабайты данных.

Из ваших ответов может показаться, что Netezza может быть более подходящей для ваших потребностей. Он очень хорошо обрабатывает специальные запросы, и самая новая версия их программного обеспечения имеет встроенную поддержку для подкоров и кубиков. Кроме того, Netezza работает в масштабе терабайт данных, поэтому вы должны быть более чем в состоянии обработать доступные данные.

Если вы имеете дело со сценарием ELT, в котором вам нужно загружать огромные объемы файлов и обработать его позже, как фильтр, преобразовать и загружать его в трассовые базы данных для аналитики, вы можете использовать Hadoop для загрузки файлов, а затем Netezza в качестве целевой постановки или данных Склад. С помощью Hadoop вы можете поместить все свои файлы в HDFS, а затем прочитать, используя инструмент ETL для трансформы, фильтра и т. Д. Или или использовать Hive SQL, чтобы написать ваш запрос данных в этих файлах. Тем не менее, Hadoop Warehouse Warehouse Hive не поддерживает обновления и не поддерживает все операторы SQL. Следовательно, лучше прочитать эти файлы из HDFS, применить фильтры, преобразование и загрузить результат в традиционное устройство с хранилищами данных, такое как Netezza, чтобы написать ваши запросы для кубов.

Если вы ежедневно загружаете GB данных в Netezza с посадкой, постановкой и области Mart, то, скорее всего, вы в конечном итоге будете использовать много места. В этом сценарии вы можете сделать свое место посадки, чтобы быть на Hadoop, а затем сделать ваши зоны постановки и март, чтобы быть Netezza. Если вы запрашиваете простые, и вы не выполняете очень сложную фильтрацию и т. Д., Или обновления для источника, вы можете управлять всем с помощью Hadoop.

В заключение, Hadoop идеально подходит для огромных объемов данных, но не поддерживает всю функциональность традиционного хранилища данных.

Вы можете проверить эту ссылку, чтобы увидеть различия:http://dwbitechguru.blogspot.ca/2014/12/how-to-select-between-hadoop-vs-netezza.html

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow