Вопрос

Я рассматриваю возможность создания инфраструктуры хранения данных/запросов прямо сейчас поверх решений Map/Reduce, таких как Hadoop.

Однако мне кажется, что вся работа по M/R просто повторяет то, что ребята из RDBMS решили за последние 20 лет с параллельными базами данных SQL.Реализации параллельного SQL масштабируют чтение и запись между узлами, как и M/R, но, кроме того, уже содержат тонкости обычных баз данных (SQL, существующие библиотеки интеграции и т. д.).

Проблема в:Кажется, вы не найдете клиентов этих компаний, публикующих много сообщений в Интернете.Итак, есть ли у кого-нибудь здесь опыт работы с такими решениями и может ли он дать мне некоторое представление и/или ссылки?

Это было полезно?

Решение

Я использовал Netezza и Hadoop.И получите знания об Infobright, базе данных столбцов.

Netezza — это настоящая база данных, реализующая свойства ACID, что имеет как свои преимущества, так и свои преимущества.Netezza движется к тому, чтобы позволить большему количеству кодов M/R выполнять свои табличные данные с помощью новой архитектуры Twinfin.В предыдущей версии устройства поддерживались определяемые пользователем функции и агрегаты.В новой версии, которая запускает Linux на SPU и использует процессоры Intel, открывается возможность создавать больше пользовательского кода, близкого к данным.Мой опыт работы с Netezza был очень положительным – как с технологией, так и с компанией.

Hadoop — это чистые вычисления с сокращением карт.Это не требует затрат на свойства базы данных ACID.Итак, это действительно другой зверь, чем Netezza.В зависимости от характера использования это может быть лучше и, конечно, дешевле, чем Netezza.Hadoop поддерживает Hbase и Hive, что может обеспечить необходимое удобство выполнения запросов при меньших затратах.

Другой разработчик из нашей команды оценил Infobright (так что это подержанный продукт) и обнаружил, что производительность загрузки низкая, а некоторые агрегаты работают медленно.У него есть некоторые параллели с Netezza (например.карты зон используются в netezza для сужения области сканирования).Infobright — это продукт с открытым исходным кодом, имеющий как общественную, так и поддерживаемую корпоративную версию.

В контексте вашей конкретной проблемы можно сказать гораздо больше - возможно, за рамками этого форума.Надеюсь это поможет.

Другие советы

Вы не указали, на какие вопросы вы пытаетесь ответить с помощью своих запросов или как структурированы ваши данные.Прежде чем выбрать, какое решение использовать, вам, вероятно, придется подумать об этих двух вещах.

Вы правы:основные поставщики СУБД предлагают решения для кластеризации;как для параллельной обработки, так и для высокой доступности.У них уже давно есть эта технология, и любое предприятие с большим количеством данных, вероятно, использует ее.Когда вы покупаете ($$$) продукт, вам предоставят много документации и помогут настроить его (больше $$$), если вы можете себе это позволить.

СУРБД хороши для онлайн-транзакций (OLTP);ответы на вопросы по конкретным рядам (где живет Мария?);ответы на некоторые вопросы сводного типа (сколько мы продали в первом квартале и т. д.), хотя их можно заставить выполнять подробные сводные вопросы (сколько мы продали в первом квартале с разбивкой по продуктам, продавцам, месяцам, и регион?), вы обычно начинаете облагать налогом их ограничения (любой запрос, требующий посещения всех строк, будет медленным).

Для этих типов запросов у большинства предприятий есть хранилище данных, которое структурирует данные в многомерные «кубики». (См. Cognos, Hyperion, другие).Это может подойти для того, что вы пытаетесь сделать.

У меня нет опыта работы с MapReduce, но я прочитал раздел в Википедии: Использование и поэтому, если то, что вы пытаетесь сделать, попадает в эти категории, я бы продолжил это.

Если вы работаете в быстрорастущей организации, вам следует использовать Teradata.У нас действительно хороший опыт работы с Teradata.Это дает вам масштабируемость, которую не может обеспечить ни один другой поставщик.Как только вы привыкнете к SQL и стилю работы, вы по-настоящему оцените дизайн и архитектуру Teradata.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top