Вопрос

Каковы аргументы за и против использования Greenplum вместо того, чтобы PostgreSQL в веб-приложении (django) окружающая среда?

Моя внутренняя реакция заключается в том, чтобы предпочесть подход PostgreSQL с открытым исходным кодом и огромную базу знаний.

Моя конфигурация (хотя я хотел бы услышать о любой другой конфигурации) - это бизнес среднего размера с 2 веб-серверами и (на данный момент) 2 серверами баз данных.

Области, подлежащие контрастированию, являются бинарными data crunching, количество узлов в replication и мой личный фаворит: communitiy support и квалифицированная инженерная поддержка.

Каковы плюсы и минусы использования Greenplum вместо PostgreSQL?

Это было полезно?

Решение

Я не знаю много о Greenplum, за исключением быстрого съемки ссылки, которую вы отправляете. Хранилище данных - это не то же самое, что транзакционное хранилище эксплуатационных данных. Первый предназначен для специальных запросов, статистического анализа, размерного анализа, наиболее доступа к историческим данным. Последнее для режима в режиме реального времени, чтение/запись оперативных данных. Они бесплатны.

Я предполагаю, что вы хотите PostgreSQL.

Кто нажимает на вас Greenplum и почему? Если это будет представлено в качестве альтернативы, я бы копал глубже и опровергнул аргумент.

Другие советы

Greenplum - это адаптация MPP PostgreSQL. Он оптимизирован для складирования и/или аналитики на больших наборах данных и не будет работать так хорошо в транзакционной среде. Если вам нужна большая среда DW, посмотрите на Greenplum. Если вам нужен OLTP или меньшие размеры DB (до 10 ТБ), посмотрите на PostgreSQL.

Поскольку Greenplum использует параллельную обработку, будут проходить накладные расходы, запустив множество крошечных запросов чтения, поскольку мастер -узел должен общаться с базовыми узлами данных, чтобы получить ответы на все эти запросы. Для запроса, принимающего миллисекунды, ожидайте, что порядок более медленной производительности для Greenplum.

Если вы ищете решение для хранения данных на основе PostgreSQL, я бы также обратил внимание на GridSQL.Это уровень распараллеливания над несколькими экземплярами PostgreSQL, бесплатный с открытым исходным кодом.

Как упоминалось в других комментариях, он не будет хорошо работать для многих небольших миллисекундных запросов, но очень поможет вам при выполнении длительных запросов.GridSQL также не будет включать оптимизацию DW, такую как столбчатое хранилище, которое есть в Greenplum, но вы можете воспользоваться разделением с исключением ограничений (например:подтаблицы по диапазону дат) в сочетании с параллелизмом для более быстрого получения результатов вашего запроса.

Вы также можете даже использовать его на одном многоядерном сервере, поскольку PostgreSQL будет использовать только одно ядро при обработке запроса.

Greenplum - это MPP -аналитическое (OLAP) СУБД. PostgreSQL - это СУБД OLTP. И в целом, на рынке нет ни одного решения, которое может быть хорошим как в OLAP, так и в OLTP одновременно, вы можете найти мои мысли об этом здесь

Бэкэнд WebApp всегда будет создавать рабочую нагрузку OLTP. Greenplum имеет большие накладные расходы для обработки транзакций, так как это распределенная система, поэтому не ожидайте, что это предоставит вам более 500-600 TPS. Postgres, напротив, может пойти на сотни тысяч TPS с правильной настройкой.

Напротив, когда вам нужна рабочая нагрузка OLAP, Postgres может предложить вам только одну обработку хоста, без разделения с динамическим устранением разделов, без сжатия, без столбца. В то время как Greenplum сможет подчеркнуть ваши данные параллельно на кластере.

Таким образом, решение, которое вы ищете, - это типичный корпус хранилища данных - используйте решение OLTP для высокой транзакционной рабочей нагрузки, извлеките данные в DWH с помощью ETL/ELT, а затем запустите сложные запросы Crunging Data Crunging на нем

На данный момент как PostgreSQL, так и GreenPlum являются продуктами с открытым исходным кодом, поэтому вы можете выбрать любой из них, но из -за CAUSE PostgreSQL сообщество - это больше

Я думаю, что Greenplum лучше пользуется параллельной обработкой. Это основано на PostgreSQL, хотя.

Greenplum имеет Бесплатное сообщество издание. Анкет Вы всегда можете скачать и проверить в своей среде.

Если какой -либо кризинг данных занимает больше времени, чем час, вы получите линейные повышения производительности для каждого ядра, которое вы добавляете. Это не стоит усилий для всего, что требует меньше времени, чтобы пробежать.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top