Frage

Was sind die Argumente für und gegen die Verwendung Greenplum Anstatt von PostgreSQL in einem Webapp (django) Umgebung?

Meine Darmreaktion ist es, den Open-Source-Ansatz von PostgreSQL und riesige Wissensbasis zu bevorzugen.

Meine Konfiguration (obwohl ich gerne über eine andere Konfiguration erfahren würde) ist ein mittelgroßes Unternehmen mit 2 Webservern und (momentan) 2 Datenbankserver.

Gebiete zu kontrastieren sind binär data crunching, Anzahl der Knoten in der replication Und mein persönlicher Favorit: communitiy support und qualifizierter Ingenieurunterstützung.

Was sind die Vor- und Nachteile der Verwendung von GreenPlum anstelle von PostgreSQL?

War es hilfreich?

Lösung

Ich weiß nicht viel über GreenPlum, außer schnell den von Ihnen gesendeten Link zu überfliegen. Ein Data Warehouse ist nicht dasselbe wie ein transaktionaler Betriebsdatenspeicher. Ersteres ist für Ad-hoc-Abfragen, statistische Analysen, dimensionale Analyse, mostlehender Zugriff auf historische Daten. Letzteres ist für Echtzeit, Lesen/Schreiben von Betriebsdaten. Sie sind kostenlos.

Ich vermute, dass Sie Postgresql wollen.

Wer schiebt Greenplum auf dich und warum? Wenn es als Alternative präsentiert wird, würde ich tiefer graben und das Argument widerlegen.

Andere Tipps

GreenPlum ist eine MPP -Adaption von PostgreSQL. Es ist für die Lagerung und/oder Analyse in großen Datensätzen optimiert und würde dies in einer Transaktionsumgebung nicht gut abschneiden. Wenn Sie eine große DW -Umgebung benötigen, schauen Sie sich GreenPlum an. Wenn Sie OLTP- oder kleinere DB -Größen (unter 10 TB) benötigen, schauen Sie sich PostgreSQL an.

Da GreenPlum eine parallele Verarbeitung nutzt, wird es über dem Kopf gelten, dass viele winzige Leseabfragen ausgeführt werden, da der Hauptknoten mit den zugrunde liegenden Datenknoten kommunizieren muss, um Antworten auf all diese Abfragen abzurufen. Erwarten Sie für eine Abfrage, die Millisekunden einnimmt, eine Größenordnung für GreenPlum.

Wenn Sie nach einer Postgresql-basierten Data Warehousing-Lösung suchen, würde ich auch GridSQL betrachten. Es handelt sich um eine Parallelisierungsschicht über mehrere PostgreSQL -Instanzen und ist frei und Open Source.

Wie in anderen Kommentaren erwähnt, wird es für viele kleine Millisekundenabfragen nicht gut abschneiden, aber Sie helfen Ihnen bei langen Lauffragen sehr. GridSQL wird auch keine DW -Optimierungen wie Columnar Storage enthalten, die GreenPlum hat. Sie können jedoch die Einschränkungsausschluss -Partitionierung (z. B. Untertiere nach Datumsbereich) in Kombination mit Parallelität nutzen, um Ihre Abfragergebnisse schneller zu erhalten.

Sie können es auch auf einem einzelnen Multi-Core-Server verwenden, da PostgreSQL bei der Bearbeitung einer Abfrage nur einen einzelnen Kern verwendet.

GreenPlum ist ein MPP -analytischer DBM (OLAP). PostgreSQL ist ein OLTP -DBMS. Und im Allgemeinen gibt es keine einzige Lösung auf dem Markt, die sowohl bei OLAP als auch bei OLTP gleichzeitig gut sein kann. Sie können meine Gedanken dazu finden hier

Das WebApp -Backend erstellt immer OLTP -Workload. GreenPlum hat einen großen Overhead für die Transaktionsverarbeitung, da es sich um ein verteiltes System handelt. Erwarten Sie also nicht, dass Sie mehr als 500-600 TPS liefern. Postgres dagegen können mit der richtigen Abstimmung Hunderttausende von TPS mit der richtigen Abstimmung verlaufen.

Wenn Sie eine OLAP -Arbeitsbelastung benötigen, können Postgres Ihnen nur eine einzelne Hostverarbeitung bieten, keine Partitionierung mit dynamischer Partitionsimination, keine Komprimierung, kein Säulenspeicher. Während GreenPlum in der Lage wäre, Ihre Daten parallel auf dem Cluster zu knüpfen.

Die Suche nach einer Lösung, die Sie suchen

Im Moment sind sowohl PostgreSQL als auch GreenPlum Open -Source -Produkte, sodass Sie sich also frei entscheiden können, aber die Postgresql -Community ist größer Geldautomaten

Ich denke, Greenplum nutzt die parallele Verarbeitung besser aus. Es basiert jedoch auf Postgresql.

GreenPlum hat a Kostenlose Community -Ausgabe. Sie können jederzeit in Ihrer eigenen Umgebung herunterladen und testen.

Wenn Datenknirschen länger als eine Stunde dauern, erhalten Sie für jeden Kern, den Sie hinzufügen, lineare Leistungssteigerungen. Es ist nicht wirklich die Mühe für etwas wert, was weniger Zeit braucht, um sich durchzusetzen.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top