Domanda

Quali sono gli argomenti a favore e contro l'uso Greenplum invece di PostgreSQL in un ambiente webapp (django)?

La mia reazione istintiva è quella di preferire l'approccio open-source di PostgreSQL ed enorme knowledge base.

La mia configurazione (anche se mi piacerebbe sentir parlare di qualsiasi altra configurazione) è un'azienda di medie dimensioni con 2 server web e (al momento) 2 server di database.

Le aree a contrasto sono data crunching binario, il numero di nodi nel replication e il mio personale favorito:. communitiy support e supporto tecnico qualificato

Quali sono i pro ei contro di utilizzare Greenplum invece di PostgreSQL?

È stato utile?

Soluzione

Non so molto di Greenplum, fatta eccezione per la scrematura rapidamente il link inviato. Un data warehouse non è la stessa cosa di un negozio transazionale dati operativi. Il primo è ad hoc query, analisi statistiche, analisi dimensionale, lettura per lo più l'accesso ai dati storici. Quest'ultima è in tempo reale, lettura / scrittura dei dati operativi. Sono gratuito.

Sto indovinando che si desidera PostgreSQL.

Chi sta spingendo Greenplum su di voi e perché? Se è stato presentato come alternativa, mi piacerebbe scavare più a fondo e confutare la tesi.

Altri suggerimenti

Greenplum è un adattamento MPP di PostgreSQL. È ottimizzato per lo stoccaggio e / o analisi su grandi insiemi di dati e non si comporta molto bene in un ambiente transazionale. Se avete bisogno di un grande ambiente DW, sguardo Greenplum. Se avete bisogno di OLTP o più piccole dimensioni DB (sotto 10 TB) poi guardare PostgreSQL.

Dal Greenplum utilizza l'elaborazione parallela, ci sarà in testa con l'esecuzione di un sacco di piccole query di lettura in quanto le esigenze nodo master per comunicare con i nodi di dati sottostanti per recuperare un risposte a tutte queste domande. Per una query di prendere millisecondi, si aspettano un ordine di grandezza più lento prestazioni per Greenplum.

Se siete alla ricerca di un insieme di dati PostgreSQL-based magazzinaggio soluzione, vorrei anche guardare GridSQL. Si tratta di uno strato di parallelizzazione su più istanze di PostgreSQL, ed è libero e open source.

Come detto in altri commenti, non si esibirà anche per molte piccole query millisecondi, ma vi aiuterà molto per l'esecuzione di query lungo. GridSQL, inoltre, non include ottimizzazioni DW come stoccaggio colonnare che Greenplum ha, ma si può usufruire di vincolo partizionamento esclusione (es: sottotabelle per intervallo di date). Combinati con il parallelismo per ottenere i risultati della query più velocemente

È anche possibile usarlo anche su un singolo server multi-core, come PostgreSQL utilizza solo un singolo core durante l'elaborazione di una query.

Greenplum è un MPP analitico (OLAP) DBMS. PostgreSQL è un OLTP DBMS. E, in generale, non c'è una soluzione unica sul mercato che può essere buono sia a OLAP e OLTP, allo stesso tempo, si possono trovare i miei pensieri su di esso qui

Il backend WebApp creerà sempre OLTP carico di lavoro. Greenplum ha un grande sovraccarico per l'elaborazione delle transazioni in quanto è un sistema distribuito, quindi non aspettatevi questo per fornire più di 500-600 TPS. Postgres in contrasto possono andare a centinaia di migliaia di TPS con la messa a punto giusta.

Al contrario, quando si ha bisogno di un carico di lavoro OLAP, Postgres in grado di offrire solo un singolo elaborazione host, senza il partizionamento con l'eliminazione di partizione dinamica, nessuna compressione, nessun negozio colonnare. Mentre Greenplum sarebbe in grado di macinare i dati in parallelo su cluster.

Quindi, la soluzione che state cercando è un tipico caso di data warehouse - soluzione OLTP uso per alta carichi di lavoro transazionali, estrarre i dati al DWH con ETL / ELT, e quindi eseguire dati complessi scricchiolio query su di esso

Al momento sia PostgreSQL e Greenplum sono prodotti open source, così si è liberi di scegliere qualsiasi di loro, ma di causa comunità di PostgreSQL è più grande Bancomat

Credo Greenplum tiene meglio vantaggio di elaborazione parallela. Si basa su PostgreSQL, però.

comunità Free Edition . È sempre possibile scaricare e provare nel proprio ambiente.

Se uno scricchiolio di dati richiede più di un'ora, si otterrà un aumento delle prestazioni lineari per ogni nucleo si aggiunge. Non è davvero vale la pena per tutto ciò che richiede meno tempo per sgranocchiare attraverso.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top