Fa Amazon RedShift sostituire Hadoop per i dati ~ 1XTB?

https://datascience.stackexchange.com/questions/305

16-10-2019
|

Domanda

C'è un sacco di hype che circonda Hadoop e il suo ecosistema. Tuttavia, in pratica, dove molti insiemi di dati sono nella gamma terabyte, non è forse più ragionevole utilizzare Amazon RedShift per l'interrogazione di grandi dimensioni insiemi di dati, piuttosto che spendere tempo e fatica la costruzione di un cluster Hadoop?

Inoltre, come fa Amazon Redshift confrontare con Hadoop per quanto riguarda l'installazione complessità, i costi e le prestazioni?

Soluzione

tl; dr: Si differenziano notevolmente in molti aspetti e non riesco a pensare Redshift sostituirà Hadoop.

-Function
Non è possibile eseguire qualcosa di diverso da SQL su Redshift. Forse ancora più importante, non è possibile eseguire qualsiasi tipo di funzioni personalizzate sulla Redshift. In Hadoop è possibile, utilizzando molti linguaggi (Java, Python, Ruby .. è il nome). Ad esempio, la PNL in Hadoop è facile, mentre è più o meno impossibile a Redshift. Cioè ci sono un sacco di cose che si possono fare in Hadoop, ma non sul Redshift. Questa è probabilmente la più importante differenza.

-Performance Profile @ Query esecuzione su Redshift è nella maggior parte dei casi molto più efficiente rispetto a Hadoop. Tuttavia, questa efficienza viene dal indicizzazione che viene fatto quando i dati vengono caricati in Redshift (sto usando il termine indexing molto sciolto qui). Pertanto, è grande se si caricano i dati una volta ed eseguire più query, ma se si desidera eseguire solo una query per esempio, si potrebbe effettivamente perdere in prestazioni complessive.

-Costo Profile @ Quale soluzione vince nel costo dipende dalla situazione (come le prestazioni), ma probabilmente bisogno di un bel po 'di domande al fine di renderlo più economico rispetto Hadoop (Mappa Elastic più specificamente di Amazon Ridurre). Ad esempio, se si sta facendo OLAP, è molto probabile che Redshift esce più conveniente. Se lo fai ETL in batch quotidiani, Hadoop è più probabile che venga fuori più conveniente.

Detto questo, abbiamo sostituito parte della nostra ETL che è stato fatto in Hive per Redshift, ed è stata una bella grande esperienza; soprattutto per la facilità di sviluppo. Motore di query di spostamento verso il rosso è basata su PostgreSQL ed è molto maturo, rispetto a Hive di. Le sue caratteristiche ACID rendere più facile ragionare su di esso, e il tempo di risposta più rapido permette più test da fare. E 'un ottimo strumento per avere, ma non sostituirà Hadoop.

Modifica : Come per la configurazione della complessità, mi piacerebbe anche dire che è più facile con Hadoop se si utilizzano EMR di AWS. I loro strumenti sono così maturo che è ridicolmente facile avere il vostro Hadoop lavoro in esecuzione. Strumenti e meccanismi che circondano il funzionamento di Redshift non che maturano ancora sono. Ad esempio, Redshift non può gestire rivolo di carico e quindi si deve trovare qualcosa che si trasforma in un carico che in batch, che può aggiungere una certa complessità al vostro ETL.

Altri suggerimenti

dimensione limite di corrente per Amazon Redshift è 128 nodi o 2 PB di dati compressi. Potrebbe essere circa 6PB decompresso se chilometraggio varia per compressione. Si può sempre farci sapere se avete bisogno di più. Anurag @ AWS (Amazon corro Redshift e Amazon EMR)

Personalmente, non credo che sia così difficile da configurare un cluster Hadoop, ma so che a volte è doloroso quando si è di iniziare.

limiti di dimensione HDFS e supera un TB (o ha fatto exabyte media?). Se non sbaglio è di scalare fino a yottabytes o qualche altra misura che io non so nemmeno la parola per. Qualunque cosa sia, è davvero grande.

Strumenti come Redshift hanno il loro posto, ma ho sempre preoccuparsi di soluzioni specifiche del fornitore. La mia preoccupazione principale è sempre "Che cosa faccio quando non sono soddisfatto con il loro servizio?" - Posso andare su Google e spostare il mio lavoro di analisi nel loro paradigma o posso andare a Hadoop e cambiamento che stesso lavoro in quel sistema. Ad ogni modo, ho intenzione di imparare qualcosa di nuovo e fare un sacco di lavoro traducendo le cose.

Detto questo, è bello essere in grado di caricare un set di dati e mettersi al lavoro in fretta - soprattutto se quello che sto facendo ha un ciclo di vita breve. Amazon ha fatto un buon lavoro di rispondere al problema della sicurezza dei dati.

Se si vuole evitare di Hadoop, ci sarà sempre un'alternativa. Ma non è tutto così difficile lavorare con una volta che andare avanti con esso.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange