Est-ce que Amazon RedShift remplacer Hadoop pour les données ~ 1XTB?

https://datascience.stackexchange.com/questions/305

16-10-2019
|

Question

Il y a beaucoup de battage médiatique entourant Hadoop et son éco-système. Cependant, dans la pratique, où de nombreux ensembles de données sont dans la plage de téraoctets, est-il pas plus raisonnable d'utiliser Amazon RedShift pour effectuer des requêtes grand ensembles de données, plutôt que de passer du temps et de l'effort création d'un cluster Hadoop?

En outre, comment Amazon Redshift comparer avec Hadoop par rapport à la complexité de la configuration, le coût et la performance?

La solution

tl; dr: Ils diffèrent nettement dans de nombreux aspects et je ne peux pas penser Redshift remplacera Hadoop.

-Function
Vous ne pouvez pas exécuter quoi que ce soit autre que SQL sur Redshift. Peut-être plus important encore, vous ne pouvez pas exécuter tout type de fonctions personnalisées sur Redshift. Dans Hadoop, vous pouvez, en utilisant de nombreuses langues (Java, Python, Ruby .. vous le nom). Par exemple, la PNL dans Hadoop est facile, alors qu'il est plus ou moins impossible Redshift. C'est à dire. il y a beaucoup de choses que vous pouvez faire dans Hadoop, mais pas sur Redshift. Ceci est probablement la plus grande différence.

Profil -Performance
Exécution de la requête sur Redshift est dans la plupart des cas beaucoup plus efficace que sur Hadoop. Cependant, cette efficacité provient de l'indexation qui se fait lorsque les données sont chargées dans Redshift (j'utilise le terme indexing très lâche ici). Par conséquent, il est génial si vous chargez vos données une fois et d'exécuter plusieurs requêtes, mais si vous voulez exécuter une seule requête par exemple, vous pourriez effectivement perdre dans la performance globale.

Profil -Cost
Quelle solution gagne en coût dépend de la situation (comme la performance), mais vous avez probablement tout à fait un grand nombre de requêtes afin de le rendre moins cher que Hadoop (plus spécifiquement Carte Amazon Elastic moins). Par exemple, si vous faites OLAP, il est très probable que Redshift est moins cher. Si vous faites tous les jours de traitement par lots ETL, Hadoop est plus susceptible de sortir moins cher.

Cela dit, nous avons remplacé une partie de notre ETL qui a été fait dans la Ruche à Redshift, et ce fut une expérience assez grande; surtout pour la facilité de développement. Query Engine redshift est basé sur PostgreSQL et est arrivé à maturité très, par rapport à la Ruche de. Ses caractéristiques ACID il est plus facile de raisonner à ce sujet, et le temps de réponse plus rapide permet plus de tests à faire. Il est un excellent outil pour avoir, mais il ne remplacera pas Hadoop.

EDIT : En ce qui concerne la complexité de la configuration, je dirais même qu'il est plus facile avec Hadoop si vous utilisez le DME AWS. Leurs outils sont arrivés à maturité pour qu'il est ridiculement facile d'avoir votre course d'emploi Hadoop. Les outils et les mécanismes entourant le fonctionnement de Redshift sont pas encore arrivé à maturité. Par exemple, Redshift ne peut pas gérer le chargement d'entretien et donc vous devez venir avec quelque chose qui tourne que dans une charge batched, ce qui peut ajouter une certaine complexité à votre ETL.

Autres conseils

limite de taille actuelle pour Amazon Redshift est de 128 noeuds ou 2 de données compressées BPs. Peut-être vers 6PB ??non compressé si un certain kilométrage varie pour la compression. Vous pouvez toujours nous faire savoir si vous avez besoin de plus. Anurag @ aws (je lance Amazon Redshift et Amazon EMR)

Personnellement, je ne pense pas qu'il est si difficile de mettre en place un cluster Hadoop, mais je sais qu'il est parfois douloureux quand vous débutez.

limitations de taille HDFS et dépasser une TB (ou avez-vous Exabyte moyen?). Si je ne me trompe pas, il adapte à yottaoctets ou une autre mesure que je ne sais même pas le mot. Quoi qu'il en soit, il est vraiment grand.

Des outils tels que Redshift ont leur place, mais je me inquiète toujours de solutions spécifiques des fournisseurs. Ma principale préoccupation est toujours « qu'est-ce que je fais quand je ne suis pas satisfait de leur service? » - Je peux aller sur Google et passer mon travail d'analyse dans leur paradigme ou je peux aller à Hadoop et ce même changement de travail dans ce système. De toute façon, je vais devoir apprendre quelque chose de nouveau et faire beaucoup de choses traduction de travail.

Cela étant dit, il est agréable d'être en mesure de télécharger un ensemble de données et se rendre au travail rapidement - surtout si ce que je fais a un court cycle de vie. Amazon a fait un bon travail de répondre au problème de la sécurité des données.

Si vous voulez éviter Hadoop, il y aura toujours une solution de rechange. Mais ce n'est pas si difficile de travailler avec une fois que vous y aller avec elle.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange