Ersetzen Amazon Redshift Hadoop für ~ 1XTB -Daten?

https://datascience.stackexchange.com/questions/305

16-10-2019
|

Frage

Es gibt viel Hype um Hadoop und sein Ökosystem. In der Praxis, wo sich viele Datensätze im Terabyte -Bereich befinden, ist es nicht vernünftiger zu verwenden Amazon Redshift Um große Datensätze abzufragen, anstatt Zeit und Mühe zu verbringen, einen Hadoop -Cluster aufzubauen?

Wie ist Amazon Redshift mit Hadoop in Bezug auf Komplexität, Kosten und Leistung mit Hadoop im Vergleich zu?

Lösung

tl; dr: Sie unterscheiden sich in vielen Aspekten deutlich und ich kann nicht glauben, dass Redshift Hadoop ersetzen wird.

-Funktion
Sie können nichts anderes als SQL auf Rotverschiebung ausführen. Am wichtigsten ist vielleicht, dass Sie keine Art von benutzerdefinierten Funktionen auf Rotverschiebung ausführen können. In Hadoop können Sie viele Sprachen verwenden (Java, Python, Ruby .. Sie nennen es). Zum Beispiel ist NLP in Hadoop einfach, während es in Rotverschiebung mehr oder weniger unmöglich ist. Dh es gibt viele Dinge, die Sie in Hadoop tun können, aber nicht auf Rotverschiebung. Dies ist wahrscheinlich der wichtigste Unterschied.

-Performance -Profil
Die Abfrageausführung bei Rotverschiebung ist in den meisten Fällen wesentlich effizienter als bei Hadoop. Diese Effizienz ergibt sich jedoch aus der Indexierung, die bei der Belastung der Daten in Rotverschiebung durchgeführt wird (ich verwende den Begriff indexing sehr locker hier). Daher ist es großartig, wenn Sie Ihre Daten einmal laden und mehrere Abfragen ausführen. Wenn Sie jedoch beispielsweise nur eine Abfrage ausführen möchten, können Sie möglicherweise insgesamt die Leistung verlieren.

-Kostprofil
Welche Lösung in den Kosten gewinnt, hängt von der Situation (wie der Leistung) ab, aber Sie benötigen wahrscheinlich eine Menge Abfragen, um sie billiger zu machen als Hadoop (genauer gesagt Amazon's Elastic Map reduzieren). Wenn Sie beispielsweise OLAP machen, ist es sehr wahrscheinlich, dass Rotverschiebung billiger herauskommt. Wenn Sie tägliche Batch -ETLs machen, ist Hadoop eher billiger heraus.

Trotzdem haben wir einen Teil unserer ETL ersetzt, der in Hive bis Rotverschiebung durchgeführt wurde, und es war eine ziemlich großartige Erfahrung. Meistens zur Leichtigkeit der Entwicklung. Die Abfrage -Engine von RedShift basiert auf PostgreSQL und ist im Vergleich zu Hive von sehr ausgereift. Seine Säureeigenschaften erleichtern es einfacher, darüber zu argumentieren, und die schnellere Reaktionszeit ermöglicht es mehr Tests. Es ist ein großartiges Werkzeug, aber es wird Hadoop nicht ersetzen.

BEARBEITEN: Was die Komplexität des Setups angeht, würde ich sogar sagen, dass es bei Hadoop einfacher ist, wenn Sie AWSs EMR verwenden. Ihre Werkzeuge sind so reif, dass es lächerlich einfach ist, Ihren Hadoop -Job laufen zu lassen. Werkzeuge und Mechanismen, die den Betrieb von Redshift umgehen, sind noch nicht so ausgereift. Zum Beispiel kann RedShift nicht mit dem Trickle -Laden handhaben, und Sie müssen daher etwas entwickeln, das dies in eine Charge -Last verwandelt, was Ihrer ETL eine gewisse Komplexität verleihen kann.

Andere Tipps

Die aktuelle Größengrenze für Amazon Redshift beträgt 128 Knoten oder 2 PBS komprimierte Daten. Könnte um ca. 6pb unkomprimiert sein, obwohl die Kilometerleistung für die Komprimierung variiert. Sie können uns immer wissen lassen, ob Sie mehr brauchen. Anurag@aws (ich leite Amazon Redshift und Amazon EMR)

Persönlich denke ich nicht, dass es so schwierig ist, einen Hadoop -Cluster einzurichten, aber ich weiß, dass es manchmal schmerzhaft ist, wenn Sie anfangen.

HDFS -Größenbeschränkungen überschreiten einen TB (oder meinten Sie Exabyte?). Wenn ich es nicht irre, skaliert ich Yottabyte oder eine andere Messung, für die ich das Wort nicht einmal kenne. Was auch immer es ist, es ist wirklich groß.

Werkzeuge wie RedShift haben ihren Platz, aber ich mache mir immer Sorgen um die von Lieferanten spezifischen Lösungen. Mein Hauptanliegen ist immer "Was mache ich, wenn ich mit ihrem Dienst unzufrieden bin?" - Ich kann zu Google gehen und meine Analysearbeiten in ihr Paradigma oder in ihr Paradigma verlagern und zu Hadoop gehen und dieselbe Arbeit in dieses System verschieben. In jedem Fall muss ich etwas Neues lernen und viel Arbeit machen, um Dinge zu übersetzen.

Davon abgesehen ist es schön, einen Datensatz hochzuladen und schnell zur Arbeit zu gehen - besonders wenn das, was ich mache, einen kurzen Lebenszyklus hat. Amazon hat gute Arbeit geleistet, um das Problem der Datensicherheit zu beantworten.

Wenn Sie Hadoop vermeiden möchten, wird es immer eine Alternative geben. Aber es ist nicht so schwierig, mit dem zu arbeiten, wenn Sie damit begonnen haben.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit datascience.stackexchange