Muss ich Hadoop als Datenwissenschaftler lernen?

https://datascience.stackexchange.com/questions/253

16-10-2019
|

Frage

Ein aufstrebender Datenwissenschaftler hier. Ich weiß nichts über Hadoop, aber da ich über Data Science und Big Data gelesen habe, sehe ich viel über Hadoop. Ist es absolut notwendig, Hadoop als Datenwissenschaftler zu lernen?

Lösung

Unterschiedliche Menschen verwenden unterschiedliche Tools für verschiedene Dinge. Begriffe wie Data Science sind aus einem bestimmten Grund generisch. Ein Datenwissenschaftler könnte eine ganze Karriere verbringen, ohne ein bestimmtes Tool wie Hadoop lernen zu müssen. Hadoop ist weit verbreitet, aber es ist nicht die einzige Plattform, die Daten verwalten und manipulieren kann, selbst große Daten.

Ich würde sagen, dass ein Datenwissenschaftler mit Konzepten wie MapReduce, verteilten Systemen, verteilten Dateisystemen und dergleichen vertraut sein sollte, aber ich würde niemanden dafür beurteilen, dass sie über solche Dinge nicht wissen.

Es ist ein großes Feld. Es gibt ein Meeres Meer und die meisten Menschen sind in der Lage zu lernen und ein Experte in einem einzigen Tropfen zu sein. Der Schlüssel, um ein Wissenschaftler zu sein, ist der Wunsch zu lernen und die Motivation zu wissen, was Sie noch nicht kennen.

Als Beispiel: Ich konnte die richtige Person hundert strukturierte CSV -Dateien mit Informationen über die Leistung im Klassenzimmer in einer bestimmten Klasse über ein Jahrzehnt übergeben. Ein Datenwissenschaftler könnte ein Jahr lang Einblicke aus den Daten verbringen, ohne jemals Berechnung über mehrere Maschinen zu verbreiten. Sie können Algorithmen für maschinelles Lernen anwenden, es mit Visualisierungen analysieren und mit externen Daten über die Region, ethnisches Make -up, Änderungen in der Umwelt im Laufe der Zeit, politische Informationen, Wettermuster usw. kombinieren. All dies wäre meiner Meinung nach "Datenwissenschaft" . Es könnte so etwas wie Hadoop dauern, um alles zu testen und anzuwenden, was Sie auf Daten gelernt haben, aus denen ein ganzes Land von Studenten und nicht nur ein Klassenzimmer besteht, aber dieser letzte Schritt macht jemanden nicht unbedingt zu einem Datenwissenschaftler. Und diesen letzten Schritt nicht zu tun, disqualifizieren Sie nicht unbedingt jemanden, Datenwissenschaftler zu sein.

Andere Tipps

Als ehemaliger Hadoop -Ingenieur wird es nicht benötigt, aber es hilft. Hadoop ist nur ein System - das häufigste System, das auf Java basiert, und ein Ökosystem von Produkten, die eine bestimmte Technik "Karte/Reduzierung" anwenden, um rechtzeitige Ergebnisse zu erzielen. Hadoop wird bei Google nicht verwendet, obwohl ich Ihnen versichere, dass sie Big Data Analytics verwenden. Google verwendet seine eigenen Systeme, die in C ++ entwickelt wurden. Tatsächlich wurde Hadoop als Ergebnis von Google erstellt, in dem Google ihre Karte/Reduzierung und Bigtable (HBase in Hadoop) White Papers veröffentlicht hat.

Datenwissenschaftler werden sich mit Hadoop -Ingenieuren verbinden, obwohl Sie an kleineren Stellen möglicherweise beide Hüte tragen müssen. Wenn Sie ausschließlich Datenwissenschaftler sind, wird alles, was Sie für Ihre Analytics, R, Excel, Tableau usw. verwenden, nur in einer kleinen Teilmenge betrieben, und muss dann konvertiert werden, um gegen den vollständigen Datensatz mit Hadoop zu laufen.

Sie müssen zuerst klar machen, was Sie mit "Lernen Sie Hadoop" meinen. Wenn Sie meine Verwendung von Hadoop, wie zum Beispiel das Programmieren in MapReduce, dann ist es höchstwahrscheinlich eine gute Idee. Aber grundlegendes Wissen (Datenbank, maschinelles Lernen, Statistiken) kann im Laufe der Zeit eine größere Rolle spielen.

Ja, Sie sollten eine Plattform lernen, die in der Lage ist, Ihr Problem als Daten parallel zu analysieren. Hadoop ist einer. Für Ihre einfachen Bedürfnisse (Entwurfsmuster wie Zählen, Aggregation, Filterung usw.) Sie benötigen Hadoop und für komplexere Sachen für maschinelles Lernen wie Bayesian, SVM Sie benötigen Mahout, das wiederum Hadoop (jetzt Apache Spark) benötigt, um Ihr Problem zu lösen Ein datenparalleler Ansatz.

Hadoop ist also eine gute Plattform zum Lernen und für Ihre Batch -Verarbeitungsbedürfnisse sehr wichtig. Nicht nur Hadoop, sondern Sie müssen auch Spark (Mahout läuft mit seinen Algorithmen mit Spark) und Twitter Storm (für Ihre Echtzeitanalyseanforderungen) kennen. Diese Liste wird fortgesetzt und sich weiterentwickeln. Wenn Sie also gut mit den Bausteinen (verteiltes Computing, datenparallelen Problemen usw.) eingehen und wissen, wie eine solche Plattform (sagen wir Hadoop), die Sie mit anderen auf dem neuesten Stand sind.

Es hängt stark von der Umwelt/dem Unternehmen ab, mit dem Sie zusammenarbeiten. In meinen Augen gibt es momentan einen "Big Data" -Hype und viele Unternehmen versuchen, mit Hadoop -basierten Lösungen in das Feld zu gelangen - was Hadoop auch zu einem Schlagwort macht, aber es ist nicht immer die beste Lösung.

In meinen Augen sollte ein guter Datenwissenschaftler in der Lage sein, die richtigen Fragen zu stellen und noch einmal zu fragen, bis es klar ist, was wirklich benötigt wird. Als ein guter DataScientist muss natürlich wissen, wie man das Problem angeht (oder zumindest jemanden kennen, der kann). Ansonsten könnte Ihr Stakeholder frustriert sein :-)

Ich würde also sagen, dass es nicht unbedingt notwendig ist, Hadoop zu lernen.

Sie sollten Hadoop lernen, wenn Sie als Datenwissenschaftler arbeiten möchten, aber vielleicht, bevor Sie mit Hadoop beginnen, sollten Sie etwas über ETL oder Big Data lesen ... dieses Buch könnte ein guter Ausgangspunkt sein: http://www.amazon.com/big-data-principles-practices-scalable/dp/1617290343

Hoffe es hilft und viel Glück!

Sie können Datenwissenschaftstechniken auf Daten auf einer Maschine anwenden, sodass die Antwort auf die Frage, wie das OP -formulierte, nein.

Data Science ist ein Feld, das eine Vielzahl von Fähigkeiten verlangt. Kenntnis von Hadoop ist einer von ihnen. Zu den Hauptaufgaben eines Datenwissenschaftlers gehören:

Sammeln von Daten aus verschiedenen Ressourcen.
Reinigung und Vorverarbeitung der Daten.
Untersuchung statistischer Eigenschaften der Daten.
Verwenden von Techniken für maschinelles Lernen zur Prognose und Abgabe von Erkenntnissen aus den Daten.
Vermittlung der Ergebnisse an Entscheidungsträger in einer leicht verständlichen Weise.

Aus den oben genannten Punkten ist das Wissen über Hadoop für Punkte 1,2 und 3 nützlich, aber Sie müssen auch einen starken mathematischen/statistischen Hintergrund und starke Kenntnisse über Rechentechniken haben, um im Bereich Data Science zu arbeiten. Auch Hadoop ist nicht das einzige Rahmen, das in der Datenwissenschaft verwendet wird. Das Big Data -Ökosystem verfügt über eine Reihe von Frameworks, die jeweils für einen bestimmten Anwendungsfall spezifisch sind. Dieser Artikel enthält einleitende Material in Bezug auf wichtige Big -Data -Frameworks, die in der Data Science verwendet werden könnten:

http://www.codophile.com/big-data-frameworks-ety-programmer-should-know/

Ich denke, Leaning Hadoop -Framework (harter Weg) ist keine Anforderung, Datenwissenschaftler zu sein. Allgemeines Wissen auf allen Big Data -Plattformen ist unerlässlich. Ich werde empfehlen, das Konzept darüber zu kennen und nur einen Teil von Hadoop zu bedürfen, ist der MapReducehttp://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapreducetororial.html

Ein Datenwissenschaftler erstellt kein Cluster, verwaltet ... macht nur "Magie" mit Daten und es ist egal, woher kommt. Der Begriff "Hadoop" bezieht sich nicht nur auf die oben genannten Basismodule, sondern auch auf das "Ökosystem" oder die Sammlung zusätzlicher Softwarepakete, die über oder neben Hadoop wie Apache Pig, Apache Hive, installiert werden können. Apache Hbase, Apache Spark und andere.

Am wichtigsten ist, dass die Programmiersprache, Mathematik und Statistiken für die Arbeit mit Daten (Sie müssen einen Weg finden, um sich mit Daten zu verbinden und voranzukommen). Ich wünschte, ich hätte jemanden, der mich auf das Konzept verweist und keine Wochen mit dem Lernrahmen verbringen und von Kratzknoten und Clustern bauen würde, da dieser Teil die Administratorrolle und nicht der Dateningenieur oder Datenwissenschaftler ist. Auch eine Sache: Alle verändern und entwickeln sich, aber mathematisch, programmiert, Statistiken sind immer noch die Anforderungen.

Der Zugriff auf Daten von HDFS ist unerlässlich, beispielsweise Proc Hadoop, Hive, SparkContext oder einen anderen Treiber oder eine andere Pipe (Behandle Hadoop als Punkt bei Accesing -Daten oder Speicher :)

Es gibt bereits Tools oder Frameworks, die sich um Ressourcenzuweisung und -verwaltung und Leistung kümmern.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit datascience.stackexchange