Ho bisogno di imparare Hadoop essere uno scienziato di dati?

https://datascience.stackexchange.com/questions/253

16-10-2019
|

Domanda

Un aspirante scienziato dati qui. Io non so nulla di Hadoop, ma come ho letto su Science Data e Big Data, vedo un gran parlare di Hadoop. E 'assolutamente necessario imparare Hadoop essere uno scienziato di dati?

Soluzione

Diverse persone utilizzano strumenti diversi per cose diverse. Termini come Science Data sono generiche per un motivo. Uno scienziato dati potrebbe trascorrere un'intera carriera senza dover imparare un particolare strumento come Hadoop. Hadoop è ampiamente utilizzato, ma non è l'unica piattaforma che è in grado di gestire e manipolare i dati, anche i dati su larga scala.

Direi che uno scienziato dati dovrebbe avere familiarità con concetti come MapReduce, sistemi distribuiti, i file system distribuiti, e simili, ma non vorrei giudicare qualcuno per non sapere di queste cose.

E 'un grande campo. C'è un mare di conoscenza e la maggior parte delle persone sono in grado di apprendere e di essere un esperto in una sola goccia. La chiave per essere uno scienziato sta avendo il desiderio di imparare e la motivazione per conoscere ciò che non si conosce già.

Per fare un esempio: ho potuto consegnare la persona giusta un centinaio di file CSV strutturati contenenti informazioni sulle prestazioni in aula in una classe particolare, più di un decennio. Uno scienziato di dati sarebbe in grado di trascorrere un anno spigolare intuizioni dai dati senza la necessità di diffusione di calcolo su più macchine. Si potrebbe applicare macchina algoritmi di apprendimento, analizzarlo utilizzando le visualizzazioni, combinano con i dati esterni per informare della regione, composizione etnica, cambiamenti dell'ambiente nel corso del tempo, l'informazione politica, condizioni meteorologiche, ecc Tutto questo sarebbe "la scienza dei dati", a mio parere . Si potrebbe prendere qualcosa come Hadoop per testare e applicare tutto ciò che hai imparato a dati che comprende un intero paese di studenti piuttosto che solo una classe, ma che passo finale non significa necessariamente fare a qualcuno uno scienziato di dati. E non prendere quel passo finale non è così qualcuno necessariamente disqualify dall'essere uno scienziato di dati.

Altri suggerimenti

Come un ex ingegnere Hadoop, non è necessario, ma aiuta. Hadoop è un solo sistema - il sistema più diffuso, basato su Java, e un ecosistema di prodotti, che applicano una particolare tecnica di "Map / Reduce" per ottenere risultati in modo tempestivo. Hadoop non è usato a Google, anche se vi assicuro che usano grandi analisi dei dati. Google utilizza i propri sistemi, sviluppato in C ++. In realtà, Hadoop è stato creato a seguito della pubblicazione su Google Map loro / Ridurre e BigTable (HBase in Hadoop) white paper.

scienziati

??I dati saranno interfacciarsi con gli ingegneri Hadoop, anche se in posti più piccoli è possibile che venga richiesto di indossare due cappelli. Se si è strettamente uno scienziato di dati, quindi qualunque cosa si usa per le vostre analisi, R, Excel, Tableau, ecc, opererà solo su un piccolo sottoinsieme, quindi dovrà essere convertito correre contro il set di dati completo che coinvolge Hadoop.

Devi fare in un primo momento è chiaro che cosa si intende per "imparare Hadoop". Se vuoi dire utilizzando Hadoop, come ad esempio imparare a programmare in MapReduce, allora molto probabilmente è una buona idea. Ma la conoscenza fondamentale (base di dati, apprendimento automatico, statistiche) può giocare un ruolo più importante col passare del tempo.

Sì, si dovrebbe imparare una piattaforma che è in grado di sezionare il problema come un problema di dati in parallelo. Hadoop è uno. Per i vostri bisogni semplici (design pattern come il conteggio, l'aggregazione, filtraggio ecc) è necessario Hadoop e per più complesso roba Machine Learning come fare un po 'di bayesiana, SVM è necessario Mahout che a sua volta ha bisogno di Hadoop (Ora Apache Spark) per risolvere il problema utilizzando un approccio basato sui dati in parallelo.

Quindi, Hadoop è una buona piattaforma per imparare e molto importante per le vostre esigenze di elaborazione batch. Non solo Hadoop, ma è anche bisogno di sapere Spark (Mahout lo gestisce di algoritmi che utilizzano Spark) e Twitter di tempesta (per il vostro tempo reale le esigenze di analisi). Questo elenco continuerà e si evolvono quindi se sei bravo con i blocchetti di costruzione (Distributed Computing, Data-Parallel problemi e così via) e sapere come una tale piattaforma (dire Hadoop) opera si ragionevolmente essere rapidamente fino a velocità su altri.

E 'dipende fortemente l'ambiente / società si sta lavorando con. Ai miei occhi c'è una campagna pubblicitaria "big data" al momento e un sacco di aziende cercano di entrare in campo con le soluzioni basate Hadoop - ciò che rende Hadoop anche una parola d'ordine, ma la sua non è sempre la soluzione migliore.

Nella mia mente, un buon scienziato dati dovrebbe essere in grado di porre le domande giuste e continuare a chiedere di nuovo fino a quando i suoi che cosa è chiara veramente bisogno. Che un buon DataScientist - ovviamente - ha bisogno di sapere come affrontare il problema (o almeno conoscere qualcuno che può). In caso contrario, il tuo parti interessate potrebbe essere frustrato :-)

Quindi, direi che la sua non è assolutamente necessario imparare Hadoop.

Si dovrebbe imparare Hadoop, se si vuole essere un lavoro come scienziato di dati, ma forse prima di iniziare con Hadoop si dovrebbe leggere qualcosa su di ETL o Big Data ... questo libro potrebbe essere un buon punto di partenza: http://www.amazon.com/Big-Data-Principles-practices-scalable/dp/1617290343

La speranza aiuta e buona fortuna!

È possibile applicare le tecniche della scienza dei dati ai dati su una macchina così la risposta alla domanda come l'OP si espresse, non è.

La scienza dei dati è un campo impegnativo una varietà di competenze. Avendo conoscenza di Hadoop è uno di loro. I compiti principali di uno scienziato dati includono:

Raccolta di dati provenienti da diverse risorse.
Pulizia e pre-elaborazione dei dati.
Studiare le proprietà statistiche dei dati.
Utilizzando tecniche di Machine Learning per fare previsioni e approfondimenti derivano da dati.
Comunicare i risultati ai decisori in un facile capire il senso.

fuori dalla zona punti sopra la conoscenza di Hadoop è utile per i punti 1,2 e 3, ma è anche necessario avere una forte background matematico / statistici e forte conoscenza delle tecniche computazionali per lavorare in campo della scienza dei dati. Inoltre Hadoop non è l'unico quadro che viene utilizzato in Science Data. ecosistema Big Data ha una gamma di strutture, ognuna specifica per un particolare caso d'uso. Questo articolo fornisce materiale introduttivo per quanto riguarda i principali quadri Big Data che potrebbe essere utilizzato in Science Data:

http://www.codophile.com/big -data-quadri-ogni-programmatore-dovrebbe-so /

Io credo che Pendente Hadoop quadro (modo più difficile) non è un requisito di essere uno scienziato di dati. Conoscenza generale su tutte le piattaforme di dati grandi è essenziale. Io suggerisco di conoscere il concetto su di essa e solo bisogno parte dal Hadoop MapReduce è il http: //hadoop.apache .org / docs / corrente / Hadoop MapReduce-client / Hadoop MapReduce-client-core / MapReduceTutorial.html

A Dati scienziato non costruisce cluster, amministrare ... è solo rendere "magica" con i dati e non si cura dove proviene. Il termine "Hadoop" è venuto a riferirsi non solo ai moduli di base di cui sopra, ma anche alla "ecosistema", o raccolta di pacchetti software aggiuntivi che possono essere installati sopra o accanto Hadoop, come Apache maiale, Apache Hive, hbase, Apache scintilla, e altri.

La maggior parte importante è la Programmazione lingua, la matematica e le statistiche per lavorare con dati (avrete bisogno di trovare un modo per connettersi con i dati e andare avanti). Vorrei avere qualcuno a punto me il concetto e non spendere settimane di apprendimento quadro e costruire da nodi scratch e cluster, perché quella parte è il ruolo di amministratore e non Ingegnere dati o dati Scientist. Anche una cosa: tutto sta cambiando e in continua evoluzione, ma la matematica, programing, le statistiche sono ancora i requisiti.

accesso ai dati dal HDFS è essenziale, per esempio PROC Hadoop, alveare, SparkContext o qualsiasi altro driver o tubo (trattare hadoop come punto di accesing dati o memorizzazione:)

già sono in atto strumenti o quadri ciò che si prendono cura di allocazione delle risorse e gestione, le prestazioni.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange