Ai-je besoin d'apprendre Hadoop être un scientifique de données?

https://datascience.stackexchange.com/questions/253

16-10-2019
|

Question

Un aspirant scientifique de données ici. Je ne sais rien au sujet de Hadoop, mais comme je l'ai lu à propos de Data Science et Big Data, je vois beaucoup de parler de Hadoop. Est-il absolument nécessaire d'apprendre Hadoop être un scientifique de données?

La solution

Différentes personnes utilisent des outils pour des choses différentes. Des termes tels que Data Science sont génériques pour une raison. Un scientifique de données pourrait passer toute une carrière sans avoir à apprendre un outil particulier comme Hadoop. Hadoop est largement utilisé, mais il est pas la seule plate-forme qui est capable de gérer et de manipuler des données, même grandes quantités de données à grande échelle.

Je dirais qu'un scientifique de données doit se familiariser avec des concepts tels que MapReduce, systèmes distribués, des systèmes de fichiers distribués, etc., mais je ne juge pas quelqu'un pour ne pas connaître ces informations.

Il est un grand champ. Il y a une mer de connaissances et la plupart des gens sont capables d'apprendre et d'être un expert dans une seule goutte. La clé pour être un scientifique est d'avoir le désir d'apprendre et la motivation de savoir ce que vous ne connaissez pas déjà.

Par exemple: Je pourrais remettre la personne à droite une centaine de fichiers CSV structurés contenant des informations sur les performances en classe dans une classe particulière au cours d'une décennie. Un scientifique de données serait en mesure de passer une année glanant un aperçu des données sans jamais avoir besoin de calcul réparti sur plusieurs machines. Vous pouvez appliquer des algorithmes d'apprentissage machine analyser à l'aide visualisations, combiner avec des données externes sur la région, la composition ethnique, les changements à l'environnement au fil du temps, l'information politique, les conditions météorologiques, etc. Tout cela serait « la science des données » à mon avis . Il pourrait prendre quelque chose comme Hadoop pour tester et appliquer tout ce que vous avez appris à des données comprenant un ensemble du pays des étudiants plutôt que d'une salle de classe, mais cette dernière étape ne fait pas nécessairement quelqu'un un scientifique de données. Et ne pas prendre cette dernière étape ne disqualifie pas quelqu'un nécessairement d'être un scientifique de données.

Autres conseils

En tant qu'ancien ingénieur Hadoop, il est pas nécessaire mais ça aide. Hadoop est un seul système - le système le plus commun, basé sur Java, et un écosystème de produits, qui appliquent une technique particulière « Map / Reduce » pour obtenir des résultats en temps opportun. Hadoop est pas utilisé à Google, mais je vous assure qu'ils utilisent de grandes analyses de données. Google utilise leurs propres systèmes, développés en C ++. En fait, Hadoop a été créé à la suite de la publication de leur Google Map / Reduce et BigTable (HBase dans Hadoop) Les livres blancs.

scientifiques données seront en interface avec les ingénieurs de Hadoop, mais à petits endroits que vous pourriez être tenu de porter les deux chapeaux. Si vous êtes strictement scientifique de données, alors que vous utilisez pour votre analyse, R, Excel, Tableau, etc, ne fonctionne que sur un petit sous-ensemble, puis devront être convertis pour fonctionner contre l'ensemble des données impliquant Hadoop.

Vous devez d'abord faire clairement ce que vous entendez par « apprendre Hadoop ». Si vous voulez dire en utilisant Hadoop, comme apprendre à programmer en MapReduce, alors plus il est probablement une bonne idée. Mais les connaissances fondamentales (base de données, l'apprentissage machine, les statistiques) peut jouer un rôle plus important que le temps passe.

Oui, vous devriez apprendre une plate-forme qui est capable de disséquer votre problème comme un problème parallèle de données. Hadoop est un. Pour vos besoins simples (modèles de conception telles que le comptage, l'agrégation, le filtrage, etc.) dont vous avez besoin Hadoop et plus complexes des choses Machine Learning comme faisant quelques bayésienne, SVM dont vous avez besoin Mahout qui a besoin tour Hadoop (Spark maintenant Apache) pour résoudre votre problème en utilisant une approche parallèle des données.

Hadoop est une bonne plate-forme pour apprendre et vraiment important pour vos besoins de traitement par lots. Non seulement Hadoop mais vous avez aussi besoin de savoir Spark (Mahout exécute des algorithmes de utilisant Spark) et Twitter tempête (pour votre analyse en temps réel des besoins). Cette liste continuera et évoluer si vous êtes bien avec les blocs de construction (Distributed Computing, problèmes de données-parallèle et ainsi de suite) et savoir comment une telle plate-forme (dire Hadoop) vous fonctionne sera assez être rapidement jusqu'à la vitesse sur les autres.

Il dépend fortement de l'environnement / entreprise que vous travaillez. A mes yeux, il y a un « big data » battage médiatique au moment et beaucoup d'entreprises tentent d'entrer dans le domaine des solutions à base de Hadoop - ce qui fait Hadoop aussi un mot à la mode, mais ce ne est pas toujours la meilleure solution.

Dans mon esprit, une bonne données scientifique devrait être en mesure de poser les bonnes questions et continuer à demander à nouveau jusqu'à ce que son clair ce qui est vraiment nécessaire. Qu'un bon DataScientist - bien sûr - a besoin de savoir comment résoudre le problème (ou au moins savoir quelqu'un qui peut). Sinon, votre partie prenante pourrait être frustré :-)

Alors, je dirais que ce ne est pas absolument nécessaire d'apprendre Hadoop.

Vous devriez apprendre Hadoop si vous voulez être le travail en tant que scientifique des données, mais peut-être avant de commencer Hadoop vous devriez lire quelque chose ou ETL Big Data ... ce livre pourrait être un bon point de départ: http://www.amazon.com/Big-Data-Principles-practices-scalable/dp/1617290343

it helps et bonne chance!

Vous pouvez appliquer des techniques scientifiques de données aux données sur une machine si la réponse à la question de l'OP formulée, est pas.

Data Science est un domaine exigeant une variété de compétences. Avoir connaissance de Hadoop est l'un d'entre eux. Les principales tâches d'un scientifique de données comprennent:

Collecte de données de différentes ressources.
Nettoyage et pré-traitement des données.
L'étude des propriétés statistiques des données.
En utilisant des techniques d'apprentissage machine à faire des prévisions et des idées découlent de données.
La communication des résultats aux décideurs dans une manière facile à comprendre.

Sur les connaissances des points ci-dessus de Hadoop est utile pour les points 1,2 et 3, mais vous avez aussi besoin d'avoir une forte culture mathématique / statistique et de solides connaissances des techniques informatiques pour le travail dans le domaine de la science des données. Aussi Hadoop est pas le seul cadre qui est utilisé dans la science des données. écosystème Big Data dispose d'une gamme de cadres, chacun spécifique à un cas d'utilisation particulière. Cet article donne matériel d'introduction concernant les principaux cadres Big Data qui pourrait être utilisé dans la science des données:

http://www.codophile.com/big -Data-cadres-tout-programmeur doit-savoir /

Je pense cadre Penchée Hadoop (la dure) n'est pas une exigence d'être un scientifique de données. connaissances générales sur toutes les grandes plates-formes de données est essentiel. Je suggère de savoir notion sur elle et que le besoin d'une partie de Hadoop est le MapReduce http: //hadoop.apache .org / documents / courant / hadoop-MapReduce-client / hadoop-MapReduce-client-core / MapReduceTutorial.html

Un scientifique de données ne construit pas cluster, ... est Administrez juste faire « magique » avec des données et ne se soucie pas d'où vient. Le terme « Hadoop » est venu de se référer non seulement aux modules de base ci-dessus, mais aussi à l ' « écosystème », ou d'une collection de logiciels supplémentaires qui peuvent être installés sur ou à côté Hadoop, comme Apache Pig, Apache Hive, hbase, Spark Apache, et d'autres.

Le plus important est la langue Programing, les mathématiques et les statistiques pour travailler avec des données (vous aurez besoin de trouver un moyen de se connecter avec des données et aller de l'avant). Je voudrais avoir quelqu'un pour me pointer vers le concept et ne pas passer des semaines sur le cadre d'apprentissage et de construire à partir des nœuds de grattage et de clusters, parce que cette partie est le rôle de l'administrateur et non ingénieur de données ou scientifique des données. Aussi une chose: tous sont en train de changer et d'évoluer, mais les mathématiques, la programmation, les statistiques sont encore les exigences.

accéder à des données à partir de hdfs est essentiel, par exemple PROC Hadoop, ruche, SparkContext ou tout autre conducteur ou tuyau (traitement hadoop comme un point de données ou de stockage accesing:)

sont déjà en place des outils ou des cadres qui prennent en charge l'allocation des ressources et de la gestion, de la performance.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange