Qué necesito para aprender Hadoop ser un científico de datos?

https://datascience.stackexchange.com/questions/253

16-10-2019
|

Pregunta

Un aspirante a científico de datos aquí. No sé nada sobre Hadoop, pero como he estado leyendo sobre la ciencia de datos y Big Data, veo un montón de hablar de Hadoop. ¿Es absolutamente necesario aprender Hadoop ser un científico de datos?

Solución

Diferentes personas usan diferentes herramientas para diferentes cosas. Términos como Ciencia de datos son de carácter genérico por una razón. Un científico de datos podría pasar toda una carrera sin tener que aprender un instrumento en particular, como Hadoop. Hadoop es ampliamente utilizado, pero no es la única plataforma que es capaz de gestionar y manipular datos, incluso datos de gran escala.

Yo diría que un científico de datos debe estar familiarizado con conceptos como MapReduce, sistemas distribuidos, sistemas de archivos distribuidos, y similares, pero no me gustaría juzgar a alguien por no saber de esas cosas.

Es un campo grande. Hay un mar de conocimientos y la mayoría de las personas son capaces de aprender y de ser un experto en una sola gota. La clave para ser un científico es tener el deseo de aprender y la motivación para saber que los que no lo sabe ya.

A modo de ejemplo: podría entregar a la persona adecuada de un centenar de archivos CSV estructurados que contienen información sobre el rendimiento en clase en una clase en particular más de una década. Un científico de datos sería capaz de pasar un año espigando puntos de vista de los datos sin necesitar a la computación difusión a través de múltiples máquinas. Se podría aplicar algoritmos de aprendizaje de máquina, analizarla mediante visualizaciones, lo combina con los datos externos para la región, composición étnica, los cambios en el medio ambiente a través del tiempo, información política, los patrones climáticos, etc. Todo eso sería "la ciencia de datos" en mi opinión . Puede ser que tome algo así como hadoop a probar y aplicar todo lo aprendido a los datos que comprende un país entero de los estudiantes en lugar de sólo una clase, pero ese paso final no significa necesariamente que alguien un científico de datos. Y no tomar ese paso final no lo hace alguien impedirá necesariamente de ser un científico de datos.

Otros consejos

Como antiguo ingeniero de Hadoop, no es necesario pero ayuda. Hadoop es un solo sistema - el sistema más común, basado en Java, y un ecosistema de productos, que se aplican una técnica particular "Mapa / Reducir" para obtener resultados de manera oportuna. Hadoop no se utiliza en Google, aunque te aseguro que utilizan análisis de grandes volúmenes de datos. Google utiliza sus propios sistemas, desarrollado en C ++. De hecho, Hadoop fue creado como resultado de la publicación de su Google map / reduce y BigTable (HBase en Hadoop) libros blancos.

científicos

Los datos se conectarán con los ingenieros de Hadoop, aunque en lugares más pequeños es posible que tenga que usar las dos sombreros. Si usted es estrictamente un científico de datos, entonces todo lo que utiliza para sus análisis, R, Excel, cuadro, etc, operará sólo en un pequeño subconjunto, entonces tendrá que ser convertido a correr contra el conjunto de datos que implica hadoop.

Hay que hacer primero es claro qué entiende usted por "aprender Hadoop". Si se refiere a el uso de Hadoop, como aprender a programar en MapReduce, lo más probable es que es una idea buena. Pero los conocimientos fundamentales (base de datos, aprendizaje automático, estadísticas) puede jugar un papel más importante a medida que pasa el tiempo.

Sí, usted debe aprender una plataforma que es capaz de diseccionar el problema como un problema de datos en paralelo. Hadoop es uno. Para sus necesidades simples (patrones de diseño como contar, agregación, filtrado, etc.) que necesita para Hadoop y más compleja cosas Machine Learning como hacer algunos bayesiano, SVM necesita Mahout que a su vez necesita Hadoop (Ahora Apache Spark) para resolver su problema usando un enfoque basado en datos en paralelo.

Así Hadoop es una plataforma buena para aprender y realmente importante para sus necesidades de procesamiento por lotes. No sólo Hadoop pero también necesitan saber Spark (mahout lo ejecuta de algoritmos que utilizan Spark) y Twitter Storm (para su análisis en tiempo real las necesidades). Esta lista va a continuar y evolucionar así que si usted es bueno con los bloques de construcción (Distributed Computing, Problemas de datos en paralelo, etc.) y saber cómo una tal plataforma (decir Hadoop) opera va bastante rápidamente se marcha a la velocidad de los demás.

Depende en gran medida del entorno / empresa que está trabajando. En mis ojos hay un bombo "grandes datos" en este momento y muchas empresas tratan de entrar en el campo con soluciones basadas en Hadoop - lo que hace que hadoop también una palabra de moda, pero no es siempre la mejor solución.

En mi mente, un buen científico de datos debe ser capaz de hacer las preguntas correctas y seguir pidiendo otra vez hasta su cuál está claro realmente necesarios. Que un buen DataScientist - por supuesto - tiene que saber cómo abordar el problema (o al menos conoce a alguien que pueda). De lo contrario su partes interesadas podría verse frustrado :-)

Por lo tanto, yo diría que no es absolutamente necesario para aprender Hadoop.

Usted debe aprender Hadoop si quieres ser un trabajo como científico de datos, pero tal vez antes de comenzar con Hadoop debe leer algo acerca de ETL o Big Data ... este libro podría ser un buen punto de partida: http://www.amazon.com/Big-Data-Principles-practices-scalable/dp/1617290343

Espero que ayuda y buena suerte!

Se puede aplicar técnicas de las ciencias de datos a los datos en una máquina así que la respuesta a la pregunta del PO lo expresó, no lo es.

Ciencia de los datos es un campo exigente una variedad de habilidades. Tener conocimiento de Hadoop es una de ellas. Las principales tareas de un científico de datos incluyen:

La recopilación de datos procedentes de diferentes recursos.
Limpieza y pre-procesamiento de los datos.
Estudiar las propiedades estadísticas de los datos.
Uso de técnicas de aprendizaje de máquina de hacer pronósticos y percepciones se derivan de los datos.
La comunicación de los resultados a los que toman las decisiones en un formato fácil de entender.

De los puntos anteriores conocimiento de Hadoop es útil para los puntos 1,2 y 3, pero también hay que tener una fuerte base matemática / estadística y fuerte conocimiento de las técnicas computacionales para el trabajo en el campo de la ciencia de datos. También Hadoop no es el único marco que se utiliza en la ciencia de datos. ecosistema de grandes volúmenes de datos tiene una gama de marcos, cada uno específico para un caso de uso particular. En este artículo se da en relación con el material introductorio principales marcos grandes volúmenes de datos que podría ser utilizado en Ciencias de datos:

http://www.codophile.com/big -Datos-marcos-cada-programador debe-sabe /

Creo marco inclinada Hadoop (malas) no es un requisito de ser un científico de datos. Conocimientos generales en todas las plataformas de grandes datos es esencial. Voy a sugerir a conocer el concepto en él y sólo una parte de la necesidad de Hadoop MapReduce es la http: //hadoop.apache .org / docs / current / hadoop-mapreduce-cliente / hadoop-mapreduce-client-core / MapReduceTutorial.html

A Datos científico no construye clúster, administrar ... se acaba de hacer "magia" con los datos y no le importa donde está viniendo. El término "Hadoop" ha llegado a referirse no sólo a los módulos base por encima, sino también para el "ecosistema", o una colección de paquetes de software adicionales que se pueden instalar encima o al lado de Hadoop, como Apache Pig, Apache Hive, Apache HBase, Spark Apache, y otros.

Lo más importante es la Programación de lenguaje, matemáticas y estadísticas para trabajar con datos (que tendrá que encontrar una manera de conectar con los datos y avanzar). Me gustaría tener a alguien que me señale el concepto y no pasar semanas en el aprendizaje de marco y la acumulación de nodos de arañazos y clusters, porque esa parte es función de administrador y no ingeniero o científico de datos de datos. También una cosa: todas están cambiando y evolucionando, pero las matemáticas, programación, las estadísticas siguen siendo los requisitos.

acceder a los datos de hdfs es esencial, por ejemplo PROC Hadoop, colmena, SparkContext o cualquier otro conductor o tubo (hadoop tratar como un punto de datos o accediendo almacenamiento:)

ya están en marcha herramientas o marcos de lo que se ocupan de la asignación de recursos y la gestión, el rendimiento.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange