¿Cómo empezar con el análisis de grandes volúmenes de datos [cerrada]

https://stackoverflow.com/questions/4322559

29-09-2019
|

Pregunta

He sido un usuario de mucho tiempo de R y recientemente han comenzado a trabajar con Python. El uso de sistemas RDBMS convencionales para el almacenamiento de datos, y R / Python para procesamiento de datos numéricos, siento la necesidad ahora para obtener mi manos sucias con el análisis de grandes volúmenes de datos.

Me gustaría saber cómo empezar con el crujido de grandes volúmenes de datos. - ¿Cómo empezar con simples map / reduce y el uso de Hadoop

¿Cómo puedo aprovechar mis habilidades en R y Python para empezar con el análisis de grandes volúmenes de datos. Con ayuda del proyecto Python Disco por ejemplo.
Uso del paquete de RHIPE y la búsqueda de conjuntos de datos de juguete y las áreas problemáticas.
Encontrar la información correcta para permitir que mí decidir si necesito mover a las bases de datos NoSQL tipo de RDBMS

Con todo, me gustaría saber cómo empezar poco a poco y gradualmente se acumulan mis habilidades y conocimientos técnicos en el análisis de grandes volúmenes de datos.

Gracias por sus sugerencias y recomendaciones ti. Me disculpo por la naturaleza genérica de esta consulta, pero estoy buscando a ganar más de perspectiva con respecto a este tema.

Harsh

Solución

Con ayuda del proyecto Python Disco por ejemplo.

Buena. Jugar con eso.

Uso del paquete de RHIPE y la búsqueda de conjuntos de datos de juguete y las áreas problemáticas.

Bella. Jugar con eso, también.

No se preocupe por la búsqueda de "grandes" conjuntos de datos. Incluso los pequeños conjuntos de datos presentan problemas muy interesantes. De hecho, cualquier conjunto de datos es una de partida-off punto.

Una vez construí una pequeña estrella esquema para analizar el presupuesto de $ 60 millones de una organización. Los datos de origen estaba en hojas de cálculo, y esencialmente incomprensible. Así que descargué en un esquema en estrella y escribió varios programas analíticos en Python para crear informes simplificados de los números correspondientes.

Encontrar la información correcta para permitir que mí decidir si necesito mover a las bases de datos NoSQL tipo de RDBMS

Esto es fácil.

En primer lugar, conseguir un libro sobre el almacenamiento de datos (Data Warehouse El kit de herramientas de Ralph Kimball), por ejemplo.

En segundo lugar, el estudio de la "Estrella de esquema" cuidadosamente - en particular todas las variantes y casos especiales que explica Kimball (en profundidad)

En tercer lugar, darse cuenta de lo siguiente: SQL es para actualizaciones y transacciones.

Cuando se realiza el procesamiento de "analítica" (grande o pequeño) no hay casi ninguna actualización de ningún tipo. SQL (y la normalización relacionada) realmente no importa mucho más.

punto de Kimball (y otros también) es que la mayor parte de su almacén de datos no está en SQL, que es sencilla de archivos plana. Un mercado de datos (para-hoc del anuncio, análisis de corte-y-dados) puede estar en una base de datos relacional para permitir una fácil, el procesamiento flexibles con SQL.

Así que la "decisión" es trivial. Si se trata de transacciones ( "OLTP") debe estar en una relacional o OO DB. Si se trata de analítica ( "OLAP") que no requiere SQL excepto por rebanada-y-dados de análisis; e incluso entonces la base de datos se carga desde los archivos oficiales, según sea necesario.

Otros consejos

Una cosa que puedes considerar es el DMelt ( http://jwork.org/dmelt/ ) de datos programa de análisis. Una característica notable es que tiene cientos de ejemplos utilizando el lenguaje Python, y un par de libros. La razón por la que estaba usando es que se ejecuta en mi Windows 10 (ya que utiliza Java VM), además de que tiene muy buenos gráficos en 2D / 3D que se pueden exportar al formato de gráficos vectoriales.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow