Comment commencer avec l'analyse Big Data [fermé]

https://stackoverflow.com/questions/4322559

29-09-2019
|

Question

Je suis un utilisateur de longue date de R et ont récemment commencé à travailler avec Python. L'utilisation de systèmes SGBDR classiques pour l'entreposage de données, et R / Python pour coup de chiffres, je ressens le besoin maintenant de me salir les mains avec l'analyse Big Data.

Je voudrais savoir comment démarrer avec crissement Big Data. - Comment commencer simple Map / Reduce et l'utilisation de Hadoop

Comment puis-je tirer parti de mes compétences en R et Python pour commencer avec l'analyse Big Data. En utilisant le projet Disco Python par exemple.
Utilisation du package RHIPE et trouver des jeux de données de jouets et les problèmes.
Trouver la bonne information pour me permettre de décider si je dois passer à des bases de données NoSQL de type SGBDR

Dans l'ensemble, je voudrais savoir comment commencer petit et de construire progressivement mes compétences et de savoir-faire dans l'analyse Big Data.

Merci pour vos suggestions et recommandations. Je présente mes excuses pour la nature générique de cette requête, mais je suis à la recherche d'obtenir une perspective plus en ce qui concerne ce sujet.

Harsh

La solution

Utilisation du projet Disco Python par exemple.

Bon

. Jouez avec cela.

Utilisation du package RHIPE et trouver des jeux de données de jouets et les problèmes.

Beaux. Jouez avec cela aussi.

Ne pas transpirer trouver des jeux de données « grands ». Même les petits ensembles de données présentent des problèmes très intéressants. En effet, tout ensemble de données est un point hors départ.

Une fois, je construit une petite étoile schéma pour analyser le budget de 60M $ d'une organisation. Les données source était dans des feuilles de calcul, et essentiellement incompréhensible. Donc, je déchargeais dans un schéma en étoile et a écrit plusieurs programmes analytiques en Python pour créer des rapports simplifiés des chiffres pertinents.

Trouver la bonne information pour me permettre de décider si je dois passer à des bases de données NoSQL de type SGBDR

est facile.

Tout d'abord, obtenir un livre sur l'entreposage de données (de Ralph Kimball Le Data Warehouse Toolkit), par exemple.

En second lieu, l'étude de la « Star schéma » soigneusement - en particulier toutes les variantes et les cas spéciaux qui explique Kimball (en profondeur)

Troisièmement, réaliser ce qui suit: SQL est pour les mises à jour et les transactions.

Lorsque vous effectuez un traitement « analytique » (grand ou petit) il n'y a presque pas de mise à jour d'aucune sorte. SQL (et la normalisation connexe) ne le font pas vraiment beaucoup plus question.

Du point de (et d'autres Kimball, aussi) est que la plupart de votre entrepôt de données ne sont pas dans SQL, il est dans un langage simple de fichiers plats. Un dépôt de données (pour ad-hoc, analyse tranche-et dés) peut être dans une base de données relationnelle pour permettre facilement, le traitement flexible avec SQL.

Ainsi, la "décision" est trivial. Si elle est transactionnel ( « OLTP »), il doit être dans un Relational ou OO DB. Si elle est analytique ( « OLAP »), il ne nécessite pas de SQL, sauf pour la tranche-et-dés d'analyse; et même alors le DB est chargé à partir des fichiers officiels, au besoin.

Autres conseils

Une chose que vous pouvez considérer est les données DMelt ( http://jwork.org/dmelt/ ) programme d'analyse. Une caractéristique notable est qu'il a des centaines d'exemples en utilisant le langage Python, et quelques livres. La raison pour laquelle je l'utilise est qu'il fonctionne sur mon Windows 10 (car il utilise Java VM), plus il a de très bons graphiques en 2D / 3D qui peuvent être exportés au format de graphiques vectoriels.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow