Frage

Ich habe eine lange Zeit Benutzer von R und haben vor kurzem begonnen mit Python arbeiten. Unter Verwendung von herkömmlichen RDBMS-Systemen für Data Warehousing und R / Python für Zahlenverarbeitung, ich das Bedürfnis verspüren, jetzt meine Hände schmutzig mit Big Data-Analyse zu erhalten.

Ich würde gerne wissen, wie, um loszulegen mit Big Data Knirschen. - So starten Sie einfach mit Map / Reduce und die Verwendung von Hadoop

  • Wie kann ich meine Fähigkeiten in R und Python nutzen, mit Big Data-Analyse zu beginnen. Mit Hilfe des Python Disco-Projekt zum Beispiel.
  • Verwenden des RHIPE Paket und die Suche nach Spielzeug Datensätze und Problembereiche.
  • Das Finden der richtigen Information zu erlauben, mich zu entscheiden, ob ich zu NoSQL von RDBMS-Typ-Datenbanken verschieben müssen

Alles in allem würde ich gerne wissen, wie klein beginnen und nach und nach meinen Fähigkeiten aufbauen und die Know-how in Big Data Analysis.

Vielen Dank für Ihre Anregungen und Empfehlungen. Ich entschuldige mich für die generische Natur dieser Abfrage, aber ich bin auf der Suche mehr Perspektive zu diesem Thema zu gewinnen.

  • Harsh
War es hilfreich?

Lösung

  

Mit dem Python Disco-Projekt zum Beispiel.

Gut. Spielen Sie mit dem.

  

Mit dem RHIPE Paket und der Suche nach Spielzeug Datensätze und Problembereiche.

Fein. Spielen Sie mit dem auch.

nicht schwitzen „große“ Datensätze zu finden. Auch kleine Datensätze präsentieren sehr interessante Probleme. Tatsächlich kann jeder Datensatz ist ein Ausgangspunkt.

Ich habe einmal ein kleines Stern-Schema gebaut, um das $ 60M Budget einer Organisation zu analysieren. Die Quelldaten war in Tabellen und im wesentlichen nicht nachvollziehbar. Also habe ich es in einem Sternschema entladen und mehrere analytische Programme in Python geschrieben vereinfachte Berichte der relevanten Zahlen zu erstellen.

  

Das Finden der richtigen Information zu erlauben, mich zu entscheiden, ob ich zu NoSQL von RDBMS-Typ-Datenbanken verschieben müssen

Das ist einfach.

Als erstes ein Buch über Daten erhalten Warehousing (Ralph Kimball Den Data Warehouse Toolkit) zum Beispiel.

Zum anderen untersuchen die „Stern-Schema“ sorgfältig - besonders alle Varianten und Sonderfälle, dass Kimball erklärt (in der Tiefe)

Drittens erkennt die folgende: SQL für Updates und Transaktionen.

Wenn „analytische“ Verarbeitung (groß oder klein) zu tun gibt es so gut wie keine Aktualisierung jeglicher Art. SQL (und damit verbundene Normalisierung) nicht wirklich viel aus nicht mehr.

Kimball Punkt (und andere auch), dass die meisten Data Warehouse ist nicht in SQL, ist es in einfachen Flat Files. Ein Data Mart (für Ad-hoc-Slice-and-Dice-Analyse) in einer relationalen Datenbank sein kann, einfach, flexibel Verarbeitung mit SQL zu ermöglichen.

So die "Entscheidung" ist trivial. Wenn es transaktionale ( „OLTP“) muss in einer relationalen oder OO DB sein. Wenn es analytisch ist ( „OLAP“) es erfordert SQL nicht außer für Slice-and-Dice-Analysen; und selbst dann wird die DB von den offiziellen Dateien geladen, wie benötigt werden.

Andere Tipps

Eine Sache, die Sie betrachten können, ist die DMelt ( http://jwork.org/dmelt/ ) Daten Analyseprogramm. Ein bemerkenswertes Merkmal ist, dass es Hunderte von Beispielen unter Verwendung der Sprache Python hat, und ein paar Bücher. Der Grund, warum ich es ist, dass es läuft auf meinem Windows 10 (da es Java VM verwendet), und es hat eine sehr gute Grafiken in 2D / 3D, die mit dem Vektorgrafikformat exportiert werden können.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top