Domanda

Sono stato un utente lungo tempo di R e hanno recentemente iniziato a lavorare con Python. Utilizzando sistemi RDBMS convenzionali per il data warehousing, e R / Python per elaborazione di calcoli numerici, sento il bisogno ora di ottenere il mio sporcarsi le mani con Big Data Analysis.

Mi piacerebbe sapere come iniziare con Big Data scricchiolio. - Come iniziare semplice con Map / Reduce e l'utilizzo di Hadoop

  • Come posso sfruttare le mie competenze in R e Python per iniziare con l'analisi dei Big Data. Utilizzando il progetto Python Disco per esempio.
  • Usando il pacchetto RHIPE e la ricerca di set di dati di giocattoli e le aree problematiche.
  • Trovare le giuste informazioni per permettere me decidere se ho bisogno di passare a NoSQL da database di tipo RDBMS

Tutto sommato, mi piacerebbe sapere come avviare piccole e gradualmente costruire le mie competenze e know-how nel Big Data Analysis.

Grazie per i vostri suggerimenti e raccomandazioni. Mi scuso per il carattere generico di questa query, ma sto cercando di guadagnare più punto di vista su questo argomento.

  • Harsh
È stato utile?

Soluzione

  

Sulla base del progetto Python Disco per esempio.

Buona. Gioca con questo.

  

Usando il pacchetto RHIPE e la ricerca di set di dati di giocattoli e le aree problematiche.

Bene. Gioca con questo, anche.

Non sudare trovare insiemi di dati "grandi". Anche i piccoli insiemi di dati presentano problemi molto interessanti. Infatti, ogni insieme di dati è una partenza-off point.

Una volta ho costruito una piccola stella-schema per analizzare il bilancio $ 60M di un'organizzazione. I dati di origine era in fogli di calcolo, e sostanzialmente incomprensibile. Così ho scaricato in uno schema a stella e ha scritto diversi programmi di analisi in Python per creare report semplificate dei numeri rilevanti.

  

Trovare le giuste informazioni per permettere me decidere se ho bisogno di passare a NoSQL da database di tipo RDBMS

Questo è facile.

In primo luogo, ottenere un libro su Data Warehousing (di Ralph Kimball The Data Warehouse Toolkit) per esempio.

In secondo luogo, studiare la "Star Schema" con attenzione - in particolare tutte le varianti e casi particolari che Kimball spiega (in profondità)

In terzo luogo, realizzare le seguenti: SQL è per gli aggiornamenti e le transazioni.

Quando si esegue l'elaborazione "analitica" (grande o piccolo) non c'è quasi nessun aggiornamento di alcun tipo. SQL (e relativa normalizzazione) in realtà non importa molto di più.

Il punto di Kimball (e non solo, anche) è che la maggior parte dei data warehouse non è in SQL, è in semplice file flat. Un mart dati (per ad-hoc, analisi slice-and-dice) può essere in un database relazionale per consentire un facile, elaborazione flessibile con SQL.

Quindi, la "decisione" è banale. Se si tratta di transazioni ( "OLTP") deve essere in una relazionale o OO DB. Se si tratta di analitica ( "OLAP") non richiede SQL ad eccezione di fetta-e-dadi di analisi; e anche allora il DB viene caricato dai file ufficiali secondo necessità.

Altri suggerimenti

Dati

??Una cosa si può prendere in considerazione è il DMelt ( http://jwork.org/dmelt/ ) programma di analisi. Una caratteristica notevole è che ha centinaia di esempi che utilizzano il linguaggio Python, e alcuni libri. La ragione per cui lo stavo usando è che funziona sul mio Windows 10 (poiché usa Java VM), in più ha una grafica molto buona in 2D / 3D che possono essere esportati al formato grafico vettoriale.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top