Come iniziare con Big Data Analysis [chiusa]
Domanda
Sono stato un utente lungo tempo di R e hanno recentemente iniziato a lavorare con Python. Utilizzando sistemi RDBMS convenzionali per il data warehousing, e R / Python per elaborazione di calcoli numerici, sento il bisogno ora di ottenere il mio sporcarsi le mani con Big Data Analysis.
Mi piacerebbe sapere come iniziare con Big Data scricchiolio. - Come iniziare semplice con Map / Reduce e l'utilizzo di Hadoop
- Come posso sfruttare le mie competenze in R e Python per iniziare con l'analisi dei Big Data. Utilizzando il progetto Python Disco per esempio.
- Usando il pacchetto RHIPE e la ricerca di set di dati di giocattoli e le aree problematiche.
- Trovare le giuste informazioni per permettere me decidere se ho bisogno di passare a NoSQL da database di tipo RDBMS
Tutto sommato, mi piacerebbe sapere come avviare piccole e gradualmente costruire le mie competenze e know-how nel Big Data Analysis.
Grazie per i vostri suggerimenti e raccomandazioni. Mi scuso per il carattere generico di questa query, ma sto cercando di guadagnare più punto di vista su questo argomento.
- Harsh
Soluzione
Sulla base del progetto Python Disco per esempio.
Buona. Gioca con questo.
Usando il pacchetto RHIPE e la ricerca di set di dati di giocattoli e le aree problematiche.
Bene. Gioca con questo, anche.
Non sudare trovare insiemi di dati "grandi". Anche i piccoli insiemi di dati presentano problemi molto interessanti. Infatti, ogni insieme di dati è una partenza-off point.
Una volta ho costruito una piccola stella-schema per analizzare il bilancio $ 60M di un'organizzazione. I dati di origine era in fogli di calcolo, e sostanzialmente incomprensibile. Così ho scaricato in uno schema a stella e ha scritto diversi programmi di analisi in Python per creare report semplificate dei numeri rilevanti.
Trovare le giuste informazioni per permettere me decidere se ho bisogno di passare a NoSQL da database di tipo RDBMS
Questo è facile.
In primo luogo, ottenere un libro su Data Warehousing (di Ralph Kimball The Data Warehouse Toolkit) per esempio.
In secondo luogo, studiare la "Star Schema" con attenzione - in particolare tutte le varianti e casi particolari che Kimball spiega (in profondità)
In terzo luogo, realizzare le seguenti: SQL è per gli aggiornamenti e le transazioni.
Quando si esegue l'elaborazione "analitica" (grande o piccolo) non c'è quasi nessun aggiornamento di alcun tipo. SQL (e relativa normalizzazione) in realtà non importa molto di più.
Il punto di Kimball (e non solo, anche) è che la maggior parte dei data warehouse non è in SQL, è in semplice file flat. Un mart dati (per ad-hoc, analisi slice-and-dice) può essere in un database relazionale per consentire un facile, elaborazione flessibile con SQL.
Quindi, la "decisione" è banale. Se si tratta di transazioni ( "OLTP") deve essere in una relazionale o OO DB. Se si tratta di analitica ( "OLAP") non richiede SQL ad eccezione di fetta-e-dadi di analisi; e anche allora il DB viene caricato dai file ufficiali secondo necessità.
Altri suggerimenti
??Una cosa si può prendere in considerazione è il DMelt ( http://jwork.org/dmelt/ ) programma di analisi. Una caratteristica notevole è che ha centinaia di esempi che utilizzano il linguaggio Python, e alcuni libri. La ragione per cui lo stavo usando è che funziona sul mio Windows 10 (poiché usa Java VM), in più ha una grafica molto buona in 2D / 3D che possono essere esportati al formato grafico vettoriale.