Come iniziare con Big Data Analysis [chiusa]

https://stackoverflow.com/questions/4322559

29-09-2019
|

Domanda

Sono stato un utente lungo tempo di R e hanno recentemente iniziato a lavorare con Python. Utilizzando sistemi RDBMS convenzionali per il data warehousing, e R / Python per elaborazione di calcoli numerici, sento il bisogno ora di ottenere il mio sporcarsi le mani con Big Data Analysis.

Mi piacerebbe sapere come iniziare con Big Data scricchiolio. - Come iniziare semplice con Map / Reduce e l'utilizzo di Hadoop

Come posso sfruttare le mie competenze in R e Python per iniziare con l'analisi dei Big Data. Utilizzando il progetto Python Disco per esempio.
Usando il pacchetto RHIPE e la ricerca di set di dati di giocattoli e le aree problematiche.
Trovare le giuste informazioni per permettere me decidere se ho bisogno di passare a NoSQL da database di tipo RDBMS

Tutto sommato, mi piacerebbe sapere come avviare piccole e gradualmente costruire le mie competenze e know-how nel Big Data Analysis.

Grazie per i vostri suggerimenti e raccomandazioni. Mi scuso per il carattere generico di questa query, ma sto cercando di guadagnare più punto di vista su questo argomento.

Harsh

Soluzione

Sulla base del progetto Python Disco per esempio.

Buona. Gioca con questo.

Usando il pacchetto RHIPE e la ricerca di set di dati di giocattoli e le aree problematiche.

Bene. Gioca con questo, anche.

Non sudare trovare insiemi di dati "grandi". Anche i piccoli insiemi di dati presentano problemi molto interessanti. Infatti, ogni insieme di dati è una partenza-off point.

Una volta ho costruito una piccola stella-schema per analizzare il bilancio $ 60M di un'organizzazione. I dati di origine era in fogli di calcolo, e sostanzialmente incomprensibile. Così ho scaricato in uno schema a stella e ha scritto diversi programmi di analisi in Python per creare report semplificate dei numeri rilevanti.

Trovare le giuste informazioni per permettere me decidere se ho bisogno di passare a NoSQL da database di tipo RDBMS

Questo è facile.

In primo luogo, ottenere un libro su Data Warehousing (di Ralph Kimball The Data Warehouse Toolkit) per esempio.

In secondo luogo, studiare la "Star Schema" con attenzione - in particolare tutte le varianti e casi particolari che Kimball spiega (in profondità)

In terzo luogo, realizzare le seguenti: SQL è per gli aggiornamenti e le transazioni.

Quando si esegue l'elaborazione "analitica" (grande o piccolo) non c'è quasi nessun aggiornamento di alcun tipo. SQL (e relativa normalizzazione) in realtà non importa molto di più.

Il punto di Kimball (e non solo, anche) è che la maggior parte dei data warehouse non è in SQL, è in semplice file flat. Un mart dati (per ad-hoc, analisi slice-and-dice) può essere in un database relazionale per consentire un facile, elaborazione flessibile con SQL.

Quindi, la "decisione" è banale. Se si tratta di transazioni ( "OLTP") deve essere in una relazionale o OO DB. Se si tratta di analitica ( "OLAP") non richiede SQL ad eccezione di fetta-e-dadi di analisi; e anche allora il DB viene caricato dai file ufficiali secondo necessità.

Altri suggerimenti

Dati

??Una cosa si può prendere in considerazione è il DMelt ( http://jwork.org/dmelt/ ) programma di analisi. Una caratteristica notevole è che ha centinaia di esempi che utilizzano il linguaggio Python, e alcuni libri. La ragione per cui lo stavo usando è che funziona sul mio Windows 10 (poiché usa Java VM), in più ha una grafica molto buona in 2D / 3D che possono essere esportati al formato grafico vettoriale.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow