Esecuzione di enormi set di dati con R

https://datascience.stackexchange.com/questions/697

16-10-2019
|

Domanda

Sto cercando di eseguire alcune analisi con alcuni grandi set di dati (ad esempio 400k righe vs 400 colonne) con R (ad esempio utilizzando le reti neurali e sistemi di raccomandazione). Ma, è troppo tempo per elaborare i dati (con enormi matrici, ad esempio 400k righe vs 400k colonne). Quali sono alcuni liberi / a buon mercato modi per migliorare le prestazioni di R?

Sono accettare pacchetti o servizi web suggerimenti (le altre opzioni sono i benvenuti).

Soluzione

Anche se la tua domanda non è molto specifico in modo cercherò di darvi alcune soluzioni generiche. Ci sono un paio di cose che puoi fare qui:

Controlla matrice sparsa dal pacchetto di Matrix come detto da @Sidhha
Provare a eseguire il vostro modello in parallelo utilizzando pacchetti come nevicata, Parallel . Controllare questo di pacchetti su Cran che può aiutare a runnning il modello in modalità multi-core in parallelo.
Si può anche provare a data.table pacchetto . E 'abbastanza fenomenale in termini di velocità.

Buona legge:

Altri suggerimenti

Dal momento che si parla si sta costruendo un sistema di raccomandazione, credo che si dispone di una matrice sparsa, che si sta lavorando. Controllare matrice sparsa dal pacchetto di Matrix. Questo dovrebbe essere in grado di aiutarvi con la memorizzazione della matrice di grandi dimensioni in memoria e addestrare il vostro modello.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange