L'exécution des jeux de données énormes avec R

https://datascience.stackexchange.com/questions/697

16-10-2019
|

Question

Je suis en train de lancer une analyse avec des jeux de données volumineux (par exemple des lignes 400k vs 400 colonnes) avec R (par exemple en utilisant des réseaux de neurones et systèmes de recommandation). Mais, il prend trop de temps pour traiter les données (avec d'énormes matrices, par exemple des lignes 400k contre 400k colonnes). Quels sont les moyens gratuits / bon marché pour améliorer les performances de R?

Je suis d'accepter des paquets ou des services Web suggestions (autres options sont les bienvenus).

La solution

Bien que votre question n'est pas très précis, donc je vais essayer de vous donner quelques solutions génériques. Il y a quelques choses que vous pouvez faire ici:

Vérifier de l'emballage Matrice Matrice Creuse comme mentionné par @Sidhha
Essayez de lancer votre modèle en parallèle en utilisant des paquets comme des chutes de neige, parallèle . Cochez cette des paquets sur qui peut vous Cran aider runnning votre modèle en mode multi-cœurs en parallèle.
Vous pouvez également essayer data.table package. Il est tout à fait phénoménale vitesse.

Bon lit comme suit:

Autres conseils

Puisque vous mentionnez que vous construisez un système de recommandation, je crois que vous avez une matrice clairsemée que vous travaillez. Consultez de package Matrice Creuse Matrix. Cela devrait être en mesure de vous aider à stocker votre matrice de grande taille en mémoire et former votre modèle.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange