Ejecución de enormes conjuntos de datos con R

https://datascience.stackexchange.com/questions/697

16-10-2019
|

Pregunta

Estoy intentando ejecutar un análisis con algunos grandes conjuntos de datos (por ejemplo 400k filas frente a 400 columnas) con R (por ejemplo, usando redes neuronales y sistemas de recomendación). Sin embargo, está tomando demasiado tiempo para procesar los datos (con grandes matrices, por ejemplo 400k vs 400k filas columnas). ¿Cuáles son algunas formas libres / barato para mejorar el rendimiento de I?

Estoy aceptando paquetes o servicios sugerencias web (otras opciones son bienvenidos).

Solución

A pesar de que su pregunta no es muy específico, así que trataremos de darle algunas soluciones genéricas. Hay un par de cosas que puede hacer aquí:

Compruebe matriz dispersa del paquete de matriz como se ha mencionado por @Sidhha
Intente ejecutar el modelo en paralelo usando paquetes como nevadas, paralelo . Compruebe esta lista de paquetes en Cran que puede ayudarle a runnning su modelo en el modo multi-núcleo paralelo.
También puede tratar data.table paquete . Es bastante espectacular en la velocidad.

Buena lee:

Otros consejos

Desde que usted menciona que usted está construyendo un sistema de recomendación, creo que usted tiene una matriz dispersa que se está trabajando. Compruebe matriz dispersa del paquete de Matrix. Esto debería ser capaz de ayudar con el almacenamiento de su matriz de gran tamaño en la memoria y entrenar a su modelo.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange