Pregunta

Estoy intentando ejecutar un análisis con algunos grandes conjuntos de datos (por ejemplo 400k filas frente a 400 columnas) con R (por ejemplo, usando redes neuronales y sistemas de recomendación). Sin embargo, está tomando demasiado tiempo para procesar los datos (con grandes matrices, por ejemplo 400k vs 400k filas columnas). ¿Cuáles son algunas formas libres / barato para mejorar el rendimiento de I?

Estoy aceptando paquetes o servicios sugerencias web (otras opciones son bienvenidos).

¿Fue útil?

Solución

A pesar de que su pregunta no es muy específico, así que trataremos de darle algunas soluciones genéricas. Hay un par de cosas que puede hacer aquí:

  • Compruebe matriz dispersa del paquete de matriz como se ha mencionado por @Sidhha
  • Intente ejecutar el modelo en paralelo usando paquetes como nevadas, paralelo . Compruebe esta lista de paquetes en Cran que puede ayudarle a runnning su modelo en el modo multi-núcleo paralelo.
  • También puede tratar data.table paquete . Es bastante espectacular en la velocidad.

Buena lee:

  1. 11 consejos sobre cómo manejar grandes volúmenes de datos en R (1 y mal juego de palabras)
  2. Por qué R es lenta y la forma de mejorar su rendimiento?

Otros consejos

Desde que usted menciona que usted está construyendo un sistema de recomendación, creo que usted tiene una matriz dispersa que se está trabajando. Compruebe matriz dispersa del paquete de Matrix. Esto debería ser capaz de ayudar con el almacenamiento de su matriz de gran tamaño en la memoria y entrenar a su modelo.

Licenciado bajo: CC-BY-SA con atribución
scroll top