Вопрос

Я пытаюсь провести некоторый анализ с некоторыми большими наборами наборов (например, строк 400K против 400 столбцов) с R (например, с использованием нейронных сетей и систем рекомендаций). Но для обработки данных требуется слишком много времени (с огромными матрицами, например, 400K Rows против 400K столбцов). Каковы некоторые бесплатные/дешевые способы повышения производительности R?

Я принимаю пакеты или предложения по веб -сервисам (приветствуются другие варианты).

Это было полезно?

Решение

Хотя ваш вопрос не очень конкретный, поэтому я постараюсь дать вам несколько общих решений. Есть пара вещей, которые вы можете сделать здесь:

  • Проверьте Sparsematrix из Matrix Package, как упомянуто @sidhha
  • Попробуйте запустить свою модель параллельно, используя такие пакеты, как снегопад, Параллель. Анкет Проверь это Список пакетов на Cran что может помочь вам запустить вашу модель в многоядерном параллельном режиме.
  • Вы также можете попробовать Таблица данных упаковка. Это довольно феноменально в скорости.

Хорошее чтение:

  1. 11 советов о том, как обрабатывать большие данные в R (и 1 плохой каламбур)
  2. Почему R медленно и как улучшить свою производительность?

Другие советы

Поскольку вы упоминаете, что создаете систему рекомендаций, я считаю, что у вас есть редкая матрица, над которой вы работаете. Проверять Sparsematrix из пакета Matrix. Это должно быть в состоянии помочь вам хранить вашу матрицу большого размера в памяти и обучить вашу модель.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с datascience.stackexchange
scroll top