Запуск огромных наборов данных с R

https://datascience.stackexchange.com/questions/697

16-10-2019
|

Вопрос

Я пытаюсь провести некоторый анализ с некоторыми большими наборами наборов (например, строк 400K против 400 столбцов) с R (например, с использованием нейронных сетей и систем рекомендаций). Но для обработки данных требуется слишком много времени (с огромными матрицами, например, 400K Rows против 400K столбцов). Каковы некоторые бесплатные/дешевые способы повышения производительности R?

Я принимаю пакеты или предложения по веб -сервисам (приветствуются другие варианты).

Решение

Хотя ваш вопрос не очень конкретный, поэтому я постараюсь дать вам несколько общих решений. Есть пара вещей, которые вы можете сделать здесь:

Проверьте Sparsematrix из Matrix Package, как упомянуто @sidhha
Попробуйте запустить свою модель параллельно, используя такие пакеты, как снегопад, Параллель. Анкет Проверь это Список пакетов на Cran что может помочь вам запустить вашу модель в многоядерном параллельном режиме.
Вы также можете попробовать Таблица данных упаковка. Это довольно феноменально в скорости.

Хорошее чтение:

Другие советы

Поскольку вы упоминаете, что создаете систему рекомендаций, я считаю, что у вас есть редкая матрица, над которой вы работаете. Проверять Sparsematrix из пакета Matrix. Это должно быть в состоянии помочь вам хранить вашу матрицу большого размера в памяти и обучить вашу модель.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange