Запуск огромных наборов данных с R
-
16-10-2019 - |
Вопрос
Я пытаюсь провести некоторый анализ с некоторыми большими наборами наборов (например, строк 400K против 400 столбцов) с R (например, с использованием нейронных сетей и систем рекомендаций). Но для обработки данных требуется слишком много времени (с огромными матрицами, например, 400K Rows против 400K столбцов). Каковы некоторые бесплатные/дешевые способы повышения производительности R?
Я принимаю пакеты или предложения по веб -сервисам (приветствуются другие варианты).
Решение
Хотя ваш вопрос не очень конкретный, поэтому я постараюсь дать вам несколько общих решений. Есть пара вещей, которые вы можете сделать здесь:
- Проверьте Sparsematrix из Matrix Package, как упомянуто @sidhha
- Попробуйте запустить свою модель параллельно, используя такие пакеты, как снегопад, Параллель. Анкет Проверь это Список пакетов на Cran что может помочь вам запустить вашу модель в многоядерном параллельном режиме.
- Вы также можете попробовать Таблица данных упаковка. Это довольно феноменально в скорости.
Хорошее чтение:
Другие советы
Поскольку вы упоминаете, что создаете систему рекомендаций, я считаю, что у вас есть редкая матрица, над которой вы работаете. Проверять Sparsematrix из пакета Matrix. Это должно быть в состоянии помочь вам хранить вашу матрицу большого размера в памяти и обучить вашу модель.