Rで巨大なデータセットを実行しています
-
16-10-2019 - |
質問
R(たとえば、ニューラルネットワークと推奨システムを使用する)を使用して、いくつかの大きなデータセット(400k行対400列など)でいくつかの分析を実行しようとしています。しかし、データを処理するのに時間がかかりすぎています(巨大なマトリックス、たとえば400k行と400k列など)。 Rパフォーマンスを改善するための無料/安価な方法は何ですか?
パッケージやWebサービスの提案を受け入れています(他のオプションは大歓迎です)。
解決
あなたの質問はあまり具体的ではありませんが、私はあなたにいくつかの一般的な解決策を与えようとします。ここでできることがいくつかあります:
- @sidhhaで言及されているように、MatrixパッケージからSparsematrixを確認してください
- 降雪などのパッケージを使用して、モデルを並行して実行してみてください。 平行. 。これをチェックして クランのパッケージのリスト これにより、マルチコアパラレルモードでモデルを実行するのに役立ちます。
- あなたも試すことができます データ表 パッケージ。速度は非常に驚異的です。
良い読み:
他のヒント
推奨システムを構築していると言及しているので、作業中のまばらなマトリックスがあると思います。小切手 Sparsematrix マトリックスパッケージから。これにより、メモリに大きなサイズのマトリックスを保存し、モデルをトレーニングするのに役立つはずです。
所属していません datascience.stackexchange