Rで巨大なデータセットを実行しています

https://datascience.stackexchange.com/questions/697

16-10-2019
|

質問

R（たとえば、ニューラルネットワークと推奨システムを使用する）を使用して、いくつかの大きなデータセット（400k行対400列など）でいくつかの分析を実行しようとしています。しかし、データを処理するのに時間がかかりすぎています（巨大なマトリックス、たとえば400k行と400k列など）。 Rパフォーマンスを改善するための無料/安価な方法は何ですか？

パッケージやWebサービスの提案を受け入れています（他のオプションは大歓迎です）。

解決

あなたの質問はあまり具体的ではありませんが、私はあなたにいくつかの一般的な解決策を与えようとします。ここでできることがいくつかあります：

@sidhhaで言及されているように、MatrixパッケージからSparsematrixを確認してください
降雪などのパッケージを使用して、モデルを並行して実行してみてください。平行. 。これをチェックしてクランのパッケージのリストこれにより、マルチコアパラレルモードでモデルを実行するのに役立ちます。
あなたも試すことができますデータ表パッケージ。速度は非常に驚異的です。

良い読み：

他のヒント

推奨システムを構築していると言及しているので、作業中のまばらなマトリックスがあると思います。小切手 Sparsematrix マトリックスパッケージから。これにより、メモリに大きなサイズのマトリックスを保存し、モデルをトレーニングするのに役立つはずです。

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange