質問

R(たとえば、ニューラルネットワークと推奨システムを使用する)を使用して、いくつかの大きなデータセット(400k行対400列など)でいくつかの分析を実行しようとしています。しかし、データを処理するのに時間がかかりすぎています(巨大なマトリックス、たとえば400k行と400k列など)。 Rパフォーマンスを改善するための無料/安価な方法は何ですか?

パッケージやWebサービスの提案を受け入れています(他のオプションは大歓迎です)。

役に立ちましたか?

解決

あなたの質問はあまり具体的ではありませんが、私はあなたにいくつかの一般的な解決策を与えようとします。ここでできることがいくつかあります:

  • @sidhhaで言及されているように、MatrixパッケージからSparsematrixを確認してください
  • 降雪などのパッケージを使用して、モデルを並行して実行してみてください。 平行. 。これをチェックして クランのパッケージのリスト これにより、マルチコアパラレルモードでモデルを実行するのに役立ちます。
  • あなたも試すことができます データ表 パッケージ。速度は非常に驚異的です。

良い読み:

  1. Rでビッグデータを処理する方法に関する11のヒント(および1つの悪い駄洒落)
  2. Rが遅い理由とパフォーマンスを改善する方法は何ですか?

他のヒント

推奨システムを構築していると言及しているので、作業中のまばらなマトリックスがあると思います。小切手 Sparsematrix マトリックスパッケージから。これにより、メモリに大きなサイズのマトリックスを保存し、モデルをトレーニングするのに役立つはずです。

ライセンス: CC-BY-SA帰属
所属していません datascience.stackexchange
scroll top