我正在尝试使用一些大数据集(例如400k行与400列)进行一些分析(例如,使用神经网络和推荐系统)。但是,处理数据花费太长(具有巨大的矩阵,例如400k行与400K列)。哪些免费/便宜的方法可以提高R性能?

我接受软件包或Web服务建议(欢迎其他选项)。

有帮助吗?

解决方案

尽管您的问题不是很具体,因此我会尝试为您提供一些通用解决方案。您可以在这里做几件事:

  • 如@sidhha所述,从矩阵软件包中检查sparsematrix
  • 尝试使用降雪等软件包并行运行模型 平行. 。检查一下 克兰的包裹清单 这可以帮助您以多项并行模式运行模型。
  • 你也可以尝试 Data.Table 包裹。速度非常出色。

好读数:

  1. 关于如何处理R中的大数据的11条提示(和1个不良双关语)
  2. 为什么R速度很慢以及如何提高其性能?

其他提示

由于您提到您正在建立推荐系统,因此我相信您有一个正在处理的稀疏矩阵。查看 Sparsematrix 来自矩阵软件包。这应该能够帮助您将大尺寸矩阵存储在内存中并训练模型。

许可以下: CC-BY-SA归因
scroll top