使用R运行巨大的数据集

https://datascience.stackexchange.com/questions/697

16-10-2019
|

题

我正在尝试使用一些大数据集（例如400k行与400列）进行一些分析（例如，使用神经网络和推荐系统）。但是，处理数据花费太长（具有巨大的矩阵，例如400k行与400K列）。哪些免费/便宜的方法可以提高R性能？

我接受软件包或Web服务建议（欢迎其他选项）。

解决方案

尽管您的问题不是很具体，因此我会尝试为您提供一些通用解决方案。您可以在这里做几件事：

如@sidhha所述，从矩阵软件包中检查sparsematrix
尝试使用降雪等软件包并行运行模型平行. 。检查一下克兰的包裹清单这可以帮助您以多项并行模式运行模型。
你也可以尝试 Data.Table 包裹。速度非常出色。

好读数：

其他提示

由于您提到您正在建立推荐系统，因此我相信您有一个正在处理的稀疏矩阵。查看 Sparsematrix 来自矩阵软件包。这应该能够帮助您将大尺寸矩阵存储在内存中并训练模型。

许可以下： CC-BY-SA 和归因

不隶属于 datascience.stackexchange