您知道有任何大型数据集可以尝试Hadoop哪个是免费/低成本的?任何相关的指针/链接都将受到赞赏。

偏爱:

  • 至少一个GB数据。

  • Web服务器的生产日志数据。

到目前为止,很少有人发现:

  1. 维基百科垃圾场

  2. http://wiki.freebase.com/wiki/data_dumps

  3. http://aws.amazon.com/publicdatasets/

另外,我们可以运行自己的爬行者来收集网站的数据,例如Wikipedia吗?关于如何做到这一点的任何指示也将受到赞赏。

有帮助吗?

解决方案

关于您有关爬行和Wikipedia的问题,几乎没有任何观点。

您已经链接到 Wikipedia数据转储 您可以使用 云9 从UMD到Hadoop中使用此数据。

他们有一个页面: 与Wikipedia合作

添加到列表的另一个数据源是:

  • clueweb09 - 1月至2月09日之间收集了10亿个网页。5TB压缩。

我想说的是,使用爬网来生成数据,应在一个单独的问题中发布给有关Hadoop/MapReduce的一个问题。

其他提示

一个明显的来源: 堆栈溢出三部曲数据转储. 。这些是根据Creative Commons许可免费提供的。

这是用于机器学习的189个数据集的集合(这是Hadoop最好的应用程序之一 G): http://archive.ics.uci.edu/ml/datasets.html

它不是日志文件,但也许您可以使用OpenStreetMap的行星文件: http://wiki.openstreetmap.org/wiki/planet.osm

CC许可证,约160 GB(打开包装)

每个大陆也有较小的文件: http://wiki.openstreetmap.org/wiki/world

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top