免费的大型数据集尝试Hadoop

https://stackoverflow.com/questions/2674421

28-09-2019
|

题

您知道有任何大型数据集可以尝试Hadoop哪个是免费/低成本的？任何相关的指针/链接都将受到赞赏。

偏爱：

至少一个GB数据。
Web服务器的生产日志数据。

到目前为止，很少有人发现：

另外，我们可以运行自己的爬行者来收集网站的数据，例如Wikipedia吗？关于如何做到这一点的任何指示也将受到赞赏。

解决方案

关于您有关爬行和Wikipedia的问题，几乎没有任何观点。

您已经链接到 Wikipedia数据转储您可以使用云9 从UMD到Hadoop中使用此数据。

他们有一个页面：与Wikipedia合作

添加到列表的另一个数据源是：

clueweb09 - 1月至2月09日之间收集了10亿个网页。5TB压缩。

我想说的是，使用爬网来生成数据，应在一个单独的问题中发布给有关Hadoop/MapReduce的一个问题。

其他提示

一个明显的来源：堆栈溢出三部曲数据转储. 。这些是根据Creative Commons许可免费提供的。

这是用于机器学习的189个数据集的集合（这是Hadoop最好的应用程序之一 G): http://archive.ics.uci.edu/ml/datasets.html

它不是日志文件，但也许您可以使用OpenStreetMap的行星文件： http://wiki.openstreetmap.org/wiki/planet.osm

CC许可证，约160 GB（打开包装）

每个大陆也有较小的文件： http://wiki.openstreetmap.org/wiki/world

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow