题
您知道有任何大型数据集可以尝试Hadoop哪个是免费/低成本的?任何相关的指针/链接都将受到赞赏。
偏爱:
至少一个GB数据。
Web服务器的生产日志数据。
到目前为止,很少有人发现:
另外,我们可以运行自己的爬行者来收集网站的数据,例如Wikipedia吗?关于如何做到这一点的任何指示也将受到赞赏。
解决方案
关于您有关爬行和Wikipedia的问题,几乎没有任何观点。
您已经链接到 Wikipedia数据转储 您可以使用 云9 从UMD到Hadoop中使用此数据。
他们有一个页面: 与Wikipedia合作
添加到列表的另一个数据源是:
- clueweb09 - 1月至2月09日之间收集了10亿个网页。5TB压缩。
我想说的是,使用爬网来生成数据,应在一个单独的问题中发布给有关Hadoop/MapReduce的一个问题。
其他提示
一个明显的来源: 堆栈溢出三部曲数据转储. 。这些是根据Creative Commons许可免费提供的。
这是用于机器学习的189个数据集的集合(这是Hadoop最好的应用程序之一 G): http://archive.ics.uci.edu/ml/datasets.html
它不是日志文件,但也许您可以使用OpenStreetMap的行星文件: http://wiki.openstreetmap.org/wiki/planet.osm
CC许可证,约160 GB(打开包装)
每个大陆也有较小的文件: http://wiki.openstreetmap.org/wiki/world
不隶属于 StackOverflow