我怎么会得到一个子集(说100MB)维基百科的网页?我发现你可以得到整个数据集作为XML但是它更喜欢1或2演出;我不需要那么多。

我想来试验实施的地图-减少的算法。

具有说,如果我可以找到100兆价值的文本样本数据,从任何地方,这也将是好的。E.g。堆溢的数据库,如果有的话,将可能是一个很好的大小。我是开放的建议。

编辑:任何没有种子?我不能让那些在工作。

有帮助吗?

解决方案

在计算器数据库可用于下载

其他提示

克里斯,你可以只写一个小程序,以打击维基百科的“沙盒”的链接,直到你的网页的100MB:的 http://en.wikipedia.org/wiki/Special:Random 。你要放弃你可能得到的任何重复,你可能还需要限制你每分钟做(尽管商品的一些部分将通过中间web缓存,而不是维基百科的服务器提供服务时)的请求数。但它应该是相当容易的。

如果你想获得计算器数据库的副本,你可以这样做,从的知识共享数据转储

出于好奇,你有什么使用所有这些数据呢?

一个选项是下载整个维基百科,然后只用一部分。你可以解整个事情,然后用一个简单的脚本分裂的文件分成较小的文件(例如 在这里,),或者如果你担心的磁盘空间,你可以写一个东西一个脚本,压缩和分裂,然后你可以停止的解进程的任何阶段你想要的。 维基百科转储读者 可以通过你的灵感来解和处理在飞行中,如果你舒服python(看看mparser.py).

如果你不想下载整个事情,你留下选择的scarping.的 出口特征 可能有助于这一点, wikipediabot 还建议在这一方面起到举足轻重的作用。

您可以使用一个网络爬虫和刮100MB的数据?

有很多维基百科的转储可用。你为什么要选择最大的(英文维基)?维基新闻存档要小得多。

维基百科文章的一个更小的子集包括所述“元”维基文章。这是在同一个XML格式作为整个文章数据集,但较小(大约400MB如2019年3月),因此它可用于软件验证(例如测试GenSim脚本)。

https://dumps.wikimedia.org/metawiki/latest/

您想寻找与-articles.xml.bz2后缀的文件。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top