我怎么会得到一个子集中的维基百科的网页？

https://stackoverflow.com/questions/1320475

19-09-2019
|

题

我怎么会得到一个子集(说100MB)维基百科的网页？我发现你可以得到整个数据集作为XML但是它更喜欢1或2演出;我不需要那么多。

我想来试验实施的地图-减少的算法。

具有说，如果我可以找到100兆价值的文本样本数据，从任何地方，这也将是好的。E.g。堆溢的数据库，如果有的话，将可能是一个很好的大小。我是开放的建议。

编辑：任何没有种子?我不能让那些在工作。

解决方案

在计算器数据库可用于下载。

其他提示

克里斯，你可以只写一个小程序，以打击维基百科的“沙盒”的链接，直到你的网页的100MB：的 http://en.wikipedia.org/wiki/Special:Random 。你要放弃你可能得到的任何重复，你可能还需要限制你每分钟做（尽管商品的一些部分将通过中间web缓存，而不是维基百科的服务器提供服务时）的请求数。但它应该是相当容易的。

如果你想获得计算器数据库的副本，你可以这样做，从的知识共享数据转储。

出于好奇，你有什么使用所有这些数据呢？

一个选项是下载整个维基百科，然后只用一部分。你可以解整个事情，然后用一个简单的脚本分裂的文件分成较小的文件(例如在这里，)，或者如果你担心的磁盘空间，你可以写一个东西一个脚本，压缩和分裂，然后你可以停止的解进程的任何阶段你想要的。维基百科转储读者可以通过你的灵感来解和处理在飞行中，如果你舒服python(看看mparser.py).

如果你不想下载整个事情，你留下选择的scarping.的出口特征可能有助于这一点， wikipediabot 还建议在这一方面起到举足轻重的作用。

您可以使用一个网络爬虫和刮100MB的数据？

有很多维基百科的转储可用。你为什么要选择最大的（英文维基）？维基新闻存档要小得多。

维基百科文章的一个更小的子集包括所述“元”维基文章。这是在同一个XML格式作为整个文章数据集，但较小（大约400MB如2019年3月），因此它可用于软件验证（例如测试GenSim脚本）。

https://dumps.wikimedia.org/metawiki/latest/

您想寻找与-articles.xml.bz2后缀的文件。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow