如果我已经下载了维基百科的XML转储,有没有从XML文件中删除所有的内部链接的方法吗?

由于

有帮助吗?

解决方案

有一件事情你可以做,如果你是其中导入到本地维基,是导入所有你想要的文件,然后使用一个机器人(如的 pywikipediabot 是易于使用的),以摆脱所有的内部链接。

其他提示

用它们维基百科数据库转储和信息都设在这里:维基百科:数据库下载。你应该这样做,而不是写一个脚本来刮百科。

我想尝试使用XSLT将XML文件转换为另一个XML文件。

您可以做一个搜索,并在您喜欢的文本编辑器替换,替换[[和]什么也没有。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top