好歹去除维基百科的XML文件中的内部链接?
题
如果我已经下载了维基百科的XML转储,有没有从XML文件中删除所有的内部链接的方法吗?
由于
解决方案
有一件事情你可以做,如果你是其中导入到本地维基,是导入所有你想要的文件,然后使用一个机器人(如的 pywikipediabot 是易于使用的),以摆脱所有的内部链接。
其他提示
用它们维基百科数据库转储和信息都设在这里:维基百科:数据库下载。你应该这样做,而不是写一个脚本来刮百科。
我想尝试使用XSLT将XML文件转换为另一个XML文件。
您可以做一个搜索,并在您喜欢的文本编辑器替换,替换[[和]什么也没有。
不隶属于 StackOverflow