Someway de remoção de links internos de arquivos XML Wikipédia?
Pergunta
Se eu tiver baixado Wikipedia XML lixeiras, há alguma maneira de remover todos os links internos de dentro de um arquivo XML?
Graças
Solução
Uma coisa que você poderia fazer, se você está importando-os para um wiki local, é importar todos os arquivos que você deseja, em seguida, usar um robot (eg. pywikipediabot é fácil de usar) para se livrar de todos os links internos.
Outras dicas
banco de dados Wikipedia lixeiras e informações sobre o uso deles estão localizados aqui: Wikipedia descarga: banco de dados . Você deve fazer isso em vez de escrever um script para raspar Wikipedia.
Gostaria de tentar usar XSLT para transformar o arquivo XML em outro arquivo XML.
Você poderia fazer uma pesquisa e substituir em seu editor de texto favorito, substituindo [[e]] com nada.