Какой-нибудь способ удаления внутренних ссылок из XML-файлов Википедии?
Вопрос
Если я загрузил XML-дампы Википедии, есть ли какой-либо способ удалить все внутренние ссылки из XML-файла?
Спасибо
Решение
Одна вещь, которую вы могли бы сделать, если вы импортируете их в локальную wiki, - это импортировать все нужные вам файлы, а затем использовать робота (напр. pywikипедиабот прост в использовании), чтобы избавиться от всех внутренних ссылок.
Другие советы
Дампы базы данных Википедии и информация о их использовании находятся здесь: Википедия: Загрузка базы данных.Вы должны сделать это вместо того, чтобы писать скрипт для очистки Википедии.
Я бы попытался использовать XSLT для преобразования XML-файла в другой XML-файл.
Вы могли бы выполнить поиск и заменить в вашем любимом текстовом редакторе, заменив [[ и ]] на nothing .