Какой-нибудь способ удаления внутренних ссылок из XML-файлов Википедии?

StackOverflow https://stackoverflow.com/questions/703399

  •  22-08-2019
  •  | 
  •  

Вопрос

Если я загрузил XML-дампы Википедии, есть ли какой-либо способ удалить все внутренние ссылки из XML-файла?

Спасибо

Это было полезно?

Решение

Одна вещь, которую вы могли бы сделать, если вы импортируете их в локальную wiki, - это импортировать все нужные вам файлы, а затем использовать робота (напр. pywikипедиабот прост в использовании), чтобы избавиться от всех внутренних ссылок.

Другие советы

Дампы базы данных Википедии и информация о их использовании находятся здесь: Википедия: Загрузка базы данных.Вы должны сделать это вместо того, чтобы писать скрипт для очистки Википедии.

Я бы попытался использовать XSLT для преобразования XML-файла в другой XML-файл.

Вы могли бы выполнить поиск и заменить в вашем любимом текстовом редакторе, заменив [[ и ]] на nothing .

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top