Someway de suppression des liens internes de fichiers XML Wikipédia?
Question
Si j'ai téléchargé des décharges XML Wikipedia, est-il possible de supprimer tous les liens internes à partir d'un fichier XML?
Merci
La solution
Une chose que vous pourriez faire, si vous les importez dans un wiki local, est d'importer tous les fichiers que vous souhaitez, puis utilisez un robot (par exemple. pywikipediabot est facile à utiliser) pour se débarrasser de tous les liens internes.
Autres conseils
décharges de base de données de Wikipédia et des informations sur leur utilisation se trouvent ici: Wikipedia: télécharger la base de données . Vous devez le faire au lieu d'écrire un script pour gratter Wikipedia.
Je voudrais essayer d'utiliser XSLT pour transformer le fichier XML dans un autre fichier XML.
Vous pouvez faire une recherche et remplacer dans votre éditeur de texte favori, remplaçant [[et]] rien.