Someway von Entfernen interne Links von Wikipedia XML-Dateien?
Frage
Wenn ich Wikipedia XML-Dumps heruntergeladen haben, ist es eine Möglichkeit, von allen internen Links, die von einer XML-Datei zu entfernen?
Danke
Lösung
Eine Sache, die Sie tun können, wenn Sie sie in ein lokales Wiki importieren, ist es, alle Dateien zu importieren Sie wollen, dann einen Roboter verwenden (zB. pywikipediabot ist einfach zu bedienen), um loszuwerden, alle internen Links.
Andere Tipps
Wikipedia-Datenbank-Dumps und Informationen über diese Verwendung befinden sich hier: Wikipedia: Datenbank herunterladen . Sie sollten dies tun, anstatt ein Skript zu schreiben Wikipedia zu kratzen.
Ich würde versuchen, XSLT zu verwenden, um die XML-Datei in einer anderen XML-Datei zu transformieren.
Sie können eine Suche und in Ihrem bevorzugten Texteditor ersetzen, ersetzen [[und]] mit nichts.