In qualche modo di rimuovere i collegamenti interni da file XML di Wikipedia?
Domanda
Se ho scaricato discariche XML Wikipedia, c'è un modo di rimuovere tutti i collegamenti interni all'interno di un file XML?
Grazie
Soluzione
Una cosa che si potrebbe fare, se li sta importando in un wiki locale, è quello di importare tutti i file che si desidera, quindi utilizzare un robot (ad es. pywikipediabot è facile da usare) per sbarazzarsi di tutti i collegamenti interni.
Altri suggerimenti
discariche di database Wikipedia e informazioni sull'utilizzo di loro si trovano qui: Wikipedia: database scaricare . Si dovrebbe fare questo invece di scrivere uno script per raschiare Wikipedia.
Vorrei provare a utilizzare XSLT per trasformare il file XML in un altro file XML.
Si potrebbe fare una ricerca e sostituzione nel vostro editor di testo preferito, sostituendo [[e]] con niente.