Come faccio a ottenere un sottoinsieme delle pagine di Wikipedia?

https://stackoverflow.com/questions/1320475

19-09-2019
|

Domanda

Come potrei ottenere un sottoinsieme (diciamo 100 MB) di pagine di Wikipedia? Ho trovato è possibile ottenere l'intero set di dati in formato XML, ma il suo più come 1 o 2 concerti; Non ho bisogno di molto.

Voglio sperimentare con l'attuazione di una mappa-ridurre algoritmo.

Detto questo, se solo potessi trovare 100 mega vale la pena di dati di esempio testuali da qualsiasi luogo, che sarebbe anche bene. Per esempio. il database Stack Overflow, se è disponibile, sarebbe forse essere una buona dimensione. Sono aperto a suggerimenti.

Modifica: Qualsiasi che non sono torrenti? Non riesco a ottenere quelle sul posto di lavoro.

Soluzione

La banca dati StackOverflow è disponibile per scaricare .

Altri suggerimenti

Chris, si può solo scrivere un piccolo programma per colpire il link Wikipedia "Pagina a caso" fino ad ottenere 100MB di pagine web: http://en.wikipedia.org/wiki/Special:Random . Ti consigliamo di eliminare i duplicati si potrebbe ottenere, e si potrebbe anche voler limitare il numero di richieste si fanno al minuto (anche se alcune frazioni di articoli sarà servita dalla cache web intermedi, non i server di Wikipedia). Ma dovrebbe essere abbastanza facile.

Se si voleva ottenere una copia del database StackOverflow, si potrebbe fare che dal la creative Commons dump dei dati .

Per curiosità, cosa stai usando tutti questi dati per?

Una possibilità è quella di scaricare l'intero discarica Wikipedia, e quindi utilizzare solo una parte di esso. È possibile decomprimere l'intera cosa e quindi utilizzare un semplice script per dividere il file in file più piccoli (ad esempio, qui ), o se siete preoccupati per lo spazio su disco, è possibile scrivere un qualcosa di uno script che decomprime e si divide al volo, e poi si può arrestare il processo di decompressione in qualsiasi momento si desidera. Wikipedia Dump Reader può venire la tua ispirazione per la decompressione e l'elaborazione al volo, se sei a tuo agio con Python (vedi mparser.py).

Se non si desidera scaricare l'intera cosa, si è lasciato con la possibilità di scarping. Il href="http://en.wikipedia.org/w/index.php?title=Special:Export" rel="nofollow noreferrer"> Export funzione potrebbe essere utile per questo, e il < a href = "http://meta.wikimedia.org/wiki/Using_the_python_wikipediabot" rel = "nofollow noreferrer"> wikipediabot è stato anche suggerito in questo contesto.

Si potrebbe utilizzare un web crawler e raschiare 100 MB di dati?

Ci sono un sacco di wikipedia discariche disponibili. Perché si desidera scegliere il più grande (wiki inglese)? archivi Wikinotizie sono molto più piccoli.

Un sottoinsieme più piccolo di articoli di Wikipedia comprende gli articoli wiki 'meta'. Questo è lo stesso formato XML come l'intero set di dati articolo, ma più piccolo (circa 400MB a partire dal marzo 2019), in modo che possa essere utilizzato per la convalida del software (ad esempio il test script GenSim).

https://dumps.wikimedia.org/metawiki/latest/

Si desidera cercare tutti i file con il suffisso -articles.xml.bz2.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow