PNL: costruire corpora (piccoli) o & # 8220; Dove trovare molti file di testo in lingua inglese non troppo specializzati? & # 8221;

StackOverflow https://stackoverflow.com/questions/137380

  •  02-07-2019
  •  | 
  •  

Domanda

Qualcuno ha un suggerimento su dove trovare archivi o raccolte di testo inglese quotidiano da utilizzare in un piccolo corpus? Ho usato i libri del Progetto Gutenberg per un prototipo funzionante e vorrei incorporare un linguaggio più contemporaneo. Una risposta recente qui indica indirettamente una grande archivio delle recensioni dei film di usenet , che non mi era venuto in mente, ed è molto buono. Per questo particolare programma gli archivi di usenet tecnici o la programmazione di mailing list inclinerebbero i risultati e sarebbero difficili da analizzare, ma qualsiasi tipo di testo generale del blog, trascrizioni di chat o qualsiasi cosa possa essere stata utile ad altri, sarebbe molto utile. Inoltre, è molto apprezzato un corpus di ricerca parziale o scaricabile che non sia troppo marcato o un po 'euristico per trovare un sottoinsieme appropriato di articoli di Wikipedia o qualsiasi altra idea.

(A proposito, sto facendo il bravo cittadino durante il download, usando uno script deliberatamente lento che non è impegnativo sui server che ospitano tale materiale, nel caso in cui tu percepisca un rischio morale indicandomi qualcosa di enorme.)

AGGIORNAMENTO : l'utente S0rin sottolinea che wikipedia non richiede la scansione e fornisce questo strumento di esportazione invece. Il progetto Gutenberg ha una politica specificata qui , linea di fondo, cerca di non strisciare, ma se devi: " Configurare il robot in modo che attenda almeno 2 secondi tra le richieste. "

AGGIORNAMENTO 2 Le discariche di wiki sono la strada da percorrere, grazie ai rispondenti che le hanno indicate. Ho finito per usare la versione inglese da qui: http://download.wikimedia.org/enwiki/20090306 / e una discarica spagnola circa la metà delle dimensioni. Sono alcuni lavori da ripulire, ma ne vale la pena e contengono molti dati utili nei collegamenti.


È stato utile?

Soluzione

  • Utilizza le Dump di Wikipedia
    • ha bisogno di molta pulizia
  • Verifica se qualcosa in nltk-data ti aiuta
    • i corpora sono generalmente abbastanza piccoli
  • le Wacky hanno alcuni corpora gratuiti
    • tag
    • puoi eseguire il rider del tuo corpus usando il loro toolkit
  • Europarl è gratuito e la base di praticamente ogni sistema accademico di MT
    • lingua parlata, tradotta
  • I Reuters Corpora sono gratuiti, ma disponibili solo su CD

Puoi sempre procurartene uno tuo, ma attenzione: le pagine HTML richiedono spesso una pulizia approfondita, quindi limitati ai feed RSS.

Se lo fai commercialmente, il LDC potrebbe essere una valida alternativa.

Altri suggerimenti

Wikipedia sembra la strada da percorrere. Esiste un API sperimentale di Wikipedia che potrebbe essere utile, ma non ho idea di come Funziona. Finora ho solo raschiato Wikipedia con ragni personalizzati o anche wget .

Quindi puoi cercare le pagine che offrono il testo completo dell'articolo nei feed RSS. RSS, perché nessun tag HTML ti ostacola.

Scraping mailing list e / o Usenet presenta diversi svantaggi: otterrai AOLbonics e Techspeak, e ciò inclinerà il tuo corpus male.

I corpora classici sono Penn Treebank e British National Corpus, ma sono pagati. Puoi leggere gli archivi dell'elenco Corpora , o anche chiedere loro. Forse troverai dati utili usando gli strumenti Web as Corpus .

In realtà ho un piccolo progetto in costruzione, che consente l'elaborazione linguistica su pagine Web arbitrarie. Dovrebbe essere pronto per l'uso entro le prossime settimane, ma finora non è davvero pensato per essere un raschietto. Ma potrei scrivere un modulo per questo, immagino, la funzionalità è già lì.

Se sei disposto a pagare, controlla i dati disponibili presso il Consorzio di dati linguistici, come Penn Treebank.

Wikipedia sembra essere il modo migliore. Sì, dovresti analizzare l'output. Ma grazie alle categorie di Wikipedia potresti facilmente ottenere diversi tipi di articoli e parole. per esempio. analizzando tutte le categorie scientifiche potresti ottenere molte parole scientifiche. I dettagli sui luoghi verrebbero inclinati verso nomi geografici, ecc.

Hai coperto quelli ovvi. Le uniche altre aree a cui posso pensare di integrare troppo:

1) Articoli / blog di notizie.

2) Le riviste pubblicano molto materiale gratuito online e puoi ottenere una buona sezione trasversale di argomenti.

Guardando i dati di Wikipedia ho notato che avevano fatto alcune analisi su corpi di sceneggiature televisive e cinematografiche . Ho pensato che potrebbe essere un testo interessante ma non facilmente accessibile - si scopre che è ovunque, ed è abbastanza strutturato e prevedibile che dovrebbe essere possibile ripulirlo.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top