può NLTK / pyNLTK lavoro “per lingua” (vale a dire non in lingua inglese), e come?

https://stackoverflow.com/questions/1795410

22-09-2019
|

Domanda

Come faccio a sapere NLTK di trattare il testo in una lingua particolare?

Una volta ogni tanto scrivo una routine specializzata NLP fare POS tagging, creazione di token, ecc su un non-inglese (ma ancora hindo-europea) dominio di testo.

Questa domanda sembra riguardare solo corpora diverso, non il cambiamento di codice / impostazioni: POS etichettatura in tedesco

In alternativa, ci sono / Spagnolo / moduli polacco NLP specializzati ebraici per Python?

Soluzione

Non sono sicuro di quello che stai facendo riferimento a come i cambiamenti nel codice / impostazioni. NLTK si basa principalmente su di apprendimento automatico e "Impostazioni" sono solitamente estratte dai dati di addestramento.

Quando si tratta di POS codifica i risultati e il tagging sarà dipendente dalla Tagger si utilizza / treno. In caso di allenare la propria avrete ovviamente bisogno di alcuni dati di allenamento spagnolo / polacco. La ragione per cui questi potrebbero essere difficili da trovare è la mancanza di materiale gold standard disponibili al pubblico. Ci sono strumenti di là fuori per farlo fare questo, ma questo non è per python ( http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/ ).

Il nltk.tokenize.punkt.PunktSentenceTokenizer tokenizzatore sarà tokenize frasi in base al limiti della frase multilingue i cui dettagli possono essere trovati in questo documento ( http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485 ).

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow