può NLTK / pyNLTK lavoro “per lingua” (vale a dire non in lingua inglese), e come?
Domanda
Come faccio a sapere NLTK di trattare il testo in una lingua particolare?
Una volta ogni tanto scrivo una routine specializzata NLP fare POS tagging, creazione di token, ecc su un non-inglese (ma ancora hindo-europea) dominio di testo.
Questa domanda sembra riguardare solo corpora diverso, non il cambiamento di codice / impostazioni: POS etichettatura in tedesco
In alternativa, ci sono / Spagnolo / moduli polacco NLP specializzati ebraici per Python?
Soluzione
Non sono sicuro di quello che stai facendo riferimento a come i cambiamenti nel codice / impostazioni. NLTK si basa principalmente su di apprendimento automatico e "Impostazioni" sono solitamente estratte dai dati di addestramento.
Quando si tratta di POS codifica i risultati e il tagging sarà dipendente dalla Tagger si utilizza / treno. In caso di allenare la propria avrete ovviamente bisogno di alcuni dati di allenamento spagnolo / polacco. La ragione per cui questi potrebbero essere difficili da trovare è la mancanza di materiale gold standard disponibili al pubblico. Ci sono strumenti di là fuori per farlo fare questo, ma questo non è per python ( http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/ ).
Il nltk.tokenize.punkt.PunktSentenceTokenizer tokenizzatore sarà tokenize frasi in base al limiti della frase multilingue i cui dettagli possono essere trovati in questo documento ( http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485 ).