Pergunta

Como posso dizer ao NLTK para tratar o texto em um idioma específico?

De vez em quando, escrevo uma rotina especializada em NLP para fazer marcação de POS, tokenizing e etc. em um domínio de texto não inglês (mas ainda hindus-europeu).

Esta questão parece abordar apenas diferentes corpora, não a alteração no código/configurações:POS marcando em alemão

Como alternativa, existem módulos de NLP hebraico/espanhol/polonês especializados para Python?

Foi útil?

Solução

Não tenho certeza do que você está se referindo como as alterações no código/configurações. O NLTK depende principalmente do aprendizado de máquina e das "configurações" geralmente são extraídas dos dados de treinamento.

Quando se trata de POS, a marcação dos resultados e a marcação dependerão do tagger que você usa/trem. Se você treinar o seu próprio, é claro que precisará de alguns dados de treinamento em espanhol / polonês. A razão pela qual pode ser difícil encontrar é a falta de material padrão -ouro disponível publicamente. Existem ferramentas por aí para fazer isso, mas esta não é para Python (http://www.ims.uni-stuttgart.de/projekte/corplex/treetagger/).

O tokenizer nltk.tokenize.punkt.punktSentenceTokenizer tokenizará as frases de acordo com os limites multilíngues da frase cujos detalhes podem ser encontrados neste artigo (http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485).

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top