Detectar os tempos verbais em inglês usando NLTK

https://stackoverflow.com/questions/3434144

26-09-2019
|

Pergunta

Estou procurando uma maneira de uma maneira de uma contagem de texto em inglês frases de verbo nos tempos passados, presentes e futuros. Por enquanto estou usando Nltk, faça uma marcação de POS (parte da fala) e, em seguida, conte 'VBD' para superar os tempos. Porém, isso não é preciso o suficiente, então acho que preciso ir além e usar o Chunking e, em seguida, analise os chunks VP para obter padrões de tempo específicos. Existe algo que exista isso? Alguma leitura adicional que possa ser útil? o Livro NLTK está focado principalmente em Chunks NP, e eu posso encontrar poucas informações sobre Chunks VP.

Solução

A resposta exata depende de qual pedaço que você pretende usar, mas as compreensões da lista levarão um longo caminho. Isso oferece o número de frases verbais usando um pedaço inexistente.

len([phrase for phrase in nltk.Chunker(sentence) if phrase[1] == 'VP'])

Você pode adotar uma abordagem mais fina para detectar um número de tempos.

Outras dicas

Você pode fazer isso com o Parsers de Berkeley ou Stanford Parser. Mas não sei se há uma interface Python disponível para qualquer coisa.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow