chunking / text analisar usando NLTK

https://stackoverflow.com/questions/1694941

18-09-2019
|

Pergunta

Eu estou tentando analisar um texto e diagramar-lo, como se fosse uma frase. Eu sou novo para NLTK e estou tentando encontrar algo no NLTK que vai me ajudar a conseguir isso. Até agora, tenho visto nltk.ne_chunk e nltk.pos_tag. Eu encontrá-los para não ser muito útil e eu não sou capaz de encontrar qualquer boa documentação online.

Eu também tentei usar o LancasterStemmer, mas eu não compreendo perfeitamente o que ele faz ou como ele deve ser usado ou por que ainda existe.

Pode alguém por favor me ajudar com isso? Estou realmente em uma perda e ficar bastante frustrado sem quaisquer luzes de orientação.

Agradecemos antecipadamente

Solução

O que você está descrevendo é realmente uma tarefa muito difícil, como no final, se o seu programa foi bem sucedido ou não é uma medida totalmente subjetivo. Quando este for o caso, isso normalmente significa a construção de um programa para resolver o problema é difícil. Há pessoas que são pagas para trabalhar sobre estes problemas género em universidades.

Se você queria ter uma facada nele, eu sugiro tentar para usar algum tipo de ferramenta de análise lexical automatizada em vez de tentar manualmente de análise e anotar, em seguida, alavancar sua árvore de análise. Normalmente sintáticas-árvores representam análises sintáticas, ou seja, a estrutura da frase. Você, por outro lado estão preocupados sim com análise semântica, ou seja, o que significa - ou pelo menos se duas frases são semelhantes ou diferentes (que na verdade é um pouco mais fácil do que o que significa alguma coisa)

Você pode olhar para alguns off-the-shelf ferramentas automáticas de sumarização. Estes tentar frases de pontuação pela forma como eles são importantes para um pedaço de texto e filtrar as frases que são menos importantes do que um limite especificado. Não que isso realmente ajuda você que tanto quanto você ainda tem o problema da necessidade da fusão dos resumos.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow