Que stemmer palavra que eu deveria usar nltk?

https://stackoverflow.com/questions/1264847

13-09-2019
|

Pergunta

Meu objetivo é analisar alguns corpus (o twitter para o agora) para o conteúdo emocional. Só hoje eu percebi que faria um pouco de sentido para pesquisar por palavra deriva em oposição a ter uma lista exaustiva de palavra emocional hastes. E então eu tenho vindo a explorar nltk.stem apenas para perceber que existem 4 derivações diferentes. Eu gostaria de perguntar aos linguistas stackoverflow se LancasterStemmer, PorterStemmer, RegexpStemmer, RSLPStemmer, ou WordNetStemmer é melhor preferência com alguma justificação.

Solução

RSLP é para português. Eu estou supondo que você quer Inglês. Regexp exigiria que você desenvolva suas próprias expressões decorrentes, então eu acho que pode ser ignorado também. O WordnetStemmer requer que você saiba o part-of-speech para a palavra, para que você teria que fazer pos marcação no primeiro fim de usá-lo. Eu usei o porteiro decorrentes algoritmo e sua muito bom, mas o algoritmo de Lancaster é mais recente, por isso pode ser melhor. Você pode querer tentar usando uma combinação de derivações, onde você escolhe a haste mais curta de cada stemmer. De qualquer forma, a linha inferior é que PorterStemmer é uma boa escolha padrão.

Outras dicas

Pode ser um pouco diferente do que você está pedindo, mas a biblioteca Nodebox lingustics contém um is_emotive () função que parece verificar palavras para ver se eles são hipónimos recursiva de certas palavras emocionais. De commonsense.py

    ekman = ["anger", "disgust", "fear", "joy", "sadness", "surprise"]
    other = ["emotion", "feeling", "expression"]

Não é um stemmer, mas uma abordagem interessante para check-out.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow