Quale Stemmer parola dovrei usare in NLTK?

https://stackoverflow.com/questions/1264847

13-09-2019
|

Domanda

Il mio obiettivo è quello di analizzare alcuni corpus (Twitter per il momento) per il contenuto emotivo. Proprio oggi mi sono reso conto che sarebbe stato un po 'di senso per la ricerca di parola gambi invece di avere un elenco esaustivo di parole emotiva deriva. E così ho esplorato nltk.stem solo per rendersi conto che ci sono 4 stemmer differenti. Mi piacerebbe chiedere ai linguisti StackOverflow se LancasterStemmer, PorterStemmer, RegexpStemmer, RSLPStemmer, o WordNetStemmer è migliore preferibilmente con qualche giustificazione.

Soluzione

RSLP è per il portoghese. Sto indovinando che si desidera inglese. Regexp richiederebbe di sviluppare le proprie espressioni derivano, quindi penso che può essere ignorato pure. Il WordnetStemmer richiede che si conosce la parte del discorso per la parola, quindi bisogna fare pos codifica prima, al fine di utilizzarlo. Ho usato il portiere derivante algoritmo e la sua abbastanza buono, ma l'algoritmo di Lancaster è più recente, quindi potrebbe essere meglio. Si potrebbe provare a utilizzare una combinazione di stemmer, in cui si sceglie il gambo più breve da ogni Stemmer. In ogni caso, la linea di fondo è che PorterStemmer è una buona scelta di default.

Altri suggerimenti

Può essere un po 'diverso da quello che si sta chiedendo, ma la biblioteca Nodebox Lingustics contiene un is_emotive () funzione che sembra per controllare le parole per vedere se sono iponimi ricorsive di certe parole emotive. Da commonsense.py

    ekman = ["anger", "disgust", "fear", "joy", "sadness", "surprise"]
    other = ["emotion", "feeling", "expression"]

Non è uno Stemmer, ma un approccio interessante per il check-out.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow