domanda Porter Stemmer algoritmo
-
29-09-2019 - |
Domanda
Io sono l'attuazione di un applicazione di ricerca. Corpus è di grandi dimensioni documenti di testo. Durante il processo di file sto creazione di token tutte le parole e chiamando algoritmo Porter Stemmer Step1 (http://tartarus.org/~martin/PorterStemmer/csharp2.txt).
Step1 si libera di plurali e -ed o -ing ...
ho notato che una parola come 'questo' sarà derivava in 'Thi'.
E 'questo il normale funzionamento dell'algoritmo? Dal momento che ho voluto tokenize la parola 'questo'.
Soluzione
Da ciò che si descrive, la mia impressione è che this
è considerato come forma plurale a Porter Stemmer algoritmo e ridotto a thi
.
Non trovo un riferimento esplicito alle parole non plurali che terminano con s
in carta di Porter.