pregunta Porter Stemmer algoritmo
-
29-09-2019 - |
Pregunta
Me estoy poniendo en práctica una aplicación de búsqueda. Corpus es grandes documentos de texto. Durante el proceso de archivo que estoy tokenizar todas las palabras y llamando algoritmo de Porter Stemmer Paso 1 (http://tartarus.org/~martin/PorterStemmer/csharp2.txt).
Paso 1 se deshace de los plurales y -ed o -ing ...
Me di cuenta de que una palabra como 'esto' se originó en 'Thi'.
¿Es que el funcionamiento normal del algoritmo? Como quería tokenize la palabra 'esto'.
Solución
A partir de lo que usted describe, mi impresión es que this
se considera como plural en Porter Stemmer algoritmo y reduce a thi
.
no encuentro una referencia explícita a las palabras no plurales que terminan con s
en el documento de Porter.