pregunta Porter Stemmer algoritmo

https://stackoverflow.com/questions/4113902

search
indexing
porter-stemmer

29-09-2019
|

Pregunta

Me estoy poniendo en práctica una aplicación de búsqueda. Corpus es grandes documentos de texto. Durante el proceso de archivo que estoy tokenizar todas las palabras y llamando algoritmo de Porter Stemmer Paso 1 (http://tartarus.org/~martin/PorterStemmer/csharp2.txt).

Paso 1 se deshace de los plurales y -ed o -ing ...

Me di cuenta de que una palabra como 'esto' se originó en 'Thi'.

¿Es que el funcionamiento normal del algoritmo? Como quería tokenize la palabra 'esto'.

Solución

A partir de lo que usted describe, mi impresión es que this se considera como plural en Porter Stemmer algoritmo y reduce a thi.

no encuentro una referencia explícita a las palabras no plurales que terminan con s en el documento de Porter.

http://tartarus.org/~martin/PorterStemmer/def.txt

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow