Pregunta

Me estoy poniendo en práctica una aplicación de búsqueda. Corpus es grandes documentos de texto. Durante el proceso de archivo que estoy tokenizar todas las palabras y llamando algoritmo de Porter Stemmer Paso 1 (http://tartarus.org/~martin/PorterStemmer/csharp2.txt).

Paso 1 se deshace de los plurales y -ed o -ing ...

Me di cuenta de que una palabra como 'esto' se originó en 'Thi'.

¿Es que el funcionamiento normal del algoritmo? Como quería tokenize la palabra 'esto'.

¿Fue útil?

Solución

A partir de lo que usted describe, mi impresión es que this se considera como plural en Porter Stemmer algoritmo y reduce a thi.

no encuentro una referencia explícita a las palabras no plurales que terminan con s en el documento de Porter.

http://tartarus.org/~martin/PorterStemmer/def.txt

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top