por qué los resultados del algoritmo de Porter despalilladora que no lo he hecho conforme a la palabra de raíz que debe ser?

StackOverflow https://stackoverflow.com/questions/4516681

Pregunta

i necesidad de algoritmo de uso Porter despalilladora para obtener tema en mi solicitud, pero cuando pruebo el algoritmo que me sale de http://www.tartarus.org/~martin/PorterStemmer , el resultado de la derivada no es dame palabra madre correcta, por ejemplo: feliz -> happi virus -> viru etc. ¿me pueden ayudar a resolver el problema?

¿Fue útil?

Solución

enlace :

2. ¿Por qué la despalilladora no produciendo palabras adecuadas?

A menudo se considera que es un error de crudo que un algoritmo de división no deja una palabra real después de quitar el tallo. Pero el propósito de frenar es traer las formas variantes de una palabra juntos, no para asignar una palabra en su forma ‘paradigma’.

Y relacionado con esto,

3. ¿Por qué hay errores?

La pregunta que normalmente se presenta en forma, ¿por qué debería palabra X puede frenar a x1, cuando uno habría esperado que fuera de tallo a x2? Es importante recordar que el algoritmo de división no puede alcanzar la perfección. A fin de cuentas será (o puede) mejorar el rendimiento de IR, pero en casos individuales que a veces puede hacer que lo son, o lo que parece ser, errores. Por supuesto, esto es una cuestión diferente de lo que sugiere una regla adicional que podrían ser incluidos en la despalilladora para mejorar su rendimiento.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top