pourquoi les résultats du portier algorithme de égrappoir que je n'ai pas conformément à la racine du mot qui devrait être?

StackOverflow https://stackoverflow.com/questions/4516681

Question

je dois porter algorithme utiliser stemmer pour obtenir la tige mot dans ma demande, mais quand je teste l'algorithme que je reçois http://www.tartarus.org/~martin/PorterStemmer , le résultat d'endiguer est me donne pas mot de la tige correcte, par exemple: heureux -> Happi virus -> Viru etc pouvez-vous me aider à le résoudre?

Était-ce utile?

La solution

Je cite votre href="http://tartarus.org/~martin/PorterStemmer/" :

  

2. Pourquoi l'égrappoir ne produit pas les mots appropriés?

     

Il est souvent considéré comme une erreur brute qu'un algorithme de lemmatisation ne laisse pas un vrai mot après avoir enlevé la tige. Mais le but d'endiguer est d'apporter des formes variantes d'un mot ensemble, pas un mot sur la carte sa forme de « paradigme ».

     

Et en rapport avec ceci,

     

3. Pourquoi y at-il des erreurs?

     

La question est normalement sous la forme, pourquoi mot doit être X à x1 provient, quand on aurait pu s'y attendre à x2 à tige? Il est important de se rappeler que l'algorithme de lemmatisation ne peut pas atteindre la perfection. Le solde il (ou peut) d'améliorer les performances IR, mais dans certains cas, il peut parfois faire ce sont, ou ce qui semble être, des erreurs. Bien sûr, cela est une autre question de suggérer une règle supplémentaire qui pourrait être inclus dans l'égrappoir pour améliorer ses performances.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top