我需要使用Porter Stemmer算法在应用程序中获取STEM Word,但是当我测试我从中获得的算法时 http://www.tartarus.org/~martin/porterstemmer, ,茎的结果不能给我正确的词干词,例如:快乐 - > happi病毒 - > viru等,您能帮我解决它吗?

有帮助吗?

解决方案

引用你的 关联:

2.为什么Stemmer不产生适当的单词?

通常认为,茎算法在去除茎后不会留下真实的词,这通常是一个粗略的错误。但是,茎的目的是将单词的变体形式融合在一起,而不是将单词映射到其“范式”形式上。

并与此相关,

3.为什么会有错误?

这个问题通常以这种形式出现,为什么当一个人期望将其驱使到x2时,为什么要驱动x x?重要的是要记住,Stemming算法无法实现完美。总而言之,它将(或可能)提高IR性能,但是在个别情况下,有时可能会造成错误或似乎是错误的错误。当然,这与建议在Stemmer中包含以提高其性能的附加规则不同。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top