为什么我不符合应该的根词的搬运工蒸馏器算法的结果?
-
12-10-2019 - |
题
我需要使用Porter Stemmer算法在应用程序中获取STEM Word,但是当我测试我从中获得的算法时 http://www.tartarus.org/~martin/porterstemmer, ,茎的结果不能给我正确的词干词,例如:快乐 - > happi病毒 - > viru等,您能帮我解决它吗?
解决方案
引用你的 关联:
2.为什么Stemmer不产生适当的单词?
通常认为,茎算法在去除茎后不会留下真实的词,这通常是一个粗略的错误。但是,茎的目的是将单词的变体形式融合在一起,而不是将单词映射到其“范式”形式上。
并与此相关,
3.为什么会有错误?
这个问题通常以这种形式出现,为什么当一个人期望将其驱使到x2时,为什么要驱动x x?重要的是要记住,Stemming算法无法实现完美。总而言之,它将(或可能)提高IR性能,但是在个别情况下,有时可能会造成错误或似乎是错误的错误。当然,这与建议在Stemmer中包含以提高其性能的附加规则不同。
不隶属于 StackOverflow