题
我正在实施搜索应用程序。语料库是大型文本文档。在文件过程中,我将所有单词都引入所有单词,并调用Porter Stemmer算法step1(http://tartarus.org/~martin/porterstemmer/csharp2.txt)。
Step1摆脱了复数和-ed或-ing ...
我注意到像“这个”这样的单词将被驱使到“ thi”中。
该算法的正常操作吗?由于我想将“这个”一词归为象征。
解决方案
从您所描述的,我的直觉是 this
被认为是搬运工茎算法中的复数形式,并降低到 thi
.
我找不到针对以结尾的非倍态单词的明确引用 s
在波特的纸上。
不隶属于 StackOverflow