我正在实施搜索应用程序。语料库是大型文本文档。在文件过程中,我将所有单词都引入所有单词,并调用Porter Stemmer算法step1(http://tartarus.org/~martin/porterstemmer/csharp2.txt)。

Step1摆脱了复数和-ed或-ing ...

我注意到像“这个”这样的单词将被驱使到“ thi”中。

该算法的正常操作吗?由于我想将“这个”一词归为象征。

有帮助吗?

解决方案

从您所描述的,我的直觉是 this 被认为是搬运工茎算法中的复数形式,并降低到 thi.

我找不到针对以结尾的非倍态单词的明确引用 s 在波特的纸上。

http://tartarus.org/~martin/porterstemmer/def.txt

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top