有一个红宝石茎 https://github.com/aurelian/ruby-stemmer, ,但它1)不会阻止英语不规则动词2)无法在窗户上构建本机扩展。是否有一种解决至少一个问题的替代方法?

有帮助吗?

解决方案

我认为您应该搜索柠檬粉碎机(具有有关形态的信息并可以处理不规则的单词),而不是词干(通常只是在单词的末端掉落)。看 这个解释 在Manning,Raghavan和Schütze关于信息检索的在线书。

我还没有尝试过,但是很快就遇到了这个英语柠檬水仪:Ruby: Elemma.

可以做lematization的常用(非橡胶)英语形态分析仪是 morpha.

其他提示

没有一个词干能够用英语处理不规则动词。

我在谷歌搜索Ruby的NLP时找到了这一点 http://mendicantbug.com/2009/09/13/nlp-resources-for-ruby/

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top