我正在为我正在开发的项目提供一个很好的词干算法。有人建议我看看Porter Stemmer。当我查看Porter stemmer上的页面时,我发现现在已经弃用了它,而不是“Snowball”。词干。

我需要一个好的词干,但我真的不能花大量时间来实现(或优化)我自己的。什么是最好的“现成的”,可免费使用的提取器?是否有合理价格的非自由阀杆?或者,Snowball阻尼器是我最好的选择吗?

有帮助吗?

解决方案

Porter2 限制器是我决定使用的。似乎搬运工的主干是标准的,但当我找到作者的页面时,他推荐了“Snowball(Porter2)”。词干。此页面上有一个C端口链接。

其他提示

这实际上取决于您计划如何应用它。自然语言工具包( http://nltk.sourceforge.net )中实现了许多词干分析器,应该能够处理大多数应用程序。我更喜欢Morphy的干细胞。

当然,它可以在Python中使用,因此如果您正在使用其他语言,您可以随时查看代码以收集算法并将其转换为您选择的语言。 Python具有很强的可读性。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top