刚开始使用lucene.net。我使用标准分析仪索引了100,000行,进行了一些测试查询,并且注意到复数查询如果原始术语是单数,则不会返回结果。我了解雪球分析仪增加了茎支持,听起来不错。但是,我想知道是否有雪球比标准有任何弊端?我是否会因它而失去什么吗?还有其他分析师要考虑吗?

有帮助吗?

解决方案

是的,通过使用诸如雪球之类的茎,您正在失去有关文本原始形式的信息。有时这将是有用的,有时不有用。

例如,雪球会将“组织”纳入“器官”,因此对“组织”的搜索将以“器官”返回结果,而无需任何得分罚款。

是否适合您的内容取决于您的内容,以及您支持的查询类型(例如,搜索非常基础,或者用户非常复杂,并且使用搜索来准确地过滤结果)。您可能还想调查较少侵略性的茎器,例如 Kemst.

其他提示

雪球 分析仪会增加您的召回率,因为它比标准分析仪更具侵略性。所以你需要 评估 您的搜索结果查看是否需要增加数据 回忆或精确.

我刚刚完成了执行柠檬酸的分析仪。这类似于词干,除了它使用上下文来确定单词类型(名词,动词等)并使用该信息来得出词干。它还将单词的原始形式保留在索引中。也许 我的图书馆 可以对你有用。不过,这需要Lucene Java,我不知道有任何C#/。网络捕捉器。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top