题
我正在使用solr的rug,用于开发用于阿拉伯语文本的搜索引擎。我需要在我的阿拉伯语文本上实施一个词根,而在Solr Sewermer上的同时,我发现它提供了这两个过滤器
<filter class="solr.ArabicNormalizationFilterFactory"/>
<filter class="solr.ArabicStemFilterFactory"/>
我试过他们但不明白他们做了什么..所以请任何人帮我一些例子?
并执行这两个:
العملات源于عملة
البیاتين,بساتينسم源于بستان
谢谢。
解决方案
您可以在此处找到一些细节: http://lucene.apache.org/core/3_6_0/api/contrib-analyzers/org/apache/lucene/analysis/ar/arabicstemmer.html
说:
Stemming被定义为:
- 删除附加的明确文章,结合和介词。
- 常见后缀的鼻塞。
不隶属于 StackOverflow