Precisa de explicação sobre Language Stemmer do Solr
Pergunta
Estou usando o nutch com Solr para desenvolver um mecanismo de busca para textos em árabe.Preciso implementar um lematizador em meus textos em árabe e, ao pesquisar no Solr Stemmer, descobri que ele fornece esses dois filtros
<filter class="solr.ArabicNormalizationFilterFactory"/>
<filter class="solr.ArabicStemFilterFactory"/>
Eu tentei, mas não entendi o que eles fazem ..Então, por favor, alguém pode me ajudar com alguns exemplos?
e esses dois fazem isso:
العملات Originado em عملة
البسَاتِين, بساتينكم Originado em بستان
obrigado.
Solução
Você pode encontrar alguns detalhes aqui: http://lucene.apache.org/core/3_6_0/api/contrib-analyzers/org/apache/lucene/análise/ar/ArabicStemmer.html
Isso diz:
O stemming é definido como:
- Remoção do artigo definido, conjunção e preposições anexados.
- Derivação de sufixos comuns.