Pergunta

Estou usando o nutch com Solr para desenvolver um mecanismo de busca para textos em árabe.Preciso implementar um lematizador em meus textos em árabe e, ao pesquisar no Solr Stemmer, descobri que ele fornece esses dois filtros

<filter class="solr.ArabicNormalizationFilterFactory"/>

<filter class="solr.ArabicStemFilterFactory"/>

Eu tentei, mas não entendi o que eles fazem ..Então, por favor, alguém pode me ajudar com alguns exemplos?

e esses dois fazem isso:

العملات Originado em عملة

البسَاتِين, بساتينكم Originado em بستان

obrigado.

Foi útil?

Solução

Você pode encontrar alguns detalhes aqui: http://lucene.apache.org/core/3_6_0/api/contrib-analyzers/org/apache/lucene/análise/ar/ArabicStemmer.html

Isso diz:

O stemming é definido como:

  • Remoção do artigo definido, conjunção e preposições anexados.
  • Derivação de sufixos comuns.
Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top