Pregunta

Tengo Solr con base de datos indexada. En mi base de datos todos los datos están en Letón. El problema es que tengo que ser capaz de buscar la palabra Riga como si fuera palabra Riga. Por supuesto, puedo definir sinónimo - Riga = Riga, pero sólo puedo definir, esa letra i es letra i? He leído algo sobre solr.ISOLatin1AccentFilterFactory, pero por lo que he entendido, esto no es para codificación UTF-8, ¿verdad? Consejos?

¿Fue útil?

Solución

Se utiliza con PatternReplaceFilterFactory índice y consulta. Parece estar funcionando bien.

Otros consejos

ISOLatin1AccentFilterFactory es exactamente lo que está buscando ... siempre y cuando el acento existe en el conjunto de caracteres Latin-1 (7 bits más bajos de UTF-8 son idénticos a los latino-1). El i que usted ha mencionado no parece existir en la norma ISO-8859-1 por lo ISOLatin1AccentFilterFactory no funcionará en este caso específico. Aun así, recomendaría que utilizar ISOLatin1AccentFilterFactory además de las excepciones que se cuide de utilizar PatternReplaceFilterFactory que probablemente hay algunos caracteres de Letonia que va a ayudar (suponiendo, no tengo experiencia con Letonia)

Para su información, que de hecho me probé la contra mi configuración Solr con ISOLatin1AccentFilterFactory y no ayudó este caso.

Mira ICUTokenizerFactory que proporciona la normalización de caracteres Unicode. Extremadamente útil y muy fácil.

http://lucene.apache.org/ Solr / api / org / apache / Solr / análisis / ICUTokenizerFactory.html

http://site.icu-project.org/

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top