Pregunta

Lucene.net para la indexación de contenidos y documentos, etc .. en los sitios web. El índice es muy simple y tiene el siguiente formato:

LuceneId - unique id for Lucene (TypeId + ItemId)
TypeId   - the type of text (eg. page content, product, public doc etc..)
ItemId   - the web page id, document id etc..
Text     - the text indexed
Title    - web page title, document name etc.. to display with the search results

Tengo estas opciones para adaptarlo a servir contenido en varios idiomas:

  1. Crear un índice separado para cada idioma. P.ej. Lucene-esES, Lucene-frfr etc ..
  2. Mantenga el índice y añadir un campo adicional 'lenguaje' a ella para filtrar los resultados.

¿Cuál es la mejor opción - o hay otra? No he utilizado varios índices antes, así que estoy inclinando hacia el segundo.

¿Fue útil?

Solución

que hago [2], pero un problema que tengo es que no puedo utilizar diferentes analizadores en función del idioma. He combinado las palabras vacías de los idiomas que quiero, pero pierdo la capacidad de más cosas avanzadas que el analizador ofrecerá tales como derivados, etc.

Otros consejos

Puede eliminar la opción 1 y 2.
Se puede usar un índice y los campos que contiene palabras en árabe crean dos campos campos para cada uno: Si tiene campo " texto " podría contener contenidos árabe, en inglés ==>

  • Crear 2 campos de " texto ": 1 campo " texto ", indexado / buscó con su analizador estándar y de otra, " Text_AR ", con el arabicAnalyzer. Con el fin de lograr que se puede utilizar PreFieldAnalyzerWrapper
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top