Indicizzazione dei contenuti multilingue con Lucene.net

https://stackoverflow.com/questions/553404

23-08-2019
|

Domanda

Lucene.net per l'indicizzazione del contenuto e documenti ecc .. sui siti web. L'indice è molto semplice e ha questo formato:

LuceneId - unique id for Lucene (TypeId + ItemId)
TypeId   - the type of text (eg. page content, product, public doc etc..)
ItemId   - the web page id, document id etc..
Text     - the text indexed
Title    - web page title, document name etc.. to display with the search results

Ho queste opzioni per adattarlo per servire contenuti multilingue:

Creare un indice separato per ogni lingua. Per esempio. Lucene-enGB, Lucene-frFR etc ..
Tenere l'un indice e aggiungere un ulteriore campo 'linguaggio' ad esso per filtrare i risultati.

Qual è l'opzione migliore - o c'è un altro? Io non ho usato più indici, prima quindi sto sporgendosi verso la seconda.

Soluzione

Lo faccio [2], ma un problema che ho è che non posso utilizzare gli analizzatori differenti a seconda della lingua. Ho combinato le parole non significative dei linguaggi che voglio, ma ho perso la capacità di roba più avanzato che l'analizzatore offrire, come derivante etc.

Altri suggerimenti

È possibile eliminare le opzioni 1 e 2.
È possibile utilizzare un indice ei campi che contiene parole arabe creano due Campi per ogni: Se si dispone di campo " testo " potrebbe contenere contenuti arabo o in inglese ==>

Creare 2 campi per " testo ": 1 campo " testo ", indicizzato / cercato con l'analizzatore di serie e un altro, " Text_AR ", con l'arabicAnalyzer. Al fine di raggiungere che è possibile utilizzare PreFieldAnalyzerWrapper

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow