Indicizzazione dei contenuti multilingue con Lucene.net
-
23-08-2019 - |
Domanda
Lucene.net per l'indicizzazione del contenuto e documenti ecc .. sui siti web. L'indice è molto semplice e ha questo formato:
LuceneId - unique id for Lucene (TypeId + ItemId) TypeId - the type of text (eg. page content, product, public doc etc..) ItemId - the web page id, document id etc.. Text - the text indexed Title - web page title, document name etc.. to display with the search results
Ho queste opzioni per adattarlo per servire contenuti multilingue:
- Creare un indice separato per ogni lingua. Per esempio. Lucene-enGB, Lucene-frFR etc ..
- Tenere l'un indice e aggiungere un ulteriore campo 'linguaggio' ad esso per filtrare i risultati.
Qual è l'opzione migliore - o c'è un altro? Io non ho usato più indici, prima quindi sto sporgendosi verso la seconda.
Soluzione
Lo faccio [2], ma un problema che ho è che non posso utilizzare gli analizzatori differenti a seconda della lingua. Ho combinato le parole non significative dei linguaggi che voglio, ma ho perso la capacità di roba più avanzato che l'analizzatore offrire, come derivante etc.
Altri suggerimenti
È possibile eliminare le opzioni 1 e 2.
È possibile utilizzare un indice ei campi che contiene parole arabe creano due Campi per ogni:
Se si dispone di campo " testo " potrebbe contenere contenuti arabo o in inglese ==>
- Creare 2 campi per " testo ": 1 campo " testo ", indicizzato / cercato con l'analizzatore di serie e un altro, " Text_AR ", con l'arabicAnalyzer. Al fine di raggiungere che è possibile utilizzare PreFieldAnalyzerWrapper