lucene.netを使用した多言語コンテンツのインデックス付け

https://stackoverflow.com/questions/553404

23-08-2019
|

質問

私が使う lucene.net コンテンツやドキュメントなどのインデックス作成用..ウェブサイト上。インデックスは非常にシンプルで、この形式があります。

LuceneId - unique id for Lucene (TypeId + ItemId)
TypeId   - the type of text (eg. page content, product, public doc etc..)
ItemId   - the web page id, document id etc..
Text     - the text indexed
Title    - web page title, document name etc.. to display with the search results

多言語のコンテンツを提供するように適応するためのこれらのオプションがあります：

各言語の個別のインデックスを作成します。例Lucene-engb、Lucene-Frfrなど..
1つのインデックスを保持し、結果をフィルタリングするために追加の「言語」フィールドを追加します。

どちらが最良の選択肢ですか？それとも別の選択肢がありますか？以前に複数のインデックスを使用したことがないので、2番目に傾いています。

解決

私は[2]を実行しますが、私が抱えている問題の1つは、言語に応じて異なるアナライザーを使用できないことです。私は私が望む言語のストップワードを組み合わせましたが、アナライザーがステムを提供するなど、より高度なものの機能を失います。

他のヒント

オプション1と2を削除できます。
1つのインデックスを使用できます。アラビア語を含むフィールドは、それぞれに2つのファイリングを作成します。フィールドがある場合」文章「アラビア語または英語の内容==>が含まれる場合があります

2つのフィールドを作成します」文章「：1フィールド」文章「、標準アナライザーと別のアナライザーでインデックス/検索された」text_ar「、アラビア語と一緒に。それを達成するためにあなたは使用できるPrefieldAnalyzerWrapper

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow