質問

私は、インデックス付きのデータベースとSolrのを持っています。私のデータベース内のすべてのデータがラトビアにあります。問題は、私はそれが言葉リガであるかのように言葉リガを検索できるようにする必要があり、です。もちろん、私は同義語を定義することができます - リガ=リガを、私はちょうど定義することができ、その手紙の手紙私ですか?私はsolr.ISOLatin1AccentFilterFactoryについて何かを読んで、しかし、私の知る限り理解されるように、これは、UTF-8エンコーディングのために右ではないでしょうか?アドバイス?

役に立ちましたか?

解決

インデックスとクエリで使用PatternReplaceFilterFactory。右動作しているようだ。

他のヒント

ISOLatin1AccentFilterFactoryは、あなたが探している正確に何...限りアクセントがLatin-1文字セットに存在するようである(UTF-8の下位7ビットは、ラテン-1と同じです)。あなたが言及した私はISOLatin1AccentFilterFactoryは、この特定のケースでは動作しませんので、ISO-8859-1に存在すると表示されません。私はまだあなたが(私はラトビアでの経験を持っていないと仮定すると)おそらくそれが役立ついくつかのラトビア語の文字があるとして、あなたがPatternReplaceFilterFactoryを使用しての世話をするすべての例外に加えて、ISOLatin1AccentFilterFactoryを使用することをお勧めします。

ちなみに、私は実際にISOLatin1AccentFilterFactoryと私のSolrのセットアップに対して試すんでしたし、それがこのケースを助けていない。

のUnicode文字の正規化を提供ICUTokenizerFactoryを見てください。非常に有用と非常に簡単ます。

http://lucene.apache.org/ Solrの/ API /組織/ apacheの/ Solrの/分析/ ICUTokenizerFactory.htmlする

http://site.icu-project.org/する

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top