Solr:ストリップ句読点の前にindex

https://stackoverflow.com/questions/3149850

01-10-2019
|

質問

私有の問題を現象句読点から、solr指数ときは、句読点を看板に従直後の言葉そしてこの言葉がまさに連動させません。

例えば:またインデックス"こんにちはジョン"は、資産になるキーワード"こんにちは"がありませんの問題が取り外しておりますカンマの後で"hello"とします。

はありまFilterFactoryるいグレーのクラムシェル型クランプ取締役社長に事故?そのアイデア?

おかげさ Bogdan.

正しい解決策はありません

他のヒント

使用できます solr.PatternReplaceFilterFactory これを使用して始まりと後続の句読点を取り除くには：

<filter class="solr.PatternReplaceFilterFactory"
    pattern="^\p{Punct}*(.*?)\p{Punct}*$"
    replacement="$1"/>

そして、（たとえば）単語の前でのドルの署名を除いて、最初と最後にすべての句読点を取り除きたい場合は、これを使用できます。

<filter class="solr.PatternReplaceFilterFactory"
    pattern="^[\p{Punct}&&[^$]]*(.*?)\p{Punct}*$"
    replacement="$1"/>

これは、worddelimiterfilterfactoryで行われます。 GenerateWordParts = 1を設定します。

あります PatternTokenizerFactory それは使用できますが、私はそれを試したことがありません。

PatternReplaceFilterFactoryを使用します

<!-- remove punctuation -->
    <filter class="solr.PatternReplaceFilterFactory" pattern="^(\p{Punct}*)(.*?)(\p{Punct}*)$" replacement="$2"/>
    <filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.StandardFilterFactory"/>
    <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
  </analyzer>

...

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow