Solr - オリジナル検索と同じ文書を返す提案をスキップする

https://stackoverflow.com//questions/21027891

21-12-2019
|

質問

私は検索提案をかなりよく働いています、そして私は元のキーワードが結果を返しても提案が得られます（私達が私達のコレクションのミスペリスで文書を持っているならば）。しかし、しばしば同じ結果を返す提案が得られます。ex。私は黄色のミントティンを検索します、私は「黄色のミント缶を意味しましたか？」

元の用語と同じ結果を返す提案を除去する方法はありますか？

Solr 4.6.0を使っていますこれがsolrconfig.xml

からの情報です。
<searchComponent name="spellcheck" class="solr.SpellCheckComponent"> <str name="queryAnalyzerFieldType">text_general</str>  <lst name="spellchecker"> <str name="name">default</str> <str name="field">spell2</str> <str name="classname">solr.DirectSolrSpellChecker</str>  <str name="distanceMeasure">internal</str>  <float name="accuracy">0.1</float>  <int name="maxEdits">2</int>  <int name="minPrefix">0</int>   <int name="maxInspections">5</int>  <int name="minQueryLength">4</int>  <float name="maxQueryFrequency">0.01</float> </lst>  <lst name="spellchecker"> <str name="name">wordbreak</str> <str name="classname">solr.WordBreakSolrSpellChecker</str> <str name="field">spell2</str> <str name="combineWords">true</str> <str name="breakWords">true</str> <int name="maxChanges">10</int> <str name="buildOnCommit">true</str> <int name="minBreakLength">3</int> </lst> </searchComponent> <requestHandler name="/spell" class="solr.SearchHandler" startup="lazy"> <lst name="defaults"> <str name="echoParams">none</str> <int name="rows">10</int> <str name="df">contents</str> <str name="defType">edismax</str> <str name="spellcheck.dictionary">default</str> <str name="spellcheck.dictionary">wordbreak</str> <str name="spellcheck">on</str> <str name="spellcheck.extendedResults">false</str> <str name="spellcheck.count">10</str> <str name="spellcheck.alternativeTermCount">25</str> <str name="spellcheck.maxResultsForSuggest">25</str> <str name="spellcheck.collate">true</str> <str name="spellcheck.maxCollationTries">10</str> <str name="spellcheck.maxCollations">5</str> <str name="spellcheck.onlyMorePopular">false</str> <str name="spellcheck.collateParam.defType">dismax</str> </lst> <arr name="last-components"> <str>spellcheck</str> </arr> </requestHandler>
.

schema.xml

からの情報
<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100"> <analyzer type="index"> <tokenizer class="solr.StandardTokenizerFactory"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /> <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> <analyzer type="query"> <tokenizer class="solr.StandardTokenizerFactory"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /> <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> </fieldType> <field name="spell2" type="text_general" indexed="true" stored="false" required="false" multiValued="true" />
.

クエリの例 - http://localhost:8985/solr/(collection)/spell?q=yellow%20buttermints

を返します
<str name="collation">yellow (butter mints)</str> <str name="collation">yellow buttermint</str>
.

「黄色い蝶」と「黄色い蝶」は同じ結果を返します。

解決

これを保証する明確な方法があるとは思わない。しかし、これは間違いなく助けるべきです -

このフィルタをqueryとindex timeの両方に追加する - EnglishMinimalstemFilterFactory

https://cwiki.apache.org/confluence/ディスプレイ/ SOLR /フィルタ+説明＃フィルタ解説 - EnglishMinimalstemFilter

この場合、同義語の熟考作業がどのように機能するかどうかはわかりません。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow