SOLR - Omitir sugerencias que devuelvan los mismos documentos que la búsqueda original

https://stackoverflow.com//questions/21027891

21-12-2019
|

Pregunta

Tengo sugerencias de búsqueda que trabajan bastante bien y me gusta que obtenga sugerencias incluso si la palabra clave original devolvió resultados (si tenemos documentos con errores erróneos en nuestra colección).Sin embargo, a menudo, estoy recibiendo sugerencias que devuelven los mismos resultados exactamente.Ex.Yo busco una lata de menta amarilla, recibo "¿Me refieres con las latas de menta amarilla?"

¿Hay alguna manera de eliminar sugerencias que devuelven los mismos resultados que el término original?

Estoy usando SOLR 4.6.0 Aquí está la información de SOLRCONFIG.XML

<searchComponent name="spellcheck" class="solr.SpellCheckComponent"> <str name="queryAnalyzerFieldType">text_general</str>  <lst name="spellchecker"> <str name="name">default</str> <str name="field">spell2</str> <str name="classname">solr.DirectSolrSpellChecker</str>  <str name="distanceMeasure">internal</str>  <float name="accuracy">0.1</float>  <int name="maxEdits">2</int>  <int name="minPrefix">0</int>   <int name="maxInspections">5</int>  <int name="minQueryLength">4</int>  <float name="maxQueryFrequency">0.01</float> </lst>  <lst name="spellchecker"> <str name="name">wordbreak</str> <str name="classname">solr.WordBreakSolrSpellChecker</str> <str name="field">spell2</str> <str name="combineWords">true</str> <str name="breakWords">true</str> <int name="maxChanges">10</int> <str name="buildOnCommit">true</str> <int name="minBreakLength">3</int> </lst> </searchComponent> <requestHandler name="/spell" class="solr.SearchHandler" startup="lazy"> <lst name="defaults"> <str name="echoParams">none</str> <int name="rows">10</int> <str name="df">contents</str> <str name="defType">edismax</str> <str name="spellcheck.dictionary">default</str> <str name="spellcheck.dictionary">wordbreak</str> <str name="spellcheck">on</str> <str name="spellcheck.extendedResults">false</str> <str name="spellcheck.count">10</str> <str name="spellcheck.alternativeTermCount">25</str> <str name="spellcheck.maxResultsForSuggest">25</str> <str name="spellcheck.collate">true</str> <str name="spellcheck.maxCollationTries">10</str> <str name="spellcheck.maxCollations">5</str> <str name="spellcheck.onlyMorePopular">false</str> <str name="spellcheck.collateParam.defType">dismax</str> </lst> <arr name="last-components"> <str>spellcheck</str> </arr> </requestHandler>

Aquí está la información de Schema.xml

Una consulta de ejemplo - http://localhost:8985/solr/(collection)/spell?q=yellow%20buttermints devuelve

<str name="collation">yellow (butter mints)</str> <str name="collation">yellow buttermint</str>

"Buttermints amarillos" y "Butterminta amarilla" devuelve los mismos resultados.

Solución

No creo que haya una forma definida de garantizar esto.Pero esto definitivamente debería ayudar -

Agregue este filtro tanto en la consulta como en el tiempo de índice - InglésMinimaltemFilterFactory

https://cwiki.apache.org/confluence/Pantalla / SOLU / Filtro + Descripciones # FilterDesCriptions-InglésMimalimalTemfilter

No estoy seguro de si la forma en que el trabajo sinónimo defilinación en este caso.Podrías probarlo sin él también

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow