Question

J'ai un indice Lucene relativement simple, servi par Solr. L'indice se compose de deux grands domaines, le titre et le corps, et quelques champs moins importants.

La plupart des moteurs de recherche donnent plus de pertinence aux résultats des matchs dans le titre, sur le corps. Je vais commencer à fournir un coup de pouce à temps index le champ titre.

Ma question est, quelles sont les valeurs que les gens utilisent généralement pour leurs champs de titre? 2? 4? dix? 100?

Était-ce utile?

La solution

Je vous suggère de diviser la longueur du corps médian par la longueur du titre médiane. Ce gros vous donne un facteur M - pour les apparences M d'un mot dans le corps, il apparaîtra une fois dans le titre. Maintenant, utilisez quelque chose comme M * 3. Ceci est, bien sûr, une heuristique rationalisée, et il est préférable que vous itérer sur les valeurs. Voir Grant Ingersoll « de Debugging Pertinence questions en Recherche " pour une discussion beaucoup plus structurée.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top