Вопрос

У меня есть относительно простой индекс Lucene, обслуживаемый Solr.Индекс состоит из двух основных полей, title и body, и нескольких менее важных полей.

Большинство поисковых систем придают большую релевантность результатам с совпадениями в заголовке, а не в основной части.Я собираюсь начать увеличивать время индексации поля заголовка.

Мой вопрос в том, какие значения люди обычно используют для своих полей заголовка?2?4?10?100?

Это было полезно?

Решение

Я предлагаю вам разделить среднюю длину основного текста на среднюю длину заголовка.Это примерно дает вам коэффициент M - при M появлениях слова в основной части оно появится один раз в названии.Теперь используйте что-то вроде M * 3.Это, конечно, рационализированная эвристика, и лучше всего вам перебирать значения.Видишь Грант Ингерсолл "Устранение проблем с релевантностью в поиске" для гораздо более структурированного обсуждения.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top