"관련 검색"기능을 수행하는 방법

https://stackoverflow.com/questions/123900

02-07-2019
|

문제

검색을 수행 할 때 관련 검색을 나열하는 몇 가지 사이트를 보았습니다. 즉, 관심있는 다른 검색 쿼리를 제안합니다.

중간 크기의 사이트에서 이것을 모델링하는 가장 좋은 방법이 궁금합니다 (관계를 추론하기 위해 방문자 통계에 의존하기에 충분한 트래픽이 아님). 나의 초기 생각은 각 고유 한 쿼리에 대해 상위 10 위 결과를 저장하는 것인데, 새로운 검색이 수행되면 상위 10 가지 결과의 어느 정도 일치하지만 이상적으로는 모두 일치하지 않는 모든 역사적 검색을 찾을 때 동등한 검색을 제안하므로 제안만큼 유용하지 않습니다).

일부 사람들은 이전 에이 기능을 수행 했으며이 기능을 수행 할 수있는 다른 방법에 대한 아이디어를 제공 할 수 있다고 생각합니다. 솔루션이 사이트의 크기와 특성에 따라 실질적으로 다를 것이기 때문에 반드시 하나의 승리 아이디어를 찾고있는 것은 아닙니다.

해결책

1 축에서 키워드와 다른 축의 문서의 매트릭스를 고려 했습니까? 키워드를 나타내는 수의사 세트를 찾으면 초기 결과 세트에서 찾은 키워드 세트를 찾은 다음 참조하는 문서 수 또는 세트 결과 세트를 몇 번이나 횟수로 다른 키워드를 순위하는 방법을 찾으십시오. .

다른 팁

나는 다양한 수준의 성공과 함께 이것에 대해 여러 가지 다른 접근법을 시도했습니다. 결국, 최선의 접근 방식은 검색중인 도메인/주제와 사용자가 쿼리를 형성하는 방법에 크게 의존한다고 생각합니다.

이전 검색을 저장하는 것에 대한 당신의 생각은 저에게 합리적입니다. 나는 그것이 실제로 어떻게 작동하는지 궁금합니다.

다음은 과거에 사용했으며 문헌에서 본 몇 가지 기술입니다.

동의어 사전 기반 접근법 : 사용자가 사용한 각 용어에 대해 동의어 사전에 색인 한 다음 휴리스틱을 사용하여 동의어를 필터링하여 사용자를 가능한 검색어로 표시합니다.
줄기와 검색 : 검색어를 줄이기 (예 : Porter Stemming 알고리즘 그런 다음 처음에 제공된 쿼리 대신 줄기 용어를 사용하고 사용자에게 검색 옵션을 제공합니다. 바로 그거죠 그들이 지정한 용어 (또는 반대, 정확한 용어를 먼저 검색하고, 스템 밍을 사용하여 동일한 루트에 대한 용어를 찾으십시오.이 두 번째 접근법은 분명히 알려진 사전의 사전 처리가 필요하거나 용어를 다음과 같이 수집 할 수 있습니다. 당신의 색인 용어는 그것들을 찾습니다.)
체인 : 사용자의 쿼리에서 찾은 결과를 구문 분석하고 상단 n 결과에서 주요 용어를 추출합니다 (케아 키워드 추출 기술을 볼 수있는 하나의 라이브러리/알고리즘입니다.)

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow