문제

사용자의 태그와 Mahout에 의해 분류 된 Lucene에 의해 인덱싱 될 기사의 데이터베이스가 있습니다.기사는 태그에 특정 점수를 갖게됩니다 (사용자가 동의하거나 태그에 동의하거나 Mahout에 의해 발견 된 태그가 사용자와 동일하게 처리됩니다).

프로필 및 상호 작용 기록에서 사용자의 관심사 (특정 태그에 대한 관심)를 찾고 싶습니다.

사용자의 관심을 어떻게 저장할 수 있습니까? 그리고 사용자의 관심을 검색하거나 검색 결과를 정렬하거나 필터링 할 수 있습니까?

내 접근 방식이 가능합니까?실현 가능 한?확장 가능?
어떤 기술과 알고리즘을 사용할 수 있습니까?제안하십시오!

도움이 되었습니까?

해결책

이 소리는 주로 검색 문제가 있으며 추천 문제가 아닙니다. 주로 태그를 기반으로 검색 결과를 주로 정렬하고 필터링합니다. 나는 Lucene이 일반적으로 Mahout가 아닌 배치 할 수있는 도구라고 생각합니다. (Mahout Classifiers를 사용하여 태그를 배우기 위해 사용하지만)

이 문제를 추천자 문제로 상상하고 싶다면 상품이 태그라고 말할 수 있습니다. 페이지 태그가 지정된 x, y 및 z와 같은 태그와 상호 작용하는 시간은 언제든지 "항목"x, y 및 z에 조금 더 관심이 있음을 나타내는 다음 추천 문제점이 새 태그를 제안하는 것입니다. 관심.

숫자와의 숫자와 함께 태그와의 간단한 상호 작용 수를 사용하여 숫자 "등급"으로 훌륭한 결과를주지 않을 것이라고 생각합니다. 횟수 기록을 사용하면 더 좋지만 여전히 잘못된 느낌이 들었습니다. 상호 작용 수를 무시할 수 있으며 사용자와 태그가 상호 작용했거나 - "부울 환경 설정"을 사용하지 않았 음을 사용합니다.

이 입력에 가장 잘 맞는 추천자 알고리즘 모델은 내가 알고있는 것으로 알고있는 것으로 알고있는 모델은 병렬 성장 조사에서 볼 수있는 최소 제곱 모델입니다. 나는 그게 당신에게 쓸모 없는지 모르지만, 당신이 시간과 성향이 있는지 조사 할 알고리즘은 알고리즘입니다. 그 입력은 등급이 아니라 "상호 작용 강도"와 더 많은 것입니다. 그런 식으로 대우하고, 그것은 당신이 여기에있는 것입니다.

다른 팁

많은 시간에 사용자가 관심있는 태그를 명시 적으로 명시 적으로 말하는 것이 더 쉽습니다. 이것은 예를 들어 스택 오버 플로우가 수행하는 것입니다.태그가 하나 인 경우 점수를 약간 늘릴 수 있습니다.

더 이상 암시적이고 싶다면 mahout은 FAQ 추천

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top