Вопрос

У меня есть база данных статей, которые будут проиндексированы Lucene, классифицированные по тегу пользователя и Mahout.Статьи будут иметь определенный балл для тега (пользователь может согласиться или не согласен с тегом, теги, обнаруженные Mahout, будут рассматриваться так же, как и пользователь).

Я хочу выяснить интерес пользователя (может быть, интерес к определенному тегу) от истории профиля и взаимодействия.

Как я могу хранить интерес пользователей?
И как я могу использовать интерес пользователя для сортировки или фильтрации к результату поиска?

Мой подход возможен?Достижимый?Масштабируемость?
Что за методики и алгоритмы я могу использовать?Пожалуйста, предложите!

Это было полезно?

Решение

Это звучит в основном, как проблема поиска, а не проблема рекомендации. Вы в первую очередь сортируют и фильтрующие результаты поиска на основе тегов. Как таковой, я думаю, Луси, как правило, инструмент для развертывания, а не Mahout. (Хотя использование классификаторов Mahout для изучения тегов вполне верно.)

Если вы действительно хотите представить это как реюгорную проблему, я могу сказать, ваши вещи являются тегами. В любое время, когда вы взаимодействуете с тегом, как просмотреть страницу Tagged X, Y и Z, то это указывает, что вы немного больше заинтересованы в «предметам» X, Y и Z., а затем проблема рекомендации здесь - предложить новые теги интерес.

Вы можете попробовать использовать простое количество взаимодействий с тегом как числовой «рейтинг», хотя я думаю, что это не даст больших результатов в контексте рекомендации. Использование журнала подсчета лучше, но все же чувствует себя неправильно. Вы можете игнорировать счетчик взаимодействия и просто использовать тот факт, что пользователь и тег когда-либо взаимодействуют, или нет - «логические предпочтения».

Модель алгоритма рекомендации, которая наилучшим образом соответствует этому вводу, что я знаю, это чередующаяся модель наименьших квадратов, которую вы видите в ParallelalsFactorizationJob. Я не знаю, будет ли это использовать для вас, но это алгоритм, который я бы расследовал, если у вас есть время и наклон. Его вход больше похоже на «силу взаимодействия», а не рейтинг, и он относится к этому так, и это то, что у вас есть здесь.

Другие советы

много раз легче просто сделать пользователь явно сказать, какие теги они заинтересованы в. Это то, что делает переполнение стека, например.Вы можете увеличить счет по некоторой сумме, если тег один заинтересован.

Если вы хотите сделать что-то более неявное, Mahout имеет FAQ по рекомендации.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top