レコメンデーション エンジンをコールド スタートに適応させるにはどうすればよいですか?
-
22-09-2019 - |
質問
新しいユーザーまたはアイテムがシステムに入るときに、この新しいエンティティに関する情報が不足しているため、推奨を行うことが問題になる「コールド スタート」問題を克服するための方法/アプローチにはどのようなものがあるのか興味があります。
予測に基づいた推奨事項 (性別、国籍など) を実行することを考えています。
解決
たぶんあなただけの勧告を行うべきではありません時間があるのですか? 「データが不十分」当時の一つとして認定する必要があります。
私は「性別、国籍などに」基づいて予測勧告がステレオタイプ以上に達するだろうか表示されません。
IIRC、Amazonなどの場所は、勧告を展開する前に、しばらくの間、自分のデータベースを構築しました。それはあなたが間違って取得したいもののようなものではありません。不十分なデータに基づいて、不適切な推奨事項に関するそこに話がたくさんあります。
他のヒント
あなたは推薦システムをコールドスタートすることができます。
の推薦システムの2種類があります。協調フィルタリングとコンテンツベース。コンテンツベースのシステムは、あなたが推薦している事についてのメタデータを使用しています。質問は、メタデータが重要である何、その後のですか?第2のアプローチは、それだけの人がやったか、勧告を行うよう項目について言ったことを利用し、メタデータを気にしない、協調フィルタリングです。協調フィルタリングを使用すると、メタデータ内の用語が重要であるかを心配する必要はありません。実際には、あなたは、勧告を行うために、任意のメタデータを必要としません。協調フィルタリングの問題は、あなたがデータを必要とするということです。あなたは十分なデータを持って前に、コンテンツベースの推奨を使用することができます。あなたはベースの協調フィルタリングでミックスし始め、あなたがより多くのデータを取得し、その後のように、両方の方法に基づいて推奨事項を提供し、最初に100%のコンテンツベースを持つことができます。 それは私が過去に使用してきた方法です。
他の一般的な技術は、単純な探索問題として、コンテンツベースの部分を治療することです。あなたは、インデックス、ドキュメント、ドキュメントのテキストや身体などのメタデータ内に置きます。あなたは、任意のコードを記述せずのLucene&Solrのでこれを行うことができます。
あなたは、トビー・セガラン
で「集合知プログラミング」の第2章をチェックしてくださいどのように基本的な協調フィルタリングの作品を知りたい場合はは、この問題に自分自身を作業していて、ボルツマンマシン上でMicrosoftからこの論文は価値が見えます: HTTP ://research.microsoft.com/pubs/81783/gunawardana09__unified_approac_build_hybrid_recom_system.pdfする
これは当然、私は今、これらの質問を見つけることができません(前に数回を頼まれました。 ...
「類似ユーザーが気に入った...」に基づく推奨は明らかに待たなければなりません。ユーザーの類似性に基づいて予測を行うことに完全に取り組んでいる場合は、アンケートの回答者にクーポンやその他のインセンティブを配布できます。
レコメンデーション エンジンをコールドスタートするには他にも 2 つの方法があります。
- 自分でモデルを構築します。
- サプライヤーに重要な情報をスケルトン モデルに入力してもらいます。($ のインセンティブも必要になる場合があります。)
これらすべてには、常識すぎて言及できないほどの潜在的な落とし穴がたくさんあります。
ご想像のとおり、ここには無料のランチはありません。しかし、次のように考えてみてください。レコメンデーション エンジンはビジネス プランではありません。それらは単に事業計画を強化するだけです。
コールド スタート問題に対処するには、次の 3 つのことが必要です。
データは、さまざまな特徴が含まれるようにプロファイリングされている必要があります (製品データでは、「特徴」に使用される用語は「分類ファセット」であることがよくあります)。データが入ってくるときに適切にプロファイリングを行わないと、レコメンデーションを分類するための手段が何もないため、レコメンデーション エンジンは「コールド」のままになります。
最も重要な:ユーザーがパーソナライゼーション エンジンの提案を確認できるユーザー フィードバック ループが必要です。たとえば、「この提案は役に立ちましたか?」の「はい/いいえ」ボタンは、1つのトレーニングデータセットの参加者のレビューをキューに入れる必要があります(つまり、「推奨」トレーニング データセット)を別のトレーニング データセット(つまり、トレーニング データセットは推奨しません)。
(推奨する/推奨しない) 提案に使用されるモデルは、画一的な推奨事項であるとみなされるべきではありません。顧客に提案する製品やサービスを分類することに加えて、企業がそれぞれの特定の顧客をどのように分類するかも重要です。適切に機能している場合は、さまざまな機能を持つ顧客が、特定の状況で異なる提案 (推奨する/推奨しない) を受け取ることを期待する必要があります。それはパーソナライゼーション エンジンの「パーソナライゼーション」部分になります。