質問

私は自動車の写真を分類するために使用される Web アプリケーションを開発しています。ユーザーにはさまざまな車両の写真が提示され、そこに写っているものについての一連の質問に答えるよう求められます。結果はデー​​タベースに記録され、平均化されて表示されます。

私は、グループに頻繁に投票しないユーザーを特定するのに役立つアルゴリズムを探しています。このユーザーは、おそらく写真に注意を払っていないか、表示されている内容について嘘をついているかのどちらかであると考えられます。次に、これらのユーザーを除外し、この特定の写真にはこれとこれの車両が写っているとある程度の自信を持って言えるように、結果を再計算したいと思います。

この質問は、コンピュータ サイエンスに携わる皆さんに向けたものです。そのようなアルゴリズムをどこで見つけられるか、またはそのようなアルゴリズムを設計するための理論的背景を教えてください。確率と統計、おそらくデータマイニングを学ぶ必要があると思います。いくつかの本をお勧めします。ありがとう!

追伸これらは多肢選択式の質問です。

これらはすべて良い提案です。ありがとう!スタック オーバーフローで複数の正解を選択できる方法があれば、もっと多くの皆さんの貢献が認められるといいのにと思います。

役に立ちましたか?

解決

あなたが説明したことは、次を使用して解決されると思います 外れ値/異常の検出。多くのテクニックが存在します。

  • 統計に基づいた手法
  • 距離ベースの方法
  • モデルベースの手法

これらをご覧になることをお勧めします スライド 素晴らしい本から データマイニングの概要

他のヒント

どのような答えを期待しているかわかっているのに、なぜ人々に投票を求めるのでしょうか?いくつかの値を除外することで、基本的には次のようなものに投票することになります。 あなた のように。自動車は人によって印象が異なります。100 人がその車を気に入ったとして、誰かが来てその車が好きではないと言うと、投票を除外しますか?

しかし、とにかく、それでもこれをやりたいと考えると、まず第一に、「信頼できる」有権者からの大規模なデータセットが必要になります。これにより、「適切な」答えが得られ、この時点から除外しきい値を選択できます。

初期データセットがないと、誤った結果が得られるため、アルゴリズムを適用できません。0 から 100 までのスケールで 100 票だけを考えてみましょう。2 番目の投票は「1」です。平均から離れすぎているため、この投票は除外されます。

私はかなり単純なアルゴリズムがあなたのためにこれを達成することができると思います。あなたがしようとすると、標準偏差などを計算することによって、手の込んだ得るが、私は気にしないだろうことができます。

ここでは十分なものでなければならない簡単な方法です。

は、ユーザーのそれぞれについて、彼らは答えた質問の数と回数を計算し、それらは、質問のための最も人気のある答えを選択しました。あなたが偽のデータを提供している推測することができ、全解答対人気の答えを選ぶの最低比率を持つユーザーます。

あなたはおそらく、彼らはおそらくちょうど偽のデータを入れて対数に反対してきたので、彼らは唯一の質問の数が少ないに答えたユーザーからのデータを捨てるのは嫌だ。

質問はどのような彼らです(はい/いいえ、または10から1?)。

あなたは平均値の代わりに、平均を使用して何かを捨てないで逃げることができるかもしれません。平均値との極端な外れ値が応答である場合には、平均的に影響を与える可能性がありますが、中央値を使用する場合は、より良い答えを得ることができます。あなたは5つの答えを持っていたのであれば、たとえば、それらを注文すると、真ん中のものを選びます。

あなたが言っていることは、特定の人々が「外れ値」であり、データにノイズが加わり、分類の信頼性が低くなっているのではないかと懸念しているということだと思います。したがって、もしあなたがシボレー カマロを所有していて、ほとんどの人はそれをポニーカー、マッスルカー、またはスポーツカーのいずれかだと言うが、あなたがそれをファミリーセダンだと言うマイペースな人がいる場合、あなたはその人の影響を最小限に抑えたいと思うでしょう。投票する。

できることの 1 つは、Stack Overflow のような評判スコアをユーザーに提供することです。

  • ユーザーが他のユーザーと「一致」しているほど、スコアは高くなります。特定のユーザー (ユーザー X) について、これは、質問に回答したユーザーの何パーセントがユーザー X と同じカテゴリを選択したかを単純に計算し、回答されたすべての質問に対してこの値を平均することで決定できます。
  • できるだけ多くの質問に回答するよう、この値に回答された質問の総数を乗算するとよいでしょう。(注記:これを行うことを選択した場合、一致率スコアを平均するのではなく、単に合計することと同じになります)。
  • 最終的な評判スコアをユーザーに提示し、ユーザーの応答が他のユーザーの応答とどの程度一致するかによって報酬が得られることを必ず説明できます。これにより、人々はより多くの質問に回答するようになるだけでなく、回答には注意するようになります。
  • 最後に、特定のカテゴリを選択したすべての人の評判スコアの合計を合計することで、特定のカテゴリの確実性スコアを計算できます。

これらのアイデアの中には、特にあなたの正確な状況がわからないため、いくつかの改良が必要な場合があります。確かに、他の人が選んだものを見ることができれば、 前に 彼らが投票するのであれば、システムを悪用するのはあまりにも簡単でしょう。

標準偏差が小さいほど、全会一致一般的なコンセンサスがある:あなたが「1から10までのスケールで、どのようにこの車を評価だろう」などの票を集めるとしたら、

は、おそらく単純平均と標準偏差を使用することができますあなたの有権者の中で、あなたはフラグユーザーであることができる人など平均から3つの標準開発者

複数の選択肢について、あなたはもっと注意する必要があります。単純にすべてのほとんど-投票オプションを破棄することは何もしないが、有権者をdisgruntleます。あなたは勝者がどれだけ重要なの尺度を確立する必要がw.r.t.他のオプション、例えば受賞オプションの1/3以下とオプションに投票フラグユーザーがカウントされます。

のないの票を捨て、私は "フラグユーザー" を書いたことに注意してください。あなたが投票を破棄した場合、あなたはその結果について、どのように自信を持って言うことができない(「91%は、フォードマスタングになるこの投票しました」)。ユーザーは、自分の票の一定割合以上のフラグが付けられている場合は - まあ、それはあなた次第です。

あなたのトリッキーな問題は、しかし、おそらく十分な票を集めることでしょう。複数の選択肢の問題がいかに簡単であるかに応じて、あなたはおそらく数回写真ごとの投票、などのオプションの番号が必要です。そうしないと統計は無意味です。

scroll top