문제

저는 자동차 사진을 분류하는 데 사용되는 웹 응용 프로그램을 작업하고 있습니다. 사용자에게는 다양한 차량의 사진이 제공되며 자신이 보는 것에 대한 일련의 질문에 답해야합니다. 결과는 데이터베이스에 기록되어 평균화되어 표시됩니다.

저는 그룹과 자주 투표하지 않는 사용자를 식별하는 데 도움이되는 알고리즘을 찾고 있습니다. 아마도 사진에주의를 기울이지 않거나 그들이 보는 것에 대해 거짓말을하고 있음을 나타냅니다. 그런 다음이 사용자를 배제하고 결과를 다시 계산하여 알려진 양의 자신감 으로이 특정 사진 이이 차량을 보여줍니다.

이 질문은 모든 컴퓨터 과학 직원들에게 그러한 알고리즘을 찾거나 그러한 알고리즘을 설계 할 이론적 배경을 제공합니다. 나는 확률과 정적, 아마도 데이터 마이닝을 배워야한다고 가정합니다. 일부 책 추천은 좋을 것입니다. 감사!

추신 : 객관식 질문입니다.

이 모든 것이 좋은 제안입니다. 고맙습니다! 스택 오버플로에 여러 정답을 선택할 수있는 방법이 있었으면 좋겠다.

도움이 되었습니까?

해결책

나는 당신이 묘사 한 내용을 사용하여 해결된다고 생각합니다 이상/이상 탐지. 많은 기술이 존재합니다.

  • 통계 기반 방법
  • 거리 기반 방법
  • 모델 기반 방법

나는 당신이 이것들을 살펴 보는 것이 좋습니다 슬라이드 훌륭한 책에서 데이터 마이닝 소개

다른 팁

읽다 통계 학습의 요소, 그것은 데이터 마이닝에 대한 훌륭한 개요입니다.

특히 감독되지 않은 알고리즘 (예 : 클러스터링)에 관심을 가질 수 있습니다. 대부분의 사람들이 거짓말을하지 않는다고 가정하면 가장 큰 클러스터는 옳고 나머지는 잘못되었습니다. 그에 따라 사람들을 표시 한 다음 베이지안 통계를 적용하면 완료됩니다.

물론, 대부분의 데이터 마이닝 기술은 실험적이므로 항상 옳거나 대부분의 경우에도 믿지 마십시오.

당신이 무엇을 기대하는지 알고 있다면 왜 사람들에게 투표를 요청합니까? 몇 가지 가치를 제외하여 기본적으로 투표를 전환합니다. 처럼. 자동차는 다른 개인과 다른 인상을줍니다. 100 PPL이 차를 좋아한다면 누군가 와서 마음에 들지 않는다고 말하면 투표를 배제합니까?

그러나 어쨌든, 당신이 여전히 이것을하고 싶다는 것을 고려할 때, 먼저 "신뢰할 수있는"유권자들의 대규모 세트 O 데이터가 필요합니다. 이것은 당신에게 "좋은"답변에 대한 아이디어를 줄 것이며,이 시점에서 제외 임계 값을 선택할 수 있습니다.

초기 데이터 세트가 없으면 잘못된 결과를 얻을 수 있으므로 알고리즘을 적용 할 수 없습니다. 두 번째 투표는 "1"입니다. 평균에서 너무 멀기 때문에이 투표를 배제 할 것입니다.

나는 매우 간단한 알고리즘이 당신을 위해 이것을 달성 할 수 있다고 생각합니다. 표준 편차 등을 계산하여 더 멋진 노력을 기울일 수는 있지만 나는 귀찮게하지 않을 것입니다.

다음은 충분한 간단한 접근 방식입니다.

각 사용자에 대해 답변 한 질문 수와 질문에 가장 인기있는 답변을 선택한 횟수를 계산하십시오. 대중 답변을 선택하는 비율이 가장 낮은 사용자와 총 답변을 추측 할 수있는 사용자는 가짜 데이터를 제공하는 것입니다.

당신은 아마도 소수의 질문에 대해서만 대답 한 사용자로부터 데이터를 버리고 싶지 않을 것입니다.

그들은 어떤 종류의 질문입니다 (예/아니오 또는 1 ~ 10?).

평균 대신 평균을 사용하여 아무것도 버리지 않고 도망 갈 수 있습니다. 응답에 극단적 인 특이 치가있는 경우 평균이라면 평균에 영향을 줄 수 있지만 중앙값을 사용하면 더 나은 답변을 얻을 수 있습니다. 예를 들어 5 개의 답변이 있으면 주문하고 중간 답변을 선택하십시오.

나는 당신이 말하는 것은 특정 사람들이 "특이점"이라고 우려하고 있으며, 데이터에 소음을 추가하여 분류를 덜 신뢰할 수있게한다는 것입니다. 따라서 Chevy Camaro가 있고 대부분의 사람들이 조랑말 자동차, 근육 차 또는 스포츠카라고 말하지만 가족 세단이라고 말하는 구덩이가 있습니다. 그의 영향을 최소화하고 싶을 것입니다. 투표.

당신이 할 수있는 한 가지는 사용자에게 스택 오버플로와 같은 평판 점수를 제공하는 것입니다.

  • 사용자가 다른 사용자와 "계약"이 많을수록 점수가 더 좋을 것입니다. 주어진 사용자 (사용자 x)의 경우, 이는 질문에 응답 한 사용자의 비율이 사용자 X와 동일한 범주를 선택한 다음 모든 질문에 대해이 값을 평균화 한 것에 대한 간단한 계산으로 결정될 수 있습니다.
  • 사람들이 가능한 한 많은 질문에 대답하도록 격려하기 위해이 값에 답변 된 총 질문 수를 곱하고 싶을 수도 있습니다. (참고 :이 작업을 선택하면 평균 계약 점수를 평균하지 않고 합산하는 것과 같습니다.)
  • 최종 평판 점수를 사용자에게 제시 할 수 있으며, 자신의 답변이 다른 사용자의 응답에 얼마나 잘 동의하는지에 대해 보상을받을 수 있습니다. 이것은 사람들이 더 많은 질문에 대답하고 그들의 답변을 돌보도록 격려 할 것입니다.
  • 마지막으로, 주어진 범주를 선택한 모든 사람들의 총 평판 점수를 추가하여 주어진 분류에 대한 확실한 점수를 계산할 수 있습니다.

이러한 아이디어 중 일부는 특히 정확한 상황을 모르기 때문에 약간의 개선이 필요할 수 있습니다. 확실히, 사람들이 다른 사람들이 선택한 것을 볼 수 있다면 ~ 전에 그들은 투표하고, 시스템을 게임하기에는 너무 쉬울 것입니다.

"1에서 10까지의 규모로,이 차를 어떻게 평가할 것인가"와 같은 투표를 징수한다면, 당신은 아마도 단순한 평균 및 표준 편차를 사용할 수있을 것입니다 : 표준 편차가 작을수록 일반적인 합의가 더 만장일치가 유권자들 사이에 있습니다. 그리고 예를 들어 평균에서 3 표준 개발자 인 사용자를 표시 할 수 있습니다.

객관식을 위해서는 더 조심해야합니다. 가장 투명한 옵션을 제외한 모든 옵션을 버리는 것은 유권자들을 불만으로하지 않을뿐입니다. 우승 옵션 수의 1/3 미만의 옵션에 투표 한 깃발 사용자와 같은 우승자가 다른 옵션에 얼마나 중요한지를 측정해야합니다.

"플래그 사용자"를 썼습니다. ~ 아니다 투표를 폐기하십시오. 당신이 투표를 폐기한다면, 당신은 당신이 그 결과에 대해 얼마나 자신감을 가지고 있는지 알 수 없습니다 ( "91%는 이것을 포드 머스탱로 투표했습니다"). 사용자가 자신의 투표의 일정 비율 이상을 보유하고 있다면 글쎄, 그것은 당신에게 달려 있습니다.

그러나 가장 까다로운 문제는 아마도 충분한 투표를 수집하는 것일 것입니다. 객관식 문제가 얼마나 쉬운 지에 따라 사진 당 투표로 옵션 수를 여러 배가 필요할 수 있습니다. 그렇지 않으면 통계는 의미가 없습니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top