문제

트렌드 주제를 찾으려면 표준 점수를 이동 평균과 함께 사용합니다.

z-score = ([current trend] - [average historic trends]) / [standard deviation of historic trends]

(정말 감사합니다, 닉스 즈)

지금까지 나는 다음과 같이한다.

시간이 무엇이든, 역사적인 트렌드를 위해 나는 단순히 24 시간으로 돌아갑니다. 지금 오후 1 월 12 일 오후 3시 45 분이 있다고 가정합니다.

current_trend = hits [1 월 11 일, 3:45 -1 월 12 일, 3:45

Historic_trends = HITS [1 월 10 일, 3:45- 1 월 11 일, 3:45] + HITS [1 월 9 일, 3:45 -Jan 10, 3:45] + HITS [1 월 8 일, 3:45 -Jan 9, 3 : 3 : 45] + ...

그러나 이것이 정말로 충분합니까? 내가 항상 00:00시에 시작하면 더 나을까요? 예를 들어 동일한 데이터의 경우 (3:45 PM) :

current_trend = hits [1 월 11 일, 0:00 -1 월 12 일, 0:00

Historic_trends = hits [1 월 10 일, 0:00 -1 월 11 일, 0:00] + 적중 0] + ...

결과가 다를 것이라고 확신합니다. 그러나 어떤 접근법이 더 나은 결과를 제공합니까?

나는 당신이 내 질문을 이해하고 당신이 나를 도울 수 있기를 바랍니다. :) 미리 감사드립니다!

도움이 되었습니까?

해결책

현재 구현에서 볼 수있는 문제는 23 시간 전인 주제가 지금 순위에 영향을 미친다는 것입니다. 새로운 제안 된 구현에서 볼 수있는 문제는 자정에 슬레이트를 깨끗하게 닦고 있다는 것입니다. 그래서 어젯밤 늦은 주제는 다음날 아침 일찍 더워 보이지 않을 것입니다 (그러나 그들은해야합니다).

주제의 뜨거운 성이 나이가 들어감에 따라 Digg 스타일 알고리즘을 구현하는 것이 좋습니다. 지난 24 시간 동안 각각의 히트를 계산 하여이 작업을 수행 한 다음 각 기간 점수를 몇 시간 전에 기간이 발생한 수로 나눌 수 있습니다. 24 기간을 추가하여 점수를 얻으십시오.

Hottness = (score24 / 24) + (스코어 23 / 23) + ... + (score2 / 2) + score1

여기서 점수 24는 24 시간 전에 발생한 1 시간 동안 주제가 얻은 "적중"의 수입니다 (아마도 정확히 적중은 아니지만 그 시간의 정규화 된 점수).

24 시간 전에 뜨거운 주제는 여전히 알고리즘에도 계산되지만 한 시간 전에 뜨거웠던 주제만큼 크게는 그렇지 않습니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top