TF-IDF :이 접근법이 정확합니까?
문제
TF-IDF를 사용하여 용어 빈도를 계산하고 싶습니다. 왼쪽에서 TF-IDF 값을 가져와야하는 방정식을 작성했습니다. 이 올바른지?
TF-IDF에 대한 DOCUMENT
:
tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
occurrences(WORD,DOCUMENT)
: 발생 횟수WORD
안에DOCUMENT
number-of-words(DOCUMENT)
: 단어 수DOCUMENT
documents(ALL)
: 데이터베이스의 문서 수documents(WORD, ALL)
: 데이터베이스의 문서 수가 포함되어 있습니다WORD
당신이 나를 도울 수 있다면 좋을 것입니다. 미리 감사드립니다!
해결책
Wikipedia 기사에 따르면 Wikipedia 기사에서 알 수 있듯이 문서 (Word, All) 대신 1+문서 (Word, All)로 변경하는 것이 맞습니다.
제휴하지 않습니다 StackOverflow