TF-IDF :이 접근법이 정확합니까?

문제

TF-IDF를 사용하여 용어 빈도를 계산하고 싶습니다. 왼쪽에서 TF-IDF 값을 가져와야하는 방정식을 작성했습니다. 이 올바른지?

TF-IDF에 대한 DOCUMENT:

tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )

당신이 나를 도울 수 있다면 좋을 것입니다. 미리 감사드립니다!

해결책

Wikipedia 기사에 따르면 Wikipedia 기사에서 알 수 있듯이 문서 (Word, All) 대신 1+문서 (Word, All)로 변경하는 것이 맞습니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow