문제

TF-IDF를 사용하여 용어 빈도를 계산하고 싶습니다. 왼쪽에서 TF-IDF 값을 가져와야하는 방정식을 작성했습니다. 이 올바른지?

TF-IDF에 대한 DOCUMENT:

tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
  • occurrences(WORD,DOCUMENT): 발생 횟수 WORD 안에 DOCUMENT
  • number-of-words(DOCUMENT): 단어 수 DOCUMENT
  • documents(ALL): 데이터베이스의 문서 수
  • documents(WORD, ALL): 데이터베이스의 문서 수가 포함되어 있습니다 WORD

당신이 나를 도울 수 있다면 좋을 것입니다. 미리 감사드립니다!

도움이 되었습니까?

해결책

Wikipedia 기사에 따르면 Wikipedia 기사에서 알 수 있듯이 문서 (Word, All) 대신 1+문서 (Word, All)로 변경하는 것이 맞습니다.

Wikipedia의 TF-IDF

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top