TF-IDF:このアプローチは正しいでしょうか?
質問
tf-idfを使用して項頻度を計算したいと思います。左側の tf-idf 値を取得する方程式を作成しました。これは正しいです?
Tf-idf 用 DOCUMENT
:
tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
occurrences(WORD,DOCUMENT)
:の発生数WORD
でDOCUMENT
number-of-words(DOCUMENT)
:の単語数DOCUMENT
documents(ALL)
:データベース内のドキュメントの数documents(WORD, ALL)
:データベース内の文書の数WORD
助けていただければ幸いです。事前にどうもありがとうございました!
解決
Wikipediaの記事が示唆するように、
それが正しいWikipediaの記事によると、あなたは1つの+ドキュメント(WORD、ALL)の代わりに、単に文書(WORD、ALL)に変更する場合があります。
所属していません StackOverflow