質問

tf-idfを使用して項頻度を計算したいと思います。左側の tf-idf 値を取得する方程式を作成しました。これは正しいです?

Tf-idf 用 DOCUMENT:

tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
  • occurrences(WORD,DOCUMENT):の発生数 WORDDOCUMENT
  • number-of-words(DOCUMENT):の単語数 DOCUMENT
  • documents(ALL):データベース内のドキュメントの数
  • documents(WORD, ALL):データベース内の文書の数 WORD

助けていただければ幸いです。事前にどうもありがとうございました!

役に立ちましたか?

解決

Wikipediaの記事が示唆するように、

それが正しいWikipediaの記事によると、あなたは1つの+ドキュメント(WORD、ALL)の代わりに、単に文書(WORD、ALL)に変更する場合があります。

TF-IDFにウィキペディア

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top