我谨计算期频率使用tf-以色列国防军。我已经草拟了一个方程式在哪里你应该得到tf-以色列国防军的价值的左侧。这是正确的?

Tf-以色列国防军对 DOCUMENT:

tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
  • occurrences(WORD,DOCUMENT):出现的次数 WORDDOCUMENT
  • number-of-words(DOCUMENT):数字在 DOCUMENT
  • documents(ALL):文件数量的数据库
  • documents(WORD, ALL):文件数量的数据库,其中含有 WORD

这将是巨大的,如果你能帮助我。非常感谢你在前进!

有帮助吗?

解决方案

根据《维基百科文它是否正确,您可能想要改变到1+文件(WORD,所有的),而不只是文件(WORD,所有)作为维基百科条建议。

TF-以色列国防军在维基百科

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top