题
我谨计算期频率使用tf-以色列国防军。我已经草拟了一个方程式在哪里你应该得到tf-以色列国防军的价值的左侧。这是正确的?
Tf-以色列国防军对 DOCUMENT
:
tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
occurrences(WORD,DOCUMENT)
:出现的次数WORD
在DOCUMENT
number-of-words(DOCUMENT)
:数字在DOCUMENT
documents(ALL)
:文件数量的数据库documents(WORD, ALL)
:文件数量的数据库,其中含有WORD
这将是巨大的,如果你能帮助我。非常感谢你在前进!
解决方案
根据《维基百科文它是否正确,您可能想要改变到1+文件(WORD,所有的),而不只是文件(WORD,所有)作为维基百科条建议。
不隶属于 StackOverflow