Tf-idf: Cette approche est correcte?
Question
Je voudrais calculer la fréquence à long terme en utilisant tf-idf. J'ai rédigé une équation où vous devriez obtenir la valeur tf-idf sur le côté gauche. Est-ce exact?
Tf-idf pour DOCUMENT
:
tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
-
occurrences(WORD,DOCUMENT)
: nombre d'occurrences deWORD
dansDOCUMENT
-
number-of-words(DOCUMENT)
: nombre de mots dansDOCUMENT
-
documents(ALL)
: nombre de documents dans la base de données -
documents(WORD, ALL)
: nombre de documents dans la base de données qui contiennentWORD
Il serait génial si vous pouviez me aider. Merci beaucoup à l'avance!
La solution
Selon l'article wikipedia il est correct, vous voudrez peut-être changer pour 1 + documents (Word, ALL) au lieu de seulement les documents (Word, ALL) que l'article suggère wikipedia.
Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow