Question

Je voudrais calculer la fréquence à long terme en utilisant tf-idf. J'ai rédigé une équation où vous devriez obtenir la valeur tf-idf sur le côté gauche. Est-ce exact?

Tf-idf pour DOCUMENT:

tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
  • occurrences(WORD,DOCUMENT): nombre d'occurrences de WORD dans DOCUMENT
  • number-of-words(DOCUMENT): nombre de mots dans DOCUMENT
  • documents(ALL): nombre de documents dans la base de données
  • documents(WORD, ALL): nombre de documents dans la base de données qui contiennent WORD

Il serait génial si vous pouviez me aider. Merci beaucoup à l'avance!

Était-ce utile?

La solution

Selon l'article wikipedia il est correct, vous voudrez peut-être changer pour 1 + documents (Word, ALL) au lieu de seulement les documents (Word, ALL) que l'article suggère wikipedia.

TF-IDF sur wikipedia

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top