Вопрос

Я хотел бы рассчитать частоту термина, используя tf-idf.Я составил уравнение, в котором вы должны получить значение tf-idf в левой части.Это верно?

Tf-idf для DOCUMENT:

tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
  • occurrences(WORD,DOCUMENT):количество появлений WORD в DOCUMENT
  • number-of-words(DOCUMENT):количество слов в DOCUMENT
  • documents(ALL):количество документов в базе данных
  • documents(WORD, ALL):количество документов в базе данных, содержащих WORD

Было бы здорово, если бы вы могли мне помочь.Заранее большое спасибо!

Это было полезно?

Решение

Согласно статье в Википедии, это правильно, возможно, вы захотите перейти на 1+documents(WORD, ALL) вместо просто document(WORD, ALL), как предлагает статья в Википедии.

TF-IDF в Википедии

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top