Tf-idf:Правилен ли такой подход?
Вопрос
Я хотел бы рассчитать частоту термина, используя tf-idf.Я составил уравнение, в котором вы должны получить значение tf-idf в левой части.Это верно?
Tf-idf для DOCUMENT
:
tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
occurrences(WORD,DOCUMENT)
:количество появленийWORD
вDOCUMENT
number-of-words(DOCUMENT)
:количество слов вDOCUMENT
documents(ALL)
:количество документов в базе данныхdocuments(WORD, ALL)
:количество документов в базе данных, содержащихWORD
Было бы здорово, если бы вы могли мне помочь.Заранее большое спасибо!
Решение
Согласно статье в Википедии, это правильно, возможно, вы захотите перейти на 1+documents(WORD, ALL) вместо просто document(WORD, ALL), как предлагает статья в Википедии.
Не связан с StackOverflow