Tf-idf: esta abordagem é correta?
Pergunta
Gostaria de calcular a frequência do termo usando tf-idf. Eu já elaborou uma equação onde você deve obter o valor tf-idf no lado esquerdo. É este correto?
Tf-idf para DOCUMENT
:
tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
-
occurrences(WORD,DOCUMENT)
: número de ocorrências deWORD
emDOCUMENT
-
number-of-words(DOCUMENT)
: número de palavras emDOCUMENT
-
documents(ALL)
: número de documentos no banco de dados -
documents(WORD, ALL)
: número de documentos no banco de dados que contêmWORD
Seria ótimo se você pudesse me ajudar. Muito obrigado antecipadamente!
Solução
De acordo com o artigo da Wikipedia é correto, você pode querer mudar para 1 + documentos (Word, ALL) em vez de documentos apenas (Word, ALL) como o artigo da Wikipedia sugere.
Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow