Pergunta

Gostaria de calcular a frequência do termo usando tf-idf. Eu já elaborou uma equação onde você deve obter o valor tf-idf no lado esquerdo. É este correto?

Tf-idf para DOCUMENT:

tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
  • occurrences(WORD,DOCUMENT): número de ocorrências de WORD em DOCUMENT
  • number-of-words(DOCUMENT): número de palavras em DOCUMENT
  • documents(ALL): número de documentos no banco de dados
  • documents(WORD, ALL): número de documentos no banco de dados que contêm WORD

Seria ótimo se você pudesse me ajudar. Muito obrigado antecipadamente!

Foi útil?

Solução

De acordo com o artigo da Wikipedia é correto, você pode querer mudar para 1 + documentos (Word, ALL) em vez de documentos apenas (Word, ALL) como o artigo da Wikipedia sugere.

TF-IDF na wikipedia

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top