TF-IDF: ¿Es correcto este enfoque?
Pregunta
Me gustaría para calcular la frecuencia de los términos utilizando TF-IDF. He redactado una ecuación donde se debe obtener el valor TF-IDF en el lado izquierdo. ¿Es esto correcto?
Tf-idf para DOCUMENT
:
tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
-
occurrences(WORD,DOCUMENT)
: número de ocurrencias deWORD
enDOCUMENT
-
number-of-words(DOCUMENT)
: número de palabras enDOCUMENT
-
documents(ALL)
: número de documentos en la base de datos -
documents(WORD, ALL)
: número de documentos en la base de datos que contienenWORD
Sería muy bueno si usted me podría ayudar. Muchas gracias por adelantado!
Solución
De acuerdo con el artículo de wikipedia es correcta, es posible que desee cambiar a 1 + documentos (Word, ALL) en lugar de sólo los documentos (Word, todos) como el artículo de Wikipedia sugiere.
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow