TF-IDF: ¿Es correcto este enfoque?

https://stackoverflow.com/questions/1315794

19-09-2019
|

Pregunta

Me gustaría para calcular la frecuencia de los términos utilizando TF-IDF. He redactado una ecuación donde se debe obtener el valor TF-IDF en el lado izquierdo. ¿Es esto correcto?

Tf-idf para DOCUMENT:

tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )

occurrences(WORD,DOCUMENT): número de ocurrencias de WORD en DOCUMENT
number-of-words(DOCUMENT): número de palabras en DOCUMENT
documents(ALL): número de documentos en la base de datos
documents(WORD, ALL): número de documentos en la base de datos que contienen WORD

Sería muy bueno si usted me podría ayudar. Muchas gracias por adelantado!

Solución

De acuerdo con el artículo de wikipedia es correcta, es posible que desee cambiar a 1 + documentos (Word, ALL) en lugar de sólo los documentos (Word, todos) como el artículo de Wikipedia sugiere.

TF-IDF en Wikipedia

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow