Pregunta

Me gustaría para calcular la frecuencia de los términos utilizando TF-IDF. He redactado una ecuación donde se debe obtener el valor TF-IDF en el lado izquierdo. ¿Es esto correcto?

Tf-idf para DOCUMENT:

tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
  • occurrences(WORD,DOCUMENT): número de ocurrencias de WORD en DOCUMENT
  • number-of-words(DOCUMENT): número de palabras en DOCUMENT
  • documents(ALL): número de documentos en la base de datos
  • documents(WORD, ALL): número de documentos en la base de datos que contienen WORD

Sería muy bueno si usted me podría ayudar. Muchas gracias por adelantado!

¿Fue útil?

Solución

De acuerdo con el artículo de wikipedia es correcta, es posible que desee cambiar a 1 + documentos (Word, ALL) en lugar de sólo los documentos (Word, todos) como el artículo de Wikipedia sugiere.

TF-IDF en Wikipedia

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top