سؤال

أرغب في حساب تردد المصطلح باستخدام TF-IDF. لقد قمت بصياغة معادلة حيث يجب عليك الحصول على قيمة TF-IDF على الجانب الأيسر. هل هذا صحيح؟

TF-IDF ل DOCUMENT:

tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
  • occurrences(WORD,DOCUMENT): عدد من الحوادث WORD في DOCUMENT
  • number-of-words(DOCUMENT): عدد الكلمات في DOCUMENT
  • documents(ALL): عدد الوثائق في قاعدة البيانات
  • documents(WORD, ALL): عدد المستندات في قاعدة البيانات التي تحتوي على WORD

سيكون رائعا إذا كنت تستطيع مساعدتي. شكرا جزيلا لك مقدما!

هل كانت مفيدة؟

المحلول

وفقا لمقال Wikipedia هو الصحيح، قد ترغب في التغيير إلى مستندات 1 + (Word، الكل) بدلا من المستندات فقط (Word، الكل) حيث تقترح مقالة Wikipedia.

TF-IDF على ويكيبيديا

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top