TF-IDF: هل هذا النهج صحيح؟
سؤال
أرغب في حساب تردد المصطلح باستخدام TF-IDF. لقد قمت بصياغة معادلة حيث يجب عليك الحصول على قيمة TF-IDF على الجانب الأيسر. هل هذا صحيح؟
TF-IDF ل DOCUMENT
:
tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )
occurrences(WORD,DOCUMENT)
: عدد من الحوادثWORD
فيDOCUMENT
number-of-words(DOCUMENT)
: عدد الكلمات فيDOCUMENT
documents(ALL)
: عدد الوثائق في قاعدة البياناتdocuments(WORD, ALL)
: عدد المستندات في قاعدة البيانات التي تحتوي علىWORD
سيكون رائعا إذا كنت تستطيع مساعدتي. شكرا جزيلا لك مقدما!
المحلول
وفقا لمقال Wikipedia هو الصحيح، قد ترغب في التغيير إلى مستندات 1 + (Word، الكل) بدلا من المستندات فقط (Word، الكل) حيث تقترح مقالة Wikipedia.
لا تنتمي إلى StackOverflow