أشجار القرار لتصنيف المستندات

https://stackoverflow.com/questions/3114734

29-09-2019
|

سؤال

مرحبًا ، أردت أن أعرف أنه من الممكن استخدام أشجار القرار لتصنيف المستندات ، وإذا كانت الإجابة بنعم ، فكيف يكون تمثيل البيانات؟ أنا أعرف استخدام حزمة r حفل لأشجار القرار.

المحلول

طريقة واحدة هي الحصول على مصفوفة ضخمة حيث يكون كل صف مستندًا ، وكل عمود عبارة عن كلمة. والقيم في الخلايا هي عدد المرات التي أظهرت فيها الكلمة في هذا المستند.

ثم ، إذا كنت تتعامل مع حالة "التعلم الخاضع للإشراف" ، فيجب أن يكون لديك عمود آخر للمصنف ، ومن هناك يمكنك استخدام أمر مثل "rpart" (من حزمة RPART) ، إلى إنشاء شجرة التصنيف الخاصة بك. سيؤدي الأمر إلى إدخال صيغة لـ RPART ، بطريقة مماثلة كما تفعل مع نموذج خطي (LM).

إذا كنت تريد ، يمكنك أيضًا محاولة تجميع كلماتك أولاً إلى "مجموعات من الكلمات" ، ثم اجعل كل عمود ينتمي إلى مجموعة مختلفة من الكلمات ، مع وجود عدد من الكلمات في المستند التي تنتمي إلى تلك المجموعة. لذلك سألقي نظرة على حزمة "TM". (إذا انتهى بك الأمر إلى القيام بشيء ما ، فيرجى التفكير في نشره هنا ، حتى نتمكن من التعلم منه)

الأفضل ، تال

نصائح أخرى

تقدم هذه الورقة مسحًا لتقنيات تصنيف النص المختلفة ودقةها. باختصار ، يمكنك تصنيف النص بأشجار القرار ، ولكن هناك خوارزميات أخرى أفضل بكثير.

سيباستياني ، ف. (2002). التعلم الآلي في تصنيف النص الآلي. استطلاعات الحوسبة ACM ، CS.IR/0110053V1. متاح من: http://arxiv.org/abs/cs.ir/0110053v1.

أشك في ذلك-على الأقل كما هو محدد عادة ، تستخدم شجرة القرار معيارًا واحدًا لتحديد الفرع الفرعي. في تصنيف المستندات ، نادراً ما يمكنك أن تبني الكثير من أي شيء على معيار واحد-تحتاج إلى معايير متعددة ، وحتى ذلك الحين لا تحصل على قرار واضح يشبه الأشجار الشيء الآخر "نوع من النتيجة.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow