مليون جملة لتوفير في ديسيبل - إزالة الكلمات الإنجليزية غير ذات الصلة

StackOverflow https://stackoverflow.com/questions/4259044

سؤال

أحاول تدريب مصنف بايز الساذج مع كلمات إيجابية/سلبية تستخرج من الشعور. مثال:

احب هذا الفيلم :))

أكره عندما تمطر :(

الفكرة هي أنني استخرج جمل إيجابية أو سلبية بناءً على عمليات التثبيت المستخدمة ، ولكن من أجل تدريب المصنف واستمرارها في قاعدة البيانات.

المشكلة هي أن لديّ أكثر من مليون من هذه الجملات ، لذلك إذا قمت بتدريبها على الكلمة ، فستذهب قاعدة البيانات إلى إرم. أرغب في إزالة جميع مثال الكلمات غير ذات الصلة "i" ، "هذا" ، عندما "،" ، بحيث يكون عدد المرات التي يجب أن أقوم فيها بتعليق قاعدة البيانات أقل.

الرجاء مساعدتي في حل هذه المشكلة لاقتراحني طرقًا أفضل للقيام بذلك

شكرًا لك

نصائح أخرى

هناك نهجان شائعان:

  1. تجميع أ قائمة التوقف.
  2. علامة POS الجمل وطرح تلك الأجزاء من الكلام التي تعتقد أنها ليست مثيرة للاهتمام.

في كلتا الحالتين ، قد يتم تحديد الكلمات/علامات POS ذات صلة باستخدام مقياس مثل PMI.

ضع في اعتبارك: قد تعمل قوائم الإيقاف القياسية من استرجاع المعلومات أو لا تعمل في تحليل المعنويات. لقد قرأت مؤخرًا ورقة (لا توجد مرجعية ، آسف) حيث زُعم ذلك! و؟ ، تمت إزالته بشكل شائع في محركات البحث ، هي أدلة قيمة لتحليل المشاعر. (قد يكون "أنا" ، عندما يكون لديك أيضًا فئة محايدة.)

يحرر: يمكنك أيضًا التخلص من كل ما يحدث بأمان مرة واحدة فقط في مجموعة التدريب (يسمى Hapax Legomena). الكلمات التي تحدث مرة واحدة لها قيمة معلومات قليلة للمصنف الخاص بك ، ولكن قد تشغل مساحة كبيرة.

لتقليل كمية البيانات التي تم استردادها من قاعدة البيانات الخاصة بك ، يمكنك إنشاء القاموس في قاعدة البيانات الخاصة بك - جدول يقوم بتخطيط الكلمات* إلى الأرقام ** - وإلى استرداد ناقل الأرقام فقط للتدريب وجملة كاملة لتمييز المشاعر اليدوية .

|* لا يوجد منشور علمي يتبادر إلى ذهني ولكن ربما يكفي استخدام فقط السيقان أو الليمون بدلا من الكلمات. من شأنه أن يقلل من حجم القاموس.

| ** إذا قتلت هذه العملية قاعدة البيانات الخاصة بك ، فيمكنك إنشاء قاموس في تطبيق محلي - يستخدم محرك فهرسة النص (على سبيل المثال ، Apache Lucene) - وتخزين النتيجة فقط في قاعدة البيانات الخاصة بك.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top