سؤال

لقد طلبت بالفعل ملف سؤال مماثل في وقت سابق ، لكنني لم أكن أتعامل مع وجود تقييد كبير: أنا أعمل على مجموعات نصية صغيرة مثل تغريدات المستخدم لإنشاء علامات (كلمات رئيسية).

ويبدو أن الاقتراح المقبول (خوارزمية المعلومات المتبادلة النقطية) يهدف إلى العمل على مستندات أكبر.

مع هذا القيد (العمل على مجموعة صغيرة من النصوص) ، كيف يمكنني إنشاء علامات؟

يعتبر

هل كانت مفيدة؟

المحلول

نهج مرحلتين لعلامات متعددة الكلمات

يمكنك قم بتجميع كل التغريدات في مستند واحد أكبر ثم استخراج ن الأكثر إثارة للاهتمام من مجموعة كاملة من التغريدات. يمكنك بعد ذلك العودة ووضع علامة على كل تغريدة مع collocations التي تحدث فيها. باستخدام هذا النهج ، ن سيكون إجمالي عدد العلامات المتعددة الكلمات التي سيتم إنشاؤها لمجموعة البيانات بأكملها.

للمرحلة الأولى ، يمكنك استخدام رمز NLTK المنشور هنا. يمكن تحقيق المرحلة الثانية مع مجرد حلقة على جميع التغريدات. ومع ذلك ، إذا كانت السرعة مصدر قلق ، فيمكنك استخدامها بيلينوسين للعثور بسرعة على التغريدات التي تحتوي على كل تجميع.

Tweet Level PMI لعلامات كلمة واحدة

كما اقترح أيضا هنا, ، للحصول على علامات كلمة واحدة ، يمكنك حساب المعلومات المتبادلة النقطة من كل كلمة فردية وتغريدة نفسها ، أي

PMI(term, tweet) = log [ P(term, tweet) / (P(term)*P(tweet)) 

مرة أخرى ، سوف يخبرك هذا تقريبًا بمدى دهشتك (أو أكثر) من أن تصادف المصطلح في المستند المحدد كـ Appose للوصول إليه في المجموعة الأكبر. يمكنك بعد ذلك وضع علامة على تغريدة مع بعض المصطلحات التي لديها أعلى PMI مع تغريدة.

التغييرات العامة للتغريدات

بعض التغييرات التي قد ترغب في إجراءها عند تشمل التغريدات:

  • فقط استخدم كلمة أو تجميعًا كعلامة لتغريدة ، إذا حدث ذلك في ضمن أ عدد معين أو نسبة مئوية من التغريدات الأخرى. بخلاف ذلك ، يميل PMI إلى تمييز التغريدات ذات المصطلحات الفردية التي تحدث في تغريدة واحدة فقط ولكن لا يتم رؤيتها في أي مكان آخر ، مثل الأخطاء الإملائية وضوضاء لوحة المفاتيح مثل #@$ #@$ ٪!.

  • قم بتوسيع عدد العلامات المستخدمة بطول كل تغريدة. قد تكون قادرًا على استخراج 2 أو 3 علامات مثيرة للاهتمام لتغريدات أطول. ولكن ، للحصول على تغريدة أقصر من كلمة ، ربما أنت لا تريد استخدام كل كلمة وتجميع لوضع علامة عليها. ربما يكون الأمر يستحق تجربة قطع مختلفة لعدد العلامات التي تريد استخراجها بالنظر إلى طول التغريد.

نصائح أخرى

لقد استخدمت طريقة في وقت سابق ، لمحتوى نص صغير مثل الرسائل القصيرة ، حيث أود فقط أن أكرر نفس الخط مرتين. من المثير للدهشة أن هذا يعمل بشكل جيد لمحتوى حيث يمكن أن يكون الاسم هو الموضوع. أعني ، لا تحتاج إلى تكرارها لتكون الموضوع.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top