سؤال

ألعب مع تحليل المعنويات، وأنا أبحث عن بعض بيانات البذور. هل يوجد قاموس مجاني حوله؟

يمكن أن تكون بسيطة حقا: 3 مجموعات من النصوص / الجمل، ل "إيجابية"، "سلبي"، "محايد". لا يجب أن تكون ضخمة.

في نهاية المطاف، ربما أنشأ بيانات البذور الخاصة بي لحالة الاستخدام المحددة الخاصة بي، ولكن سيكون من الرائع أن يكون لديك شيء للعب معه الآن أثناء بناء الشيء.

هل كانت مفيدة؟

المحلول

Bing Liu و Minqing هو من UIC لديها عدد من مجموعات البيانات:

بو بانج من كورنيل لديه المزيد.

نصائح أخرى

إذا كنت مهتما بقواميس المعنويات، فقد قدم العديد من المؤلفين العمل بناء على قوائم مبنية يدويا، وغيرها من الأساليب شبه الآلية للحصول على قوائم من الشروط الرأي. نهج جيد واحد هو أن يستمدها من Wordnet. قاعدة البيانات، عن طريق تمديد جوهر من الكلمات الإيجابية / السلبية باستخدام علاقات مثل المرادفات إلخ.

مثال جيد على قائمة مبنية يدويا هي استفسار عام.

لطريقة شبه آلية تستمد القوائم، تحقق من sentiword. من Esuli و Sebastiani.

هذه أعتقد أنها متاحة بشكل عام للبحث، ولكن قد تحتاج إلى التواصل مع المؤلفين فيما يتعلق باستخدام هذه الموارد لأغراض غير بحثية.

ب.

يمكنك استخدام قائمة الكلمات AFINN هنا:

http://www2.imm.dtu.dk/pubdb/views/publication_details.php؟id=6010.

Afinn هي قائمة الكلمات الإنجليزية التي تم تصنيفها مقابل عدد صحيح بين ناقص خمسة (سلبي) بالإضافة إلى خمسة (إيجابية). تم تصنيف الكلمات يدويا بواسطة Finn Årup Nielsen في 2009-2011. الملف هو فصل علامة التبويب. هناك نسختان:

AFINN-111: أحدث نسخة مع 2477 كلمة وعبارات.

AFINN-96: 1468 كلمات وعبارات فريدة من نوعها على 1480 خطوط. لاحظ أن هناك 1480 خطا، كما يتم سرد بعض الكلمات مرتين. قائمة الكلمات في غير كليا في الطلب الأبجدي.

أحافظ على قائمة قوائم كوربورا وكلمات تحليل المعرفات (حيث تعد Afinn واحد منها):

http://neuro.compute.dtu.dk/wiki/sentiment_analysis#corpora.

http://neuro.compute.dtu.dk/wiki/sentiment_analysismeaffect_word_lists.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top