سؤال

لقد قرأت الكثير من المقالات التي تشرح الحاجة إلى مجموعة أولية من النصوص المصنفة إما على أنها "إيجابية" أو "سلبية" قبل أن يعمل نظام تحليل المشاعر حقًا.

سؤالي هو: هل حاول أي شخص مجرد إجراء فحص بدائي للصفات "الإيجابية" مقابل الصفات السلبية ، مع مراعاة أي سلبيس بسيط لتجنب التصنيف "غير سعيد" على أنه إيجابي؟ إذا كان الأمر كذلك ، هل هناك أي مقالات تناقش فقط لماذا هذه الاستراتيجية ليست واقعية؟

هل كانت مفيدة؟

المحلول

أ ورقة كلاسيكية لبيتر تيرني (2002) يشرح طريقة للقيام بتحليل المشاعر غير الخاضع للإشراف (التصنيف الإيجابي/السلبي) باستخدام الكلمات فقط ممتاز و فقير كمجموعة بذرة. يستخدم Turney المعلومات المتبادلة كلمات أخرى مع هاتين الصفات لتحقيق دقة 74 ٪.

نصائح أخرى

لم أحاول إجراء تحليل غير مدرب المشاعر مثل تصفه ، لكن من أعلى رأسي ، أقول إنك تبالغ في تبسيط المشكلة. ببساطة تحليل الصفات لا يكفي للحصول على فهم جيد لمشاعر النص ؛ على سبيل المثال ، فكر في كلمة "غبي". بمفردك ، ستصنف ذلك على أنه سلبي ، ولكن إذا كان على مراجعة المنتج أن يكون لها "... [X] المنتج يجعل منافسيهم يبدو أغبياء لعدم التفكير في هذه الميزة أولاً ..." . السياق الأكبر الذي تظهر فيه الكلمات يهم بالتأكيد في شيء مثل هذا. هذا هو السبب في أن نهج كيس الكلمات غير المدربين وحده (ناهيك عن حقيبة أكثر محدودية) لا يكفي لمعالجة هذه المشكلة بشكل كاف.

تساعد البيانات المسبقة مسبقًا ("بيانات التدريب") في أن المشكلة تتحول من محاولة تحديد ما إذا كان النص ذي المعنويات الإيجابية أو السلبية من نقطة الصفر ، إلى محاولة تحديد ما إذا كان النص أكثر تشابهًا للنصوص الإيجابية أو النصوص السلبية ، وتصنيفها بهذه الطريقة. النقطة الكبيرة الأخرى هي أن التحليلات النصية مثل تحليل المشاعر غالباً ما تتأثر بشكل كبير باختلافات خصائص النصوص اعتمادًا على المجال. هذا هو السبب في وجود مجموعة جيدة من البيانات للتدريب عليها (أي بيانات دقيقة من داخل المجال الذي تعمل فيه ، ونأمل أن يكون تمثيل النصوص التي ستضطر إلى تصنيفها) بنفس أهمية بناء جيد نظام لتصنيف مع.

ليس بالضبط مقال ، ولكن آمل أن يساعد ذلك.

ورقة Turney (2002) التي ذكرها Larsmans هي واحدة أساسية جيدة. في بحث أحدث ، لي وهو [2009 تقديم نهج باستخدام تخصيص ديريتشليت الكامنة (LDA) لتدريب نموذج يمكنه تصنيف المشاعر والموضوع الإجمالي للمقال في وقت واحد بطريقة غير خاضعة للإشراف تمامًا. الدقة التي يحققونها هي 84.6 ٪.

حاولت اكتشاف الكلمات الرئيسية باستخدام قاموس التأثير للتنبؤ بملصق المشاعر على مستوى الجملة. بالنظر إلى عمومية المفردات (غير المعتمدة على المجال) ، كانت النتائج حوالي 61 ٪ فقط. الورقة متوفرة في صفحتي الرئيسية.

في نسخة محسنة إلى حد ما ، تم النظر في الظروف النفي. النظام بأكمله ، المسمى Emolib ، متاح للعروض التجريبية:

http://dtminredis.housing.salle.url.edu:8080/emolib/

يعتبر،

ديفيد ،

لست متأكدًا مما إذا كان هذا مفيدًا ولكن قد ترغب في النظر إلى يعقوب بيركين مشاركة مدونة على استخدام NLTK لتحليل المشاعر.

جربت عدة طرق لتحليل المشاعر لاستخراج الرأي في المراجعات. ما هو الأفضل بالنسبة لي هو الطريقة الموضحة في كتاب ليو: http://www.cs.uic.edu/~liub/webminingbook.html في هذا الكتاب ليو وآخرون ، قارن العديد من الاستراتيجيات وناقش أوراق مختلفة حول تحليل المعنويات واستخراج الرأي.

على الرغم من أن هدفي الرئيسي هو استخراج الميزات في الآراء ، إلا أنني قمت بتطبيق مصنف المشاعر للكشف عن التصنيف الإيجابي والسلبي لهذه الميزات.

لقد استخدمت NLTK للمعالجة المسبقة (رمز الكلمات ، وضع علامات POS) وإنشاء Trigrams. ثم استخدمت أيضًا مصنفات Bayesian داخل هذه التي تم التقاطها لمقارنة الاستراتيجيات الأخرى التي كان Liu يوضحها.

تعتمد إحدى الطرق على وضع العلامات على أنها POS/NEG التي تعبر عنها كل TRIGRRAM عن هذه المعلومات ، واستخدام بعض المصنف في هذه البيانات. طريقة أخرى جربتها ، وعملت بشكل أفضل (حوالي 85 ٪ من الدقة في مجموعة البيانات الخاصة بي) ، كانت تحسب مجموع درجات PMI (المعلومات المتبادلة المبتدئة) لكل كلمة في الجملة والكلمات ممتاز/فقير كبذور POS/NEG فئة.

لا توجد "اختصارات" سحرية في تحليل المشاعر ، كما هو الحال مع أي نوع آخر من تحليل النص الذي يسعى لاكتشاف "حول" عن جزء من النص. إن محاولة اختصار طرق تحليل النص المؤكدة من خلال التحقق من "الصفة" البسيطة أو النهج المماثلة تؤدي إلى الغموض ، أو التصنيف غير الصحيح ، وما إلى ذلك ، في نهاية اليوم يمنحك دقة سيئة على المشاعر. كلما زاد عدد المصدر (مثل Twitter) ، زادت المشكلة صعوبة.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top