كيف تتعامل مع الكلمات التي تم إملائها في مستندات لمهام التعدين النصية؟

StackOverflow https://stackoverflow.com/questions/4276500

  •  28-09-2019
  •  | 
  •  

سؤال

لديّ مجموعة من المستندات غير الرسمية (زوجين من الآلاف) أريد تطبيق نمذجة الموضوع (مطرقة). المشكلة هي أن هناك عددًا كبيرًا من الكلمات التي تم إملائها في المستندات. معظمهم متعمدين ، مثل الأشكال القصيرة واللجنة المحلية مثل "Juz" -> "Just" ، "alw ' ->' بالفعل '. يوجد زوجان من هذه الاختلافات ، بسبب أنماط الكتابة الخاصة بالمؤلفين المختلفين.

بعد إطعامهم إلى مطرقة ، أزعجت نوعًا ما أن أحد الموضوعات التي تم إنشاؤها هي في الواقع مجموعة من كلمات التوقف التي تم إملائها. أعتقد أن هذه الكلمات تستخدم في الغالب في مجموعة فرعية صغيرة من المستندات من نفس المؤلف ، وبالتالي قام مطرقة بالتقاطها.

سؤالي هو ، هل أقوم بالتحقق من هذه المجموعات من الكلمات التي تم إملائها ، وربما حفظ النص المصحح في مكان ما ، قبل إجراء المزيد من المهام عليها؟ أفترض أن هذا يعني أنني بحاجة إلى التحقق يدويًا من التصحيحات قبل الالتزام بصحة جيدة؟ ما هي الطريقة الأكثر فعالية "للقيام بذلك؟

أو هل أتجاهل هذه الكلمات التي تم إملائها في الواقع؟

هل كانت مفيدة؟

المحلول

ماذا تفعل بكلمات التوقف في الوقت الحالي؟ إذا كنت تقوم بنمذجة الموضوع ، فسيكون من المنطقي تصفيةها. إذا كان الأمر كذلك ، فلماذا لا تقوم بتصفية هذه المصطلحات أيضًا؟

تحرير ردًا على الرد

هناك بعض الأبحاث حول التعامل مع كلمات التوقف داخل LDA بطريقة أكثر مبدئية. هناك ورق نوعان يصرخان على الأذهان:

  1. مخططات ترجيح مصطلح لتخصيص dirichlet الكامن
  2. إعادة التفكير في LDA: لماذا يهم priors.

[1] يستخدم مخطط ترجيح مصطلح يساعد على ما يبدو في مهمة تنبؤية التي أنشأوها ، [2] يستخدم سابقة غير متماثلة على توزيعات الكلمة التي تؤدي على ما يبدو إلى بعض الموضوعات التي تحتوي على جميع كلمات التوقف ، وكلمات أخرى شائعة في المجموعة بأكملها.

يبدو لي أن أفضل طريقة لاستنتاج الكلمات تلقائيًا وغيرها من الكلمات غير الموضحة في LDA لا تزال مسألة بحثية.

نصائح أخرى

لا أعتقد أنه يمكننا الإجابة على أنه دون معرفة تأثير الكلمات التي تم إساءة إملائها أو كلمات أخطاء أخطاء أخطاء حول نتائج نمذجة الموضوع الخاصة بك. لذلك إذا تمكنت من تقديم المزيد من المعلومات ، فسيكون ذلك جيدًا.

ومع ذلك ، كنت أعتقد أنك تريد تصحيحها ، على الأقل حيث يكون التصحيح هو القصد من المؤلف الأصلي بوضوح.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top