تعدين النص: متى تستخدم المحلل ، Tagger ، أداة ner؟

StackOverflow https://stackoverflow.com/questions/3108602

  •  29-09-2019
  •  | 
  •  

سؤال

أقوم بمشروع على محتويات مدونة التعدين وأحتاج إلى مساعدة في التمييز بين الأداة التي يجب استخدامها. متى أستخدم محللًا ، متى أستخدم tagger ، ومتى أحتاج إلى استخدام أداة ner؟

على سبيل المثال ، أريد أن أعرف أكثر المواضيع/الموضوعات بين العديد من المدونات ؛ هل أستخدم علامة جزء من الكلام للاستيلاء على الأسماء والقيام بحساب التردد؟ ربما يكون ذلك غير كافٍ لأن المصطلحات العامة جدًا يمكن أن تظهر بشكل صحيح؟ أو هل لدي قائمة بالفئات وهذه المرادفات التي يمكنني مطابقة؟

راجع للشغل ، أنا أستخدم NLTK ، لكنني أنظر إلى ستانفورد تاججر أو محلل لأن اثنين من الرجال قالوا إنه جيد.

هل كانت مفيدة؟

المحلول

بدلاً من محاولة إعادة اختراع العجلة ، قد ترغب في قراءة نماذج الموضوع ، والتي تنشئ مجموعات من الكلمات التي تحدث معًا بشكل متكرر. يحتوي Mallet على مجموعة أدوات متاحة بسهولة للقيام بمثل هذه المهمة: http://mallet.cs.umass.edu/topics.php .

للإجابة على سؤالك الأصلي ، لا يتم استخدام أدوات POS الأصلية ، وأدوات المحللين ، وأدوات NER لتحديد الموضوع ، ولكن يتم استخدامها بشكل كبير لمهام مثل استخراج المعلومات حيث يكون الهدف هو تحديد الجهات الفاعلة والأحداث والمواقع المحددة في المستند وما إلى ذلك ... على سبيل المثال إذا كان لديك جملة بسيطة مثل "جون أعطى التفاح لمريم". يمكنك استخدام محلل التبعية لمعرفة أن جون هو الموضوع ، والتفاح هو الكائن ، وماري هي كائن الجر ؛ وهكذا تعلم أن جون هو المانح وماري هو المتلقي وليس العكس.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top