سؤال

أحتاج إلى نموذج للمهام التالية:

سلسلة من الكلمات ، مع علامات نقاط البيع. أريد أن أحكم على ما إذا كان تسلسل الكلمات هذا عبارة عن عبارة اسمية أم لا.

نموذج واحد يمكنني التفكير فيه هو هم.

لتلك التسلسلات التي هي عبارة الاسم ، نقوم بتدريب HMM (HMM+). لتلك ليست عبارة اسم ، نحن نحاول hmm (hmm-). وعندما نقوم بالتنبؤ بتسلسل ، يمكننا حساب P (تسلسل | HMM+) و P (التسلسل | HMM-). إذا كان الأول أكبر ، نعتقد أن هذه العبارة عبارة عن عبارة اسم ، وإلا فإنها ليست كذلك.

ما رأيك في ذلك؟ وهل لديك أي نماذج أخرى مناسبة لهذا السؤال؟

هل كانت مفيدة؟

المحلول 3

حدسي هو أن HMM ليس النموذج الصحيح. يمكن استخدامه لتخمين علامات نقاط البيع ، من خلال استخلاص تسلسل العلامات بأعلى الاحتمالات بناءً على الاحتمالات السابقة والاحتمالات الشرطية من رمز إلى آخر.

للحصول على عبارة كاملة ، لا أرى كيف يتطابق هذا النموذج.

سيكون من الصعب للغاية تدريب أي نهج قائم على الاحتمال ، لأن عبارات الاسم يمكن أن تحتوي على العديد من الرموز. وهذا يجعل للعديد من المجموعات. للحصول على احتمالات تدريب مفيدة ، تحتاج إلى مجموعات تدريب ضخمة حقًا.

قد تحصل بسرعة وسهولة على بداية جيدة بما فيه الكفاية من خلال صياغة مجموعة من قواعد القواعد ، على سبيل المثال التعبيرات العادية ، على علامات نقاط البيع من خلال اتباع الوصف في

http://en.wikipedia.org/wiki/noun_phrase#components_of_noun_phrases

أو أي وصف لغوي آخر لعبارات الاسم.

نصائح أخرى

من ما أفهمه ، لديك بالفعل علامات نقاط البيع لتسلسل الكلمات. بمجرد أن يكون لديك علامات لتسلسل الكلمات ، لا تحتاج إلى استخدام HMM لتصنيف ما إذا كان التسلسل هو NP. كل ما عليك فعله هو البحث عن أنماط النماذج التالية:

  1. المحدد تليها اسم

  2. صفة تليها اسم

  3. المحدد تليها صفة تليها اسم

إلخ

كما ذكر شخص ما للتو ، يتم استخدام HMMS للحصول على علامات نقاط البيع لتسلسل جديد من الكلمات. ولكن لذلك تحتاج إلى مجموعة موسومة لتدريب HMM. هناك بعض العلامات المتوفرة في برنامج NLTK.

إذا تم وضع علامة على تسلسلاتك بالفعل ، فما عليك سوى استخدام قواعد القواعد كما هو مذكور في الإجابة السابقة.

يستخدم الأشخاص HMMS لتسمية عبارات الاسم في جمل ذات علامة POS ، لكن إعداد النموذج النموذجي لا يعمل بالطريقة التي تصفها تمامًا.

بدلاً من ذلك ، الإعداد (انظر الاعتراف التاسجر القطع المعتاد على عبارات الاسم (PDF) و التعرف على الكيان المسماة باستخدام Tagger chunk المستند إلى HMM (PDF) للحصول على أمثلة) هو استخدام HMM مع ثلاث ولايات:

  • س (ليس في NP) ،
  • ب (بداية NP) ،
  • أنا (في NP ، ولكن ليس البداية).

سيتم تعيين كل كلمة في جملة واحدة من الدول من قبل HMM. على سبيل المثال ، الجملة:

The/DT Boy/NN HIT/VT The/DT Ball/NN with/pp the/dt red/adj bat/nn ./.

قد يتم تصنيفها بشكل مثالي على النحو التالي:

The/DT ب فتى/ن أنا ضرب/VT س The/DT ب الكرة/nn أنا مع/pp س The/DT ب الأحمر/adj أنا BAT/NN أنا ./. س

يمكن أن تكون التحولات من بين هذه الحالات الثلاث HMM محدودة بناءً على المعرفة المسبقة بكيفية تصرف التسلسلات ؛ على وجه الخصوص ، يمكنك فقط الانتقال إلى I من B ، ولكن التحولات الأخرى كلها ممكنة مع احتمال غير صفري. يمكنك بعد ذلك استخدام Baum-Welch على مجموعة من النص غير المسمى لتدريب HMM الخاص بك (لتحديد أي نوع من القطع على الإطلاق-انظر تحريض القواعد النحوية البسيطة من النص الخام مع نماذج الحالة المحدودة المتتالية (PDF) على سبيل المثال) ، أو نوعًا من طريقة الاحتمالية القصوى مع مجموعة من النص المسمى (في حال كنت تبحث خصيصًا عن عبارات الاسم).

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top