تدريب نماذج Markov المخفية دون علامة Corpus Data

https://stackoverflow.com/questions/1916892

20-09-2019
|

سؤال

بالنسبة إلى دورة اللغويات التي نفذنا جزءا من الكلام (POS) باستخدام نموذج Markov المخفي، حيث كانت المتغيرات المخفية أجزاء الكلام. قمنا بتدريب النظام على بعض البيانات الموسومة، ثم اختبرها وقارنت نتائجنا مع البيانات الذهبية.

هل كان من الممكن تدريب HMM بدون مجموعة التدريب الموسومة؟

المحلول

من الناحية النظرية يمكنك القيام بذلك. في هذه الحالة، ستستخدم خوارزمية BAUM-WELCH. يوصف جيدا في Rabiner's Hmm التعليمي.

ومع ذلك، بعد تطبيق HMMS إلى جزء من الكلام، لن يكون الخطأ الذي تحصل عليه مع النموذج القياسي مرهبا للغاية. إنه شكل من أشكال التوقعات التي تتقارب فقط إلى Maxima المحلية. النهج القائمة على القاعدة تغلب على HMMS يد أسفل، IIRC.

أعتقد أن مجموعة أدوات اللغة الطبيعية NLTK for Python لديها تطبيق HMM لهذا الغرض بالضبط.

نصائح أخرى

كان NLP قبل بضع سنوات، لكنني أعتقد دون وضع علامات HMM يمكن أن يساعد في تحديد احتمالات انتقال الرموز / الدولة للانتقال من N-Grams (أي ما هي احتمالات "العالم" الذي يحدث بعد "مرحبا")، ولكن ليس من أجزاء -خطاب. يحتاج إلى العلامة الموسومة لمعرفة كيف يتماشى نقاط البيع.

إذا كنت خارج هذا، فأعلمني في التعليقات!

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow