Обучение скрытых марковских моделей без размеченных корпусных данных

https://stackoverflow.com/questions/1916892

20-09-2019
|

Вопрос

Для курса лингвистики мы внедрили тегирование части речи (POS) с использованием скрытой модели Маркова, где скрытыми переменными были части речи.Мы обучили систему на некоторых помеченных данных, а затем протестировали ее и сравнили наши результаты с золотыми данными.

Можно ли было бы обучить HMM без помеченного обучающего набора?

Решение

Теоретически вы можете это сделать.В этом случае вы должны использовать алгоритм Баума-Уэлча.Очень хорошо описано в Учебник Рабинера по HMM.

Однако, применив HMM к части речи, ошибка, которую вы получите при использовании стандартной формы, будет не столь приятной.Это форма максимизации ожиданий, которая сходится только к локальным максимумам.Подходы, основанные на правилах, превосходят HMM, iirc.

Я считаю, что набор инструментов естественного языка NLTK для Python имеет реализацию HMM именно для этой цели.

Другие советы

НЛП было пару лет назад, но я считаю, что без маркировки HMM может помочь определить вероятности испускания символов/перехода состояний n-грамм (т.е.какова вероятность появления слова «мир» после «привет»), но не частей речи.Ему нужен корпус с тегами, чтобы узнать, как взаимодействуют POS.

Если я далек от этого, дайте мне знать в комментариях!

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow