Как ученые придумывают правильные скрытые параметры модели Маркова и топологию для использования?

https://datascience.stackexchange.com/questions/8357

16-10-2019
|

Вопрос

Я понимаю, как скрытая модель Маркова используется в геномных последовательностях, таких как поиск гена. Но я не понимаю, как придумать определенную модель Маркова. Я имею в виду, сколько штатов должна иметь модель? Сколько возможных переходов? Должна ли у модели петля?

Как они узнают, что их модель оптимальна?

Представляют ли они, скажем, 10 различных моделей, сравнивают эти 10 моделей и публикуют лучшие?

Решение

Я знаком с тремя основными подходами:

Априори. Вы можете знать, что есть четыре пары базовых пар, и поэтому позвольте HMM иметь четыре состояния. Или вы можете знать, что у английского есть 44 фонемы, и поэтому есть 44 штата для скрытого слоя фонем в модели распознавания голоса.
Предварительный расчет. Количество состояний часто можно оценить заранее, возможно, путем простой кластеризации на наблюдаемых особенностях HMM. Если матрица перехода HMM является треугольной (что часто имеет место в прогнозировании отказа), количество состояний определяет форму распределения общего времени от начального состояния до конечного состояния.
Оптимизация. Как вы предлагаете, либо много моделей созданы и подходят, и лучшая выбранная модель. Можно также адаптировать методологию, которая изучает HMM, чтобы позволить модели добавлять или выбросить состояния по мере необходимости.

Другие советы

Дальнейшим подходом является выборка из моделей с счетом бесконечным числом состояний. Ответ на «Сколько» тогда появится, усредняя через пробоотборники.

http://mlg.eng.cam.ac.uk/zoubin/papers/ihmm.pdf

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange