科学家如何提出正确使用的Markov模型参数和拓扑?
-
16-10-2019 - |
题
我了解如何在基因组序列中使用隐藏的马尔可夫模型,例如找到基因。但是我不明白如何提出特定的马尔可夫模型。我的意思是,该模型应该有几个州?多少可能的过渡?该模型应该有一个循环吗?
他们怎么知道自己的模型是最佳的?
他们是否想像说10种不同的型号,基准这10个型号并发布最好的模型?
解决方案
我熟悉三种主要方法:
先验。您可能知道有四对基本对可供选择,因此让HMM具有四个状态。或者您可能知道英语有44个音素,因此在语音识别模型中有44个为隐藏音素层的状态。
估计。通常可以通过对观察到的HMM的特征进行简单聚类来事先估算状态的数量。如果HMM过渡矩阵是三角形的(在失败预测中通常是这种情况),则状态数确定了从开始状态到最终状态的总时间分布的形状。
优化。像您建议的那样,要么创建和适合许多型号,因此选择了最佳模型。人们还可以调整学习HMM的方法,以允许模型根据需要添加或丢弃状态。
其他提示
另一种方法是从具有无数状态数量的模型中进行采样。然后,通过平均采样器来出现“多少”的答案。