我了解如何在基因组序列中使用隐藏的马尔可夫模型,例如找到基因。但是我不明白如何提出特定的马尔可夫模型。我的意思是,该模型应该有几个州?多少可能的过渡?该模型应该有一个循环吗?

他们怎么知道自己的模型是最佳的?

他们是否想像说10种不同的型号,基准这10个型号并发布最好的模型?

有帮助吗?

解决方案

我熟悉三种主要方法:

  1. 先验。您可能知道有四对基本对可供选择,因此让HMM具有四个状态。或者您可能知道英语有44个音素,因此在语音识别模型中有44个为隐藏音素层的状态。

  2. 估计。通常可以通过对观察到的HMM的特征进行简单聚类来事先估算状态的数量。如果HMM过渡矩阵是三角形的(在失败预测中通常是这种情况),则状态数确定了从开始状态到最终状态的总时间分布的形状。

  3. 优化。像您建议的那样,要么创建和适合许多型号,因此选择了最佳模型。人们还可以调整学习HMM的方法,以允许模型根据需要添加或丢弃状态。

其他提示

另一种方法是从具有无数状态数量的模型中进行采样。然后,通过平均采样器来出现“多少”的答案。

http://mlg.eng.cam.ac.uk/zoubin/papers/ihmm.pdf

许可以下: CC-BY-SA归因
scroll top