科学家如何提出正确使用的Markov模型参数和拓扑？

题

我了解如何在基因组序列中使用隐藏的马尔可夫模型，例如找到基因。但是我不明白如何提出特定的马尔可夫模型。我的意思是，该模型应该有几个州？多少可能的过渡？该模型应该有一个循环吗？

他们怎么知道自己的模型是最佳的？

他们是否想像说10种不同的型号，基准这10个型号并发布最好的模型？

解决方案

我熟悉三种主要方法：

先验。您可能知道有四对基本对可供选择，因此让HMM具有四个状态。或者您可能知道英语有44个音素，因此在语音识别模型中有44个为隐藏音素层的状态。
估计。通常可以通过对观察到的HMM的特征进行简单聚类来事先估算状态的数量。如果HMM过渡矩阵是三角形的（在失败预测中通常是这种情况），则状态数确定了从开始状态到最终状态的总时间分布的形状。
优化。像您建议的那样，要么创建和适合许多型号，因此选择了最佳模型。人们还可以调整学习HMM的方法，以允许模型根据需要添加或丢弃状态。

其他提示

另一种方法是从具有无数状态数量的模型中进行采样。然后，通过平均采样器来出现“多少”的答案。

许可以下： CC-BY-SA 和归因