科学者は、どのようにして正しい隠されたマルコフモデルパラメーターとトポロジを使用するのですか？

質問

私は、遺伝子を見つけるなどのゲノムシーケンスで隠されたマルコフモデルがどのように使用されるかを理解しています。しかし、私は特定のマルコフモデルを思いつく方法を理解していません。つまり、モデルにはいくつの州が必要ですか？可能な移行の可能性はありますか？モデルにはループが必要ですか？

彼らは自分のモデルが最適であることをどのように知っていますか？

彼らは、10の異なるモデルと言って、これらの10のモデルをベンチマークし、最高のモデルを公開すると想像していますか？

解決

私は3つの主なアプローチに精通しています：

アプリオリ。選択する4つの塩基対があることを知っているかもしれないので、うーんに4つの状態を持たせることができます。または、英語には44個の音素があることを知っているかもしれません。また、音声認識モデルに隠された音素層用の44の状態もあることを知っているかもしれません。
推定。おそらく、HMMの観察された特徴を簡単にクラスタリングすることにより、多くの場合、事前に推定されることができます。 HMM遷移マトリックスが三角形の場合（障害予測の場合が多いことがよくあります）、状態の数は、開始状態から最終状態までの合計時間の分布の形状を決定します。
最適化。あなたが提案するように、多くのモデルが作成されてフィットし、選択された最良のモデルのいずれかがいます。また、必要に応じてモデルが状態を追加または破棄できるように、HMMを学習する方法論を適応させることもできます。

他のヒント

さらなるアプローチは、多数の無限の数の状態を持つモデルからサンプリングすることです。サンプラーを平均化することにより、「いくつ」に対する答えが現れます。

ライセンス： CC-BY-SA と帰属