Comment les scientifiques viennent avec les paramètres corrects modèles de Markov cachés et topologie à utiliser?

https://datascience.stackexchange.com/questions/8357

16-10-2019
|

Question

Je comprends comment un modèle de Markov caché est utilisé dans des séquences génomiques, telles que la recherche d'un gène. Mais je ne comprends pas comment arriver à un modèle de Markov particulier. Je veux dire, combien d'États devrait avoir le modèle? Combien de transitions possibles? le modèle devrait avoir une boucle?

Comment peuvent-ils savoir que leur modèle est optimal?

Est-ce qu'ils imaginent, disons 10 modèles différents, de référence les 10 modèles et de publier le meilleur?

La solution

Je connais trois approches principales:

A priori. Vous savez peut-être qu'il ya quatre paires de base à choisir, et ainsi permettre à l'HMM d'avoir quatre états. Ou vous savez peut-être que l'anglais a 44 phonèmes, et ont donc 44 états pour la couche de phonème caché dans un modèle de reconnaissance vocale.
Estimation. Le nombre d'états peut souvent être estimée à l'avance, peut-être par simple regroupement sur les caractéristiques observées du HMM. Si la matrice de transition HMM est triangulaire (ce qui est souvent le cas dans la prédiction de défaillance), le nombre d'états détermine la forme de la distribution du temps total à partir de l'état initial à l'état final.
Optimisation. Comme vous le suggérez, soit de nombreux modèles sont créés et en forme et le meilleur modèle sélectionné. On pourrait aussi adapter la méthodologie qui apprend le HMM pour permettre au modèle d'ajouter ou états défausse au besoin.

Autres conseils

Une autre approche consiste à prélever des modèles avec un nombre infini dénombrable d'états. La réponse à « combien » alors émerger en moyenne au cours des échantillonneurs.

http://mlg.eng.cam.ac.uk/ Zoubin / papiers / ihmm.pdf

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange