Wie kommen Wissenschaftler die richtigen Modellparameter und Topologie der versteckten Markov -Markoven?

https://datascience.stackexchange.com/questions/8357

16-10-2019
|

Frage

Ich verstehe, wie ein verstecktes Markov -Modell in genomischen Sequenzen verwendet wird, wie beispielsweise ein Gen zu finden. Aber ich verstehe nicht, wie man ein bestimmtes Markov -Modell entwickelt. Ich meine, wie viele Zustände sollte das Modell haben? Wie viele mögliche Übergänge? Sollte das Modell eine Schleife haben?

Woher würden sie wissen, dass ihr Modell optimal ist?

Stellen sie sich vor, sagen sie 10 verschiedene Modelle, beachten Sie diese 10 Modelle und veröffentlichen die besten?

Lösung

Ich bin mit drei Hauptansätzen vertraut:

A priori. Möglicherweise wissen Sie, dass es vier Basispaare zur Auswahl gibt, und lassen Sie den HMM vier Zustände haben. Oder Sie wissen vielleicht, dass Englisch 44 Phoneme hat, ebenso wie 44 Zustände für die versteckte Phonemschicht in einem Spracherkennungsmodell.
Einschätzung. Die Anzahl der Zustände kann häufig im Voraus geschätzt werden, möglicherweise durch einfaches Clustering der beobachteten Merkmale des HMM. Wenn die HMM -Übergangsmatrix dreieckig ist (was bei der Versagensvorhersage häufig der Fall ist), bestimmt die Anzahl der Zustände die Form der Verteilung der Gesamtzeit vom Startzustand bis zum Endzustand.
Optimierung. Wie Sie vorschlagen, werden entweder viele Modelle erstellt und passen und das beste Modell ausgewählt. Man könnte auch die Methodik anpassen, die das HMM lernt, damit das Modell Zustände nach Bedarf hinzufügt oder wegwerfen kann.

Andere Tipps

Ein weiterer Ansatz ist die Probe von Modellen mit einer zäher unendlichen Anzahl von Zuständen. Die Antwort auf "Wie viele" würde dann durch Mittelung der Sampler auftauchen.

http://mlg.eng.cam.ac.uk/zoubin/papers/ihmm.pdf

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit datascience.stackexchange