Question

Pour un cours de linguistique nous avons mis en partie le marquage vocale (POS) en utilisant un modèle de Markov caché, où les variables cachées étaient les parties du discours. Nous avons formé le système sur certaines données marquées, puis testé et comparé nos résultats avec les données d'or.

Aurait-il été possible de former le HMM sans l'ensemble de la formation étiquetée?

Était-ce utile?

La solution

En théorie, vous pouvez le faire. Dans ce cas, vous devez utiliser le Baum-Welch-algorithme. Il est très bien décrit dans Tutoriel HMM de Rabiner.

Cependant, ayant HMM appliqué à une partie de la parole, l'erreur que vous obtenez avec le formulaire standard ne sera pas si satisfaisant. Il est une forme de maximisation de l'espérance qui converge seulement aux maxima locaux. approches à base de règles battre HMM mains vers le bas, IIRC.

Je crois que la boîte à outils langage naturel NLTK pour python a une implémentation HMM à cette fin précise.

Autres conseils

PNL a été il y a quelques années, mais je crois que sans marquage HMM pourrait aider à déterminer les probabilités d'émission de symboles / transition de l'état de n-grammes (ie quelles sont les chances de « monde » se produisant après « bonjour »), mais pas parties du discours. Il a besoin du corpus étiqueté pour savoir comment les POS sont interreliés.

Si je suis loin sur ce laissez-moi savoir dans les commentaires!

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top