Mon intuition est qu'un HMM n'est pas le bon modèle. Il peut être utilisé pour deviner les balises POS, en dérivant la séquence des balises avec les probabilités les plus élevées en fonction des probabilités antérieures et des probabilités conditionnelles d'un jeton à l'autre.
Pour une phrase nominale complète, je ne vois pas comment ce modèle correspond.
Toute approche basée sur les probabilités sera très difficile à former, car les phrases nominales peuvent contenir de nombreux jetons. Cela fait de très nombreuses combinaisons. Pour obtenir des probabilités de formation utiles, vous avez besoin d'ensembles de formation vraiment énormes.
Vous pouvez rapidement et facilement obtenir un début suffisamment bon en créant un ensemble de règles de grammaire, par exemple des expressions régulières, sur des étiquettes POS en suivant la description en
http://en.wikipedia.org/wiki/noun_phrase#components_of_noun_phrases
ou toute autre description linguistique des phrases nominales.