Mi presentimiento es que un HMM no es el modelo correcto. Se puede usar para adivinar etiquetas POS, derivando la secuencia de etiquetas con las probabilidades más altas basadas en probabilidades anteriores y probabilidades condicionales de un token a otro.
Para una frase sustantiva completa, no veo cómo coincide este modelo.
Cualquier enfoque basado en la probabilidad será muy difícil de entrenar, porque las frases sustantivas pueden contener muchas fichas. Esto lo convierte en muchas combinaciones. Para obtener probabilidades de capacitación útiles, necesita sets de capacitación realmente enormes.
Puede comenzar de manera rápida y fácilmente un comienzo lo suficientemente bueno creando un conjunto de reglas de gramática, por ejemplo, expresiones regulares, sobre etiquetas POS siguiendo la descripción en
http://en.wikipedia.org/wiki/noun_phrase#components_of_noun_phrases
o cualquier otra descripción lingüística de frases sustantivos.