Я догадываюсь, что хмм не является правильной моделью. Его можно использовать для угадания POS -тегов, получая последовательность тегов с самыми высокими вероятностями, основанными на предыдущих вероятностях и условных вероятностях от одного токена до следующего.
Для полной существительной фразы я не вижу, как соответствует эта модель.
Любой подход, основанный на вероятности, будет очень трудно обучать, потому что существительные фразы могут содержать много токенов. Это делает для действительно много комбинаций. Чтобы получить полезные вероятности обучения, вам нужны действительно огромные наборы обучения.
Вы можете быстро и легко получить достаточно хороший старт с создания набора правил грамматики, например, регулярных выражений, по сравнению с POS -тегами, следуя описанию в
http://en.wikipedia.org/wiki/noun_phrase#components_of_noun_phrases
или любое другое лингвистическое описание существительных фраз.