我的直觉是,HMM不是正确的模型。它可以通过根据先前概率和有条件的概率从一个令牌到下一个的条件概率来得出具有最高概率的标签序列来猜测POS标签。
对于完整的名词短语,我看不到该型号的匹配方式。
任何基于概率的方法都很难训练,因为名词短语可以包含许多令牌。这确实使得很多组合。为了获得有用的培训概率,您需要非常庞大的培训集。
您可以通过按照在
http://en.wikipedia.org/wiki/noun_phrase#components_of_noun_phrases
或其他对名词短语的语言描述。