Meine Vermutung ist, dass ein HMM nicht das richtige Modell ist. Es kann verwendet werden, um POS -Tags zu erraten, indem die Abfolge von Tags mit den höchsten Wahrscheinlichkeiten abgeleitet wird, die auf früheren Wahrscheinlichkeiten und bedingten Wahrscheinlichkeiten von einem Token zum nächsten basieren.
Für einen vollständigen Substantivphrase sehe ich nicht, wie dieses Modell übereinstimmt.
Jeglicher Wahrscheinlichkeitsbasis ist sehr schwer zu trainieren, da Nomen -Phrasen viele Token enthalten können. Dies sorgt für wirklich viele Kombinationen. Um nützliche Schulungswahrscheinlichkeiten zu erhalten, benötigen Sie wirklich große Trainingsessätze.
Sie können schnell und einfach einen ausreichend guten Start erhalten, indem Sie eine Reihe von Grammatikregeln, beispielsweise reguläre Ausdrücke, über POS -Tags durch die Beschreibung in der Beschreibung in der Beschreibung erstellen
http://en.wikipedia.org/wiki/noun_phrase#components_of_noun_phras
oder eine andere sprachliche Beschreibung von Substantivphrasen.