Modelle für die Klassifizierung des Substantivphrase?

Question 1

Meine Vermutung ist, dass ein HMM nicht das richtige Modell ist. Es kann verwendet werden, um POS -Tags zu erraten, indem die Abfolge von Tags mit den höchsten Wahrscheinlichkeiten abgeleitet wird, die auf früheren Wahrscheinlichkeiten und bedingten Wahrscheinlichkeiten von einem Token zum nächsten basieren.

Für einen vollständigen Substantivphrase sehe ich nicht, wie dieses Modell übereinstimmt.

Jeglicher Wahrscheinlichkeitsbasis ist sehr schwer zu trainieren, da Nomen -Phrasen viele Token enthalten können. Dies sorgt für wirklich viele Kombinationen. Um nützliche Schulungswahrscheinlichkeiten zu erhalten, benötigen Sie wirklich große Trainingsessätze.

Sie können schnell und einfach einen ausreichend guten Start erhalten, indem Sie eine Reihe von Grammatikregeln, beispielsweise reguläre Ausdrücke, über POS -Tags durch die Beschreibung in der Beschreibung in der Beschreibung erstellen

http://en.wikipedia.org/wiki/noun_phrase#components_of_noun_phras

oder eine andere sprachliche Beschreibung von Substantivphrasen.

Question 2

Soweit ich verstehe, haben Sie bereits POS -Tags für die Abfolge von Wörtern. Sobald Sie Tags für die Abfolge von Wörtern haben, müssen Sie HMM nicht verwenden, um zu klassifizieren, ob die Sequenz ein NP ist. Alles, was Sie tun müssen, ist nach Mustern der folgenden Formen zu suchen:

Bestimmer gefolgt von Substantiv
Adjektiv gefolgt von Substantiv
Bestimmer, gefolgt von Adjektiv, gefolgt von Substantiv

etc

Wie gerade jemand erwähnt, werden HMMs verwendet, um POS -Tags für eine neue Abfolge von Wörtern zu erhalten. Aber dafür benötigen Sie einen markierten Korpus, um das HMM zu trainieren. In der NLTK -Software sind einige markierte Corpus erhältlich.

Wenn Ihre Sequenzen bereits markiert sind, verwenden Sie einfach Grammatikregeln, wie in der vorherigen Antwort erwähnt.

Question 3

Menschen verwenden HMMs, um Substantive-Phrasen in POS-markierten Sätzen zu kennzeichnen, aber das typische Modell-Setup funktioniert nicht so, wie Sie beschreiben.

Stattdessen das Setup (siehe Chunk-Tagger-statistische Erkennung von Substantivphrasen (PDF) und Benannte Entitätserkennung unter Verwendung eines HMM-basierten Chunk-Taggers (PDF) Beispiele) ist die Verwendung eines HMM mit drei Zuständen:

O (nicht in einem NP),
B (Beginn eines NP),
Ich (in einem NP, aber nicht der Anfang).

Jedes Wort in einem Satz wird von der HMM einen der Zustände zugewiesen. Als Beispiel der Satz:

Der/dt Boy/nn Hit/vt den/dt Ball/nn mit/pp the/dt rot/adj bat/nn ./.

könnte ideal wie folgt beschriftet werden:

Die/dt B Junge/nn ich hit/vt Ö die/dt B Ball/nn ich mit/pp Ö die/dt B rot/adj ich Fledermaus/nn ich ./. Ö

Die Übergänge zwischen diesen drei HMM -Zuständen können auf der Grundlage der Vorkenntnisse darüber begrenzt werden, wie sich die Sequenzen verhalten werden. Insbesondere können Sie nur von B zu i wechseln, aber die anderen Übergänge sind alle mit der Wahrscheinlichkeit von ungleich Null möglich. Sie können dann Baum-Welch auf einem Korpus mit unbeschriftetem Text verwenden, um Ihre HMM zu trainieren (um überhaupt jede Art von Chunk zu identifizieren-siehe Einfache unbeaufsichtigte Grammatikinduktion aus Rohtext mit kaskadierten Finite -Status -Modellen (PDF) zum Beispiel) oder eine Art maximaler Likelihood-Methode mit einem Korpus mit gekennzeichnetem Text (falls Sie speziell nach Substantivphrasen suchen).