Training Hidden-Markov-Modelle ohne Tagged Corpus Daten

https://stackoverflow.com/questions/1916892

20-09-2019
|

Frage

Für eine Linguistik Kurs implementiert wir Wortart (PO) Tagging ein Hidden-Markov-Modell, wo die verborgenen Variablen die Teile der Rede waren. Wir trainierten das System auf einigen gekennzeichneten Daten und getestet es dann und verglichen unsere Ergebnisse mit den Gold-Daten.

Wäre es möglich gewesen, die HMM ohne den etikettierten Trainingssatz zu trainieren?

Lösung

In der Theorie können Sie das tun. In diesem Fall würden Sie den Baum-Welch-Algorithmus verwenden. Es wird beschrieben, sehr gut in Rabiner des HMM Tutorial .

jedoch mit angewandtem HMM auf einen Teil der Rede, die Fehler, den Sie mit dem Standardformular bekommt nicht so befriedigend sein. Es ist eine Form von Erwartungsmaximierungs, die lokalen Maxima konvergiert nur. Regelbasierte Ansätze schlagen HMM Hände nach unten, iirc.

Ich glaube, die natürliche Sprache Toolkit NLTK für Python eine HMM Implementierung für diesen genauen Zweck hat.

Andere Tipps

NLP war vor ein paar Jahren, aber ich glaube, ohne die HMM-Tagging könnte die Symbol Emission / Zustandsübergangswahrscheinlichkeiten von n-Gramm ermitteln (dh, was die Chancen der „Welt“ auftritt, nachdem „Hallo“), aber nicht Teile der Rede. Es braucht den getaggten Korpus wie die POS miteinander in Beziehung zu lernen.

Wenn ich weg auf das lassen Sie mich in den Kommentaren wissen!

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow