Addestramento di modelli Markov nascosti senza dati corpus contrassegnati

https://stackoverflow.com/questions/1916892

20-09-2019
|

Domanda

Per un corso di linguistica abbiamo implementato il tagging Part of Speech (POS) utilizzando un modello markov nascosto, in cui le variabili nascoste erano le parti del discorso.Abbiamo addestrato il sistema su alcuni dati contrassegnati, quindi lo abbiamo testato e confrontato i nostri risultati con i dati gold.

Sarebbe stato possibile addestrare l'HMM senza il set di addestramento contrassegnato?

Soluzione

In teoria puoi farlo.In tal caso utilizzeresti l'algoritmo Baum-Welch.È descritto molto bene Tutorial HMM di Rabiner.

Tuttavia, avendo applicato gli HMM a una parte del discorso, l'errore che si ottiene con la forma standard non sarà così soddisfacente.È una forma di massimizzazione delle aspettative che converge solo ai massimi locali.Gli approcci basati su regole battono a mani basse gli HMM, iirc.

Credo che il toolkit del linguaggio naturale NLTK per Python abbia un'implementazione HMM per quello scopo esatto.

Altri suggerimenti

La PNL è stata un paio di anni fa, ma credo che senza taggare l'HMM potrebbe aiutare a determinare le probabilità di transizione di stato/emissione di simboli di n-grammi (cioèquali sono le probabilità che "mondo" si ripeta dopo "ciao"), ma non parti del discorso.Ha bisogno del corpus taggato per apprendere come i POS sono correlati.

Se sono lontano da questo fatemelo sapere nei commenti!

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow