Addestramento di modelli Markov nascosti senza dati corpus contrassegnati
-
20-09-2019 - |
Domanda
Per un corso di linguistica abbiamo implementato il tagging Part of Speech (POS) utilizzando un modello markov nascosto, in cui le variabili nascoste erano le parti del discorso.Abbiamo addestrato il sistema su alcuni dati contrassegnati, quindi lo abbiamo testato e confrontato i nostri risultati con i dati gold.
Sarebbe stato possibile addestrare l'HMM senza il set di addestramento contrassegnato?
Soluzione
In teoria puoi farlo.In tal caso utilizzeresti l'algoritmo Baum-Welch.È descritto molto bene Tutorial HMM di Rabiner.
Tuttavia, avendo applicato gli HMM a una parte del discorso, l'errore che si ottiene con la forma standard non sarà così soddisfacente.È una forma di massimizzazione delle aspettative che converge solo ai massimi locali.Gli approcci basati su regole battono a mani basse gli HMM, iirc.
Credo che il toolkit del linguaggio naturale NLTK per Python abbia un'implementazione HMM per quello scopo esatto.
Altri suggerimenti
La PNL è stata un paio di anni fa, ma credo che senza taggare l'HMM potrebbe aiutare a determinare le probabilità di transizione di stato/emissione di simboli di n-grammi (cioèquali sono le probabilità che "mondo" si ripeta dopo "ciao"), ma non parti del discorso.Ha bisogno del corpus taggato per apprendere come i POS sono correlati.
Se sono lontano da questo fatemelo sapere nei commenti!