Treinamento de modelos ocultos de Markov sem dados de corpus marcados

https://stackoverflow.com/questions/1916892

20-09-2019
|

Pergunta

Para um curso de linguística, implementamos a marcação de classes gramaticais (POS) usando um modelo de Markov oculto, onde as variáveis ocultas eram as classes gramaticais.Treinamos o sistema em alguns dados marcados e, em seguida, testamos e comparamos nossos resultados com os dados dourados.

Seria possível treinar o HMM sem o conjunto de treinamento marcado?

Solução

Em teoria você pode fazer isso.Nesse caso, você usaria o Algoritmo Baum-Welch.Está muito bem descrito em Tutorial HMM de Rabiner.

No entanto, tendo aplicado HMMs à classe gramatical, o erro obtido com o formulário padrão não será tão satisfatório.É uma forma de maximização de expectativas que apenas converge para máximos locais.Abordagens baseadas em regras vencem os HMMs, iirc.

Acredito que o kit de ferramentas de linguagem natural NLTK para python tenha uma implementação HMM exatamente para esse propósito.

Outras dicas

A PNL foi há alguns anos, mas acredito que sem marcação o HMM poderia ajudar a determinar as probabilidades de emissão de símbolo/transição de estado de n-gramas (ou seja,quais são as chances de "mundo" ocorrer depois de "olá"), mas não de classes gramaticais.Ele precisa do corpus marcado para aprender como os PDVs se inter-relacionam.

Se eu estiver errado nisso, deixe-me saber nos comentários!

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow