Pregunta

Intento comprender los detalles sobre el uso Modelo oculto de Markov en el problema de etiquetado.

La mejor descripción concisa que encontré es la Notas del curso de Michal Collins.

El objetivo es encontrar una función $ f (x) = arg max_ {y in y} p (y | x) $, donde $ y $ es la etiqueta establecida para la oración $ x $.

Pregunta 1. Se sugiere utilizar un modelo generativo y estimar la probabilidad conjunta $ P (x, y) $ de los ejemplos de capacitación, sin embargo, ¿cuál es la razón para usar el modelo generativo y aumentar el número de cálculo por qué no estimar directamente $ p (y | x) $, creo que es posible estimar la probabilidad condicional directa de los datos de capacitación.

Apéndice. ¿Sabes la razón por la cual debemos intentar usar un modelo generativo en este caso (etiquetado con POS)? Como entiendo, si podemos estimar $ p (x, y) $ que exactamente con el mismo éxito podemos estimar $ p (y | x) $ y encontrar directamente la respuesta a la pregunta, cuál es el mejor etiquetado - $ hat hat {y} $ sin suposición débil de modelo generativo. Existe la razón para usar el modelo generativo, y todavía no lo veo. ¿Puedes explicarme cuál es la razón?

Pregunta 2. Suponga que decidimos usar un modelo generativo e hicimos estimación a $ p (x, y) $ por qué decidimos descomponerlo de la siguiente manera $ p (x, y) = p (y) p (x | y) $ y no $ p (x, y) = p (x) p (y | x) $?

Apéndice. Entiendo que es muy lógico usar la descomposición $ p (y) p (x | y) $ solo porque al hacerlo nos acercamos a $ p (y | x) $, por lo que matemáticamente parece muy razonable, sin embargo, según el tarea No veo cuál es el problema para descomponerlo como $ p (x, y) = p (x) p (y | x) $, debería haber una razón por la que no podamos descomponerlo así y no yo no entender porqué.

Aprecio tu ayuda.

No hay solución correcta

Licenciado bajo: CC-BY-SA con atribución
No afiliado a cs.stackexchange
scroll top