Confusión en la iteración de la política y la iteración del valor en el aprendizaje de refuerzo en la programación dinámica

https://datascience.stackexchange.com/questions/6709

16-10-2019
|

Pregunta

Lo que entendí para la iteración de valor mientras se codifica es que necesitamos tener una póliza solucionada. De acuerdo con esa política, se calculará la función de valor de cada estado. ¿Derecha?

Pero en la iteración de la política, la política cambiará de vez en cuando. ¿Estoy en lo cierto?

Solución

En la iteración de la política, define una política inicial e itera hacia la mejor, al estimar el valor del estado asociado con la política y hacer cambios en las elecciones de acción. Por lo tanto, la política se almacena y rastrea explícitamente en cada paso principal. Después de cada iteración de la política, vuelve a calcular la función de valor para esa política dentro de una cierta precisión. Eso significa que también trabaja con funciones de valor que miden las políticas reales. Si detuvo la iteración justo después de la estimación del valor, tendría una política no óptima y la función de valor para esa política.

En la iteración del valor, usted resuelve implícitamente los valores del estado bajo una política ideal. No es necesario definir una política real durante las iteraciones, puede derivarla al final de los valores que calcula. Podría si lo desea, después de cualquier iteración, usar los valores del estado para determinar qué política "actual" se predice. Es probable que los valores no se aproximen a la función de valor para esa política predicha, aunque hacia el final probablemente estarán cerca.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange