Cuando dejar de calcular los valores de cada celda en la red en el aprendizaje de refuerzo (programación dinámica) aplicada en el mundo de la red

https://datascience.stackexchange.com/questions/6700

16-10-2019
|

Pregunta

Teniendo en cuenta la aplicación de aprendizaje de refuerzo (método de programación dinámica que realiza la iteración del valor) en el mundo de la red, en cada una de las iteraciones, paso por cada una de las celdas de la red y actualizo su valor dependiendo de su valor presente y el valor presente de la toma de medidas de ese estado. Ahora

¿Cuánto tiempo sigo actualizando el valor de cada celda? ¿Sigo actualizando a menos que el cambio en la función de valor anterior y presente sea la menor? No puedo entender cómo implementar el mecanismo de detención en el escenario del mundo de la red (descuento no considerado)
¿El valor es la función de los valores de todas las cuadrículas en el mundo de la cuadrícula?

Solución

1- Debe establecer un umbral (un hiperparam) que le permitirá dejar el bucle.

Deje V los valores para todos los estados S y V 'los nuevos valores después de la iteración del valor.

Si $ sum_s | v (s) - v '(s) | le umbral $, renunciar

2 - V es una función para cada celda de la cuadrícula sí porque necesita actualizar cada celda.

Espero eso ayude.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange