Actualización de la Regla de la diferencia temporal

https://stackoverflow.com/questions/2929023

05-10-2019
|

Pregunta

La regla de actualización de TD (0) Q-Learning:

Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max( Q(t) ) )
Luego tomar ya sea la mejor acción actual (a optimizar) o una acción aleatoria (al explorador)

Cuando MaxNextQ es la máxima Q que se puede conseguir en el siguiente estado ...

Pero en TD (1) Creo regla de actualización será:

Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max( Q(t) ) )

Mi pregunta:
El medio plazo gamma * Reward(t-1) que siempre voy a tomar mi mejor acción en t-1 .. que creo que impedirá la exploración ..
¿Puede alguien dar una pista?

Gracias

Solución

Usted está hablando de "huellas de elegibilidad" el uso, ¿verdad? Ver las href="http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node78.html" rel="nofollow ecuaciones y el algoritmo .

Aviso los e_t (s, a) ecuación allí. No hay pena se aplica cuando se utiliza un paso de exploración.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow