Actualización de la Regla de la diferencia temporal
Pregunta
La regla de actualización de TD (0) Q-Learning:
Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max( Q(t) ) )
Luego tomar ya sea la mejor acción actual (a optimizar) o una acción aleatoria (al explorador)
Cuando MaxNextQ es la máxima Q que se puede conseguir en el siguiente estado ...
Pero en TD (1) Creo regla de actualización será:
Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max( Q(t) ) )
Mi pregunta:
El medio plazo gamma * Reward(t-1)
que siempre voy a tomar mi mejor acción en t-1
.. que creo que impedirá la exploración ..
¿Puede alguien dar una pista?
Gracias
Solución
Usted está hablando de "huellas de elegibilidad" el uso, ¿verdad? Ver las href="http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node78.html" rel="nofollow ecuaciones y el algoritmo .
Aviso los e_t (s, a) ecuación allí. No hay pena se aplica cuando se utiliza un paso de exploración.