Pregunta

La regla de actualización de TD (0) Q-Learning:

Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max( Q(t) ) )
Luego tomar ya sea la mejor acción actual (a optimizar) o una acción aleatoria (al explorador)

Cuando MaxNextQ es la máxima Q que se puede conseguir en el siguiente estado ...


Pero en TD (1) Creo regla de actualización será:

Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max( Q(t) ) )

Mi pregunta:
El medio plazo gamma * Reward(t-1) que siempre voy a tomar mi mejor acción en t-1 .. que creo que impedirá la exploración ..
¿Puede alguien dar una pista?

Gracias

¿Fue útil?

Solución

Usted está hablando de "huellas de elegibilidad" el uso, ¿verdad? Ver las href="http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node78.html" rel="nofollow ecuaciones y el algoritmo .

Aviso los e_t (s, a) ecuación allí. No hay pena se aplica cuando se utiliza un paso de exploración.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top