Aggiornamento regola nella differenza temporale
Domanda
La regola di aggiornamento TD (0) Q-Learning:
Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max( Q(t) ) )
Poi prendere sia la migliore azione di corrente (a optimize) o un'azione casuale (per explorer)
Dove MaxNextQ è il massimo Q che può essere messo in stato successivo ...
Ma in TD (1) Credo che regola di aggiornamento sarà:
Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max( Q(t) ) )
La mia domanda:
Il mezzo termine gamma * Reward(t-1)
che ho sempre prendere il mio meglio l'azione a t-1
.. che credo impedirà esplorare ..
Qualcuno può darmi un suggerimento?
Grazie
Soluzione
Si sta parlando di "tracce di ammissibilità" utilizzo, giusto? Vedi le equazioni e l'algoritmo .
Nota E_T (s, a) equazione lì. Nessuna penalità quando si utilizza un passo di esplorazione.