Domanda

La regola di aggiornamento TD (0) Q-Learning:

Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max( Q(t) ) )
Poi prendere sia la migliore azione di corrente (a optimize) o un'azione casuale (per explorer)

Dove MaxNextQ è il massimo Q che può essere messo in stato successivo ...


Ma in TD (1) Credo che regola di aggiornamento sarà:

Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max( Q(t) ) )

La mia domanda:
Il mezzo termine gamma * Reward(t-1) che ho sempre prendere il mio meglio l'azione a t-1 .. che credo impedirà esplorare ..
Qualcuno può darmi un suggerimento?

Grazie

È stato utile?

Soluzione

Si sta parlando di "tracce di ammissibilità" utilizzo, giusto? Vedi le equazioni e l'algoritmo .

Nota E_T (s, a) equazione lì. Nessuna penalità quando si utilizza un passo di esplorazione.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top