Mise à jour Règle temporelle de la différence

https://stackoverflow.com/questions/2929023

05-10-2019
|

Question

La règle de mise à jour TD (0) Q-Learning:

Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max( Q(t) ) )
Ensuite, prendre soit la meilleure action en cours (à optimiser) ou une action au hasard (à l'explorateur)

Où MaxNextQ est le Q maximum qui peut être obtenu dans l'état suivant ...

Mais dans TD (1) Je pense que la règle de mise à jour sera:

Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max( Q(t) ) )

Ma question: Le moyen terme de gamma * Reward(t-1) que je serai toujours prendre ma meilleure action à t-1 .. que je pense préviendra explorer ..
Quelqu'un peut-il me donner un indice?

Merci

La solution

Vous parlez de l'utilisation « des traces d'admissibilité », non? Voir les équations et l'algorithme .

Remarque l'équation E_T (s, a) y. Aucune pénalité est appliquée lors de l'utilisation d'une étape d'exploration.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow