Mise à jour Règle temporelle de la différence
Question
La règle de mise à jour TD (0) Q-Learning:
Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max( Q(t) ) )
Ensuite, prendre soit la meilleure action en cours (à optimiser) ou une action au hasard (à l'explorateur)
Où MaxNextQ est le Q maximum qui peut être obtenu dans l'état suivant ...
Mais dans TD (1) Je pense que la règle de mise à jour sera:
Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max( Q(t) ) )
Ma question:
Le moyen terme de gamma * Reward(t-1)
que je serai toujours prendre ma meilleure action à t-1
.. que je pense préviendra explorer ..
Quelqu'un peut-il me donner un indice?
Merci
La solution
Vous parlez de l'utilisation « des traces d'admissibilité », non? Voir les équations et l'algorithme .
Remarque l'équation E_T (s, a) y. Aucune pénalité est appliquée lors de l'utilisation d'une étape d'exploration.