Question

La règle de mise à jour TD (0) Q-Learning:

Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max( Q(t) ) )
Ensuite, prendre soit la meilleure action en cours (à optimiser) ou une action au hasard (à l'explorateur)

Où MaxNextQ est le Q maximum qui peut être obtenu dans l'état suivant ...


Mais dans TD (1) Je pense que la règle de mise à jour sera:

Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max( Q(t) ) )

Ma question: Le moyen terme de gamma * Reward(t-1) que je serai toujours prendre ma meilleure action à t-1 .. que je pense préviendra explorer ..
Quelqu'un peut-il me donner un indice?

Merci

Était-ce utile?

La solution

Vous parlez de l'utilisation « des traces d'admissibilité », non? Voir les équations et l'algorithme .

Remarque l'équation E_T (s, a) y. Aucune pénalité est appliquée lors de l'utilisation d'une étape d'exploration.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top