Comprendre l'algorithme de contrôle de la politique de la politique sur la politique

https://cs.stackexchange.com/questions/97702

reinforcement-learning
algorithms
monte-carlo

05-11-2019
|

Question

Je passe par les méthodes de Monte Carlo, et ça va bien jusqu'à présent. Cependant, j'étudie en fait la première visite de la politique de la politique pour les politiques Soft Epsilon, qui nous permet d'estimer la politique optimale de l'apprentissage du renforcement.

J'ai du mal à comprendre l'étape en bleu de l'algorithme. La paire St, n'est-elle jamais censée apparaître dans l'ensemble des états donnés? Dans ce cas, le pseudo-code suivant ne sera jamais réalisé? Quel est le cas spécifique où St, AT apparaît dans l'ensemble des états d'action?

N'hésitez pas à demander plus de détails si ma question n'est pas assez claire.

L'algorithme est tiré du livre d'apprentissage en renforcement écrit par R.Sutton et A. Barto.

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution

Non affilié à cs.stackexchange