Question

Après avoir lu plusieurs questions ici et parcouru certaines pages sur le sujet, voici ma compréhension de la différence clé entre le Q-Learning (comme exemple de la politique) et les méthodes SARSA (comme exemple de politique). Veuillez me corriger si je suis induit en erreur.

1) Avec un algorithme de politique sur la politique, nous utilisons la politique actuelle (un modèle de régression avec des poids W, et sélection ε-greedy) pour générer Q.

2) Avec un algorithme hors politique, nous utilisons une version gourmand de la politique actuelle pour générer le prochain État Q.

3) Si une constante d'exploration ε est définie sur 0, alors la méthode de la politique devient la politique, puisque Q est dérivé en utilisant la même politique gourmand.

4) Cependant, la méthode On-Policy utilise un échantillon pour mettre à jour la politique, et cet échantillon provient de l'exploration mondiale en ligne car nous devons savoir exactement quelles actions que la politique génère dans les états actuels et suivants. Tandis que la méthode hors politique peut utiliser l'expérience de la relecture des trajectoires passées (générées par différentes politiques) pour utiliser une distribution des entrées et des sorties au modèle de stratégie.

enter image description here

La source: https://courses.engr.illinois.edu/cs440/fa2009/lectures/lect24.pdf

Une lecture de plus: http://mi.eng.cam.ac.uk/~mg436/lectureslides/mlsalt7/l3.pdf

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top