Question

Je suis en train d'étudier l'apprentissage de renforcement et je travaille méthodiquement Sutton et le livre de Barto plus conférences de David Silver .

Je l'ai remarqué une différence mineure dans la façon dont les processus décisionnels de Markov (de MDPS) sont définies dans ces deux sources, qui affecte la formulation des équations de Bellman, et je me demande sur le raisonnement derrière les différences et quand je pourrais choisir un ou l'autre.

Sutton et Barto, la fonction de récompense attendue est écrit $ R ^ a_ {ss'} $, tandis que dans les conférences de David Silver il est écrit $ R ^ a_ {s} $. À son tour ce qui conduit à des formulations légèrement différentes de toutes les équations de Bellman. Par exemple, à Sutton et Barto, l'équation pour l'évaluation des politiques est donnée par:

\ begin {align} v _ {\ pi} (s) = \ sum_a \ pi (a | s) \ sum_ {s '} P_ {ss'} ^ a (R_ {ss '} ^ a + \ gamma v _ {\ pi} (s' )) \ End {align}

Alors que les conférences de David Silver montrent:

\ begin {align} v _ {\ pi} (s) = \ sum_a \ pi (a | s) \ left (R_ {s} ^ a + \ gamma \ sum_ {s '} P_ {ss'} ^ a v _ {\ pi} (s ') \droite) \ End {align}

Dans les deux cas:

  • $ \ pi (a | s) $ est fonction politique - probabilité de choisir l'action $ a de $ état donné $ $ le.
  • $ \ gamma $ est le facteur de réduction.
  • $ P_ {ss '} ^ a $ est fonction de transition, la probabilité de changement d'état à $ s' s $ donné $, un $

Je comprends que $ R_ {ss '} ^ a R_ $ et $ {s} ^ a $ sont liés (par $ P_ {ss'} ^ a $), de sorte que ces deux sources expliquent exactement la même chose . Notez que la première équation peut être écrite comme

\ begin {align} v _ {\ pi} (s) & = \ Sum_a \ pi (a | s) \ sum_ {s '} (P_ {ss'} ^ AR_ {ss '} ^ a + \ gamma P_ {ss'} ^ av _ {\ pi} (s)) \\ & = \ Sum_a \ pi (a | s) \ left (\ sum_ {de '} P_ {ss'} ^ AR_ {ss '} ^ a + \ sum_ {s'} \ gamma P_ {ss'} ^ av_ { \ pi} (s') \ right) \\ & = \ Sum_a \ pi (a | s) \ left (\ sum_ {de '} P_ {ss'} ^ AR_ {ss '} ^ a + \ gamma \ sum_ {s'} P_ {ss'} ^ av_ { \ pi} (s') \ right) \ End {align}

Par conséquent, il doit être vrai que $ R_ {s} ^ a = \ {sum_ s '} {P_ ss'} ^ {un R_ ss'} ^ a $.

Ma question est de savoir s'il y a une raison pour laquelle je préférerais utiliser l'un ou l'autre notation?

J'ai commencé avec Sutton et Barto, et trouver que la notation plus intuitive - la récompense peut dépendre de l'état final, ce qui est explicite dans les équations. Cependant, il semble que dans la pratique que la notation utilisée dans les conférences vidéo décrit des calculs plus efficaces (essentiellement $ R_ {s} ^ a = \ sum_ {s '} P_ {ss'} ^ a R_ {ss'} ^ a $ est mis en cache, si la formule est traduit directement au code). Est-ce tout ce qu'il ya à cela?

Était-ce utile?

La solution

Votre intuition est correcte. Dans le cas le plus général (les définitions de Sutton), le modèle de l'environnement est la distribution de transition d'état et la distribution de récompense. Ce dernier l'un est rarement considéré, autant de fois la récompense est attribuée par le modélisateur, dépendant uniquement par l'action sélectionnée de l'état actuel et être déterministe. Comme vous l'avez mentionné simplifie beaucoup la mise en oeuvre de codage.

Licencié sous: CC-BY-SA avec attribution
scroll top