Apprentissage par renforcement: la compréhension de cette dérivation de n-étape Arbre algorithme de sauvegarde

https://datascience.stackexchange.com/questions/15860

16-10-2019
|

Question

Je pense que je reçois l'idée principale, et je comprends presque la dérivation, sauf pour cette seule ligne, voir image ci-dessous:

Je comprends ce que nous faisons en utilisant la probabilité de politique pour pondérer les récompenses de temps t + 2 (parce qu'obtenir ici dépend de la prob de prendre une action qui obtient ici). Mais je ne comprends pas pourquoi nous soustrayons De même, la fonction de la valeur du retour ...

Il a également ne semble pas correspondre au rendement cible exemple (G) implicite pour 2 sauvegarde étape sur la diapositive 15 des diapositives de cette conférence:

http://incompleteideas.net/sutton/ livre / bookdraft2016sep.pdf

La solution

Les diapositives et le livre sont cohérentes. Remarquez comment dans les coulisses il y a une restriction dans le sommatoires: à savoir $ a \ NEQ A_ {t + 1} $. Pour $ G ^ {(2)} $, vous devez "supprimer" de V_ $ {t + 1 de} $ le terme qui ne devrait pas être là, à savoir A_ $ {t + 1} $.

Maintenant, pourquoi ce terme est supprimé?

Si vous continuez à ce terme vous ajouterez $ A_ {t + 1} $ deux fois. Dans sauvegarde 1 étape, il fait partie de l'attente de l'étape $ S_ {t + 1} $.

Lorsque vous calculez la sauvegarde 2 étapes que vous souhaitez remplacer $ (S_ {t + 1}, A_ {t + 1}) $ dans l'attente 1 étape avec la valeur attendue actualisée de $ S_ {t + 2} $. Donc, vous soustraient le terme et ajouter l'attente réduit pour $ S_ {t + 2} $

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange