Confusion dans la politique et l'itération Itération valeur dans l'apprentissage Renforcement dans la programmation dynamique

https://datascience.stackexchange.com/questions/6709

16-10-2019
|

Question

Ce que je compris pour l'itération de la valeur pendant le codage est que nous devons avoir une politique fixe. Selon cette politique sera calculée la fonction de la valeur de chaque état. Droit?

Mais l'itération de la politique la politique va changer de temps en temps. Ai-je raison?

La solution

Dans l'itération de la politique, vous définissez une politique de départ et itérer vers le meilleur, en estimant la valeur d'état associé à la politique, et apporter des modifications à des choix d'action. Ainsi, la politique est explicitement enregistrée et suivie à chaque étape importante. Après chaque itération de la politique, vous recalculera la fonction de la valeur de cette politique à l'intérieur d'une certaine précision. Cela signifie que vous aussi travailler avec des fonctions de valeur qui mesurent les politiques réelles. Si vous Halted l'itération juste après l'estimation de la valeur, vous auriez une politique non-optimale et la fonction de la valeur de cette politique.

Dans l'itération de la valeur, vous résolvez implicitement pour les valeurs de l'Etat dans le cadre d'une politique idéale. Il n'y a pas besoin de définir une politique réelle au cours des itérations, vous pouvez le déduire à la fin des valeurs que vous calculez. Vous pouvez si vous le souhaitez, après une itération, utilisez les valeurs de l'État pour déterminer quelle est la politique « actuelle » est prévu. Les valeurs ne seront probablement pas une approximation de la fonction de la valeur de cette politique prévue, bien que vers la fin ils seront probablement proches.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange