Quelle est la fonction Q et quelle est la fonction V dans l'apprentissage de renforcement?

https://datascience.stackexchange.com/questions/9832

16-10-2019
|

Question

Il me semble que la fonction $ $ V peut être facilement exprimée par la Q $ fonction $ et donc la fonction $ $ V semble être superflu pour moi. Cependant, je suis nouveau à l'apprentissage de renforcement, donc je suppose que je suis quelque chose de mal.

Définitions

Q et V-apprentissage sont dans le contexte de Markov processus de décision . A MDP est un 5 $ tuple (S, A, P, R, \ gamma) avec $

$ S $ est un ensemble d'états (généralement fini)
$ A $ est un ensemble d'actions (généralement fini)
$ P (s, s', a) = P (S_ {t + 1} = s | S_T = s, a_t = a) $ est la probabilité d'obtenir de l'état $ s $ à $ État de l $ l'action $ a $.
$ R (s, s', a) \ in \ mathbb {R} $ est la récompense immédiate après avoir d'un État $ s $ à $ État de $ l'action $ a $. (Il me semble que généralement $ de questions $).
$ \ gamma \ dans [0, 1] $ est appelé facteur d'actualisation et détermine si l'on se concentre sur des récompenses immédiates ($ \ gamma = 0 $), la récompense totale ($ \ gamma = 1 $) ou certains au commerce off.

politique $ \ pi $ , selon Apprentissage par renforcement : introduction par Sutton et Barto est une fonction $ \ pi: S \ rightarrow a $ (cela pourrait être probabiliste)

Selon Mario Martins , $ V fonction $ est $$ V ^ \ pi (s) = E_ \ pi \ {R_t | S_T = s \} = E_ \ pi \ {\ sum_ {k = 0} ^ \ infty \ gamma ^ k r_ {t + k + 1} | S_T = s \} $$ et la fonction Q est $$ Q ^ \ pi (s, a) = E_ \ pi \ {R_t | S_T = s, a_t = a \} = E_ \ pi \ {\ sum_ {k = 0} ^ \ infty \ gamma ^ k r_ {t + k + 1} | S_T = s, = a a_t \} $$

Mes pensées

Les $ V états de fonction $ ce que la valeur globale attendue (non récompense!) D'un état $ s $ en vertu de la politique $ \ pi $ est.

Les états de fonction Q $ $ ce que la valeur d'un $ et une action de $ État de $ a $ en vertu de la politique $ \ pi $ est.

Cela signifie, $$ ^ Q \ pi (s, \ pi (s)) = V ^ \ pi (s) $$

Droit

? Alors pourquoi nous avons la fonction de valeur du tout? (Je suppose que j'embrouille quelque chose)

La solution

Q-valeurs sont une excellente façon de les actions de explicitent afin que vous puissiez faire face à des problèmes où la fonction de transition ne sont pas disponibles (sans modèle). Cependant, lorsque votre action l'espace est grand, les choses ne sont pas si agréable et Q-valeurs ne sont pas si pratique. Pensez à un grand nombre d'actions ou même d'action-espaces continus.

Du point de vue de l'échantillonnage, la dimension de $ Q (s, a) $ est supérieur à $ V (s ) $ il pourrait devenir plus difficile d'obtenir suffisamment de $ (s, a) $ échantillons en comparaison avec $ (s) $ . Si vous avez accès à la fonction de transition parfois $ V $ est bon.

Il y a aussi d'autres utilisations où les deux sont combinés. Par exemple, la fonction d'avantage où $ A (s, a) = Q (s, a) - V (s) $ . Si vous êtes intéressé, vous pouvez trouver un exemple récent en utilisant des fonctions d'avantage ici:

Dueling Architectures réseau pour l'apprentissage en profondeur Renforcement

par Ziyu Wang, Tom Schaul, Matteo Hessel, Hado van Hasselt, Marc Lanctot et Nando de Freitas.

Autres conseils

$ V ^ \ pi (s) $ est la fonction de valeur d'état de MDP (Processus de décision de Markov). Il est le rendement attendu à partir de l'état de $ $ politique suivante $ \ pi $ .

Dans l'expression

V ^ $$ \ pi (s) = E_ \ pi \ {G_t | S_T = s \} $$

$ G_t $ est la récompense total actualisé de pas de temps $ t $ , par opposition à < span class = "math-conteneur"> $ R_t $ qui est un retour immédiat. Ici, vous prenez l'attente d'actions TOUS selon la politique $ \ pi $ .

$ Q ^ \ Pi (s, a) $ est la fonction de valeur de mesure. Il est le rendement attendu à partir de l'état de $ $ , politique suivante $ \ pi $ , prendre des mesures < span class = "math-conteneur"> $ a $ . Il est en se concentrant sur l'action particulière à l'état particulier.

$$ ^ Q \ pi (s, a) = E_ \ pi \ {G_t | S_T = s, a_t = a \} $$

La relation entre $ Q ^ \ pi $ et $ V ^ \ pi $ (la valeur d'être dans cet état) est

$$ ^ V \ pi (s) = \ sum_ {a ? A} \ pi (a | s) * Q ^ \ pi (a, s) $$

Vous somme toute action valeur multipliée par la probabilité de prendre cette mesure (la politique $ \ pi (a | s) $ ).

Si vous pensez à l'exemple du monde de la grille, vous multipliez la probabilité (haut / bas / droite / gauche) avec une Echelon avance d'état de (haut / bas / droite / gauche).

Vous avez raison, la $ V $ fonction vous donne la valeur d'un état, et $ Q $ vous donne la valeur d'une action dans un état (suite à une politique donnée $ \ pi $ ). J'ai trouvé la plus claire explication de Q-apprentissage et comment cela fonctionne dans le livre de Tom Mitchell « Machine Learning » (1997), ch. 13, qui est téléchargeable. $ V $ est définie comme la somme d'une série infinie, mais ce ne est pas important. Ce qui importe est la $ Q $ fonction est définie comme

$$ Q (s, a) = r (s, a) + \ gamma v ^ {*} (\ delta (s, a)) $$ où V * est la meilleure valeur d'un état si vous pouviez suivre une politique optimale que vous ne connaissez pas. Cependant, il a une caractérisation agréable en termes de $ Q $ $$ V ^ {*} (s) = \ max_ {a '} Q (s, a') $$ Informatique $ Q $ se fait en remplaçant le $ V ^ * $ dans la première équation pour donner $$ Q (s, a) = r (s, a) + \ gamma \ max_ {a '} Q (\ delta (s, a), a') $$

Cela peut sembler une récursion étrange au premier abord parce que son expression la valeur Q d'une action dans l'état actuel en termes de la meilleure valeur Q successeur État, mais il est logique quand vous regardez la manière dont le processus de sauvegarde utilisent: le processus d'exploration arrête quand il atteint un état d'objectif et recueille la récompense, qui devient la valeur Q de cette transition finale. Maintenant, dans un épisode de formation ultérieure, lorsque le processus d'exploration atteint cet état prédécesseur, le processus de sauvegarde utilise l'égalité ci-dessus pour mettre à jour la valeur actuelle Q de l'Etat prédécesseur. La prochaine fois que son prédécesseur est visité que la valeur Q de l'Etat est mis à jour, et ainsi de suite vers le bas de la ligne (le livre de Mitchell décrit une façon plus efficace de le faire en stockant tous les calculs et les rejouant plus tard). A condition chaque État est rendu infiniment souvent ce processus calcule finalement le Q optimal

Parfois, vous verrez un taux d'apprentissage $ \ alpha $ appliqué pour contrôler la quantité Q obtient effectivement mis à jour: $$ Q (s, a) = (1- \ alpha) Q (s, a) + \ alpha (r (s, a) + \ gamma \ max_ {a '} Q (s', a ')) $$ $$ = Q (s, a) + \ alpha (r (s, a) + \ gamma \ max_ {a} Q '(s', A ') - Q (s, a)) $$ Remarquez maintenant que la mise à jour à la valeur Q fait dépendent de la valeur actuelle de Q. Le livre de Mitchell explique aussi pourquoi c'est et pourquoi vous avez besoin $ \ alpha $ : son pour MDPs stochastiques. Sans $ \ alpha $ , chaque fois qu'un état, une paire d'action a été tentée il y aurait une récompense différente si la fonction Q ^ rebondirait dans tous les sens et ne pas converger. $ \ alpha $ est là pour que les nouvelles connaissances ne sont acceptées en partie. Initialement $ \ alpha $ est haute de sorte que le courant (valeurs essentiellement aléatoires) de Q sont moins influent. $ \ alpha $ diminue à mesure que progresse la formation, de sorte que les mises à jour de nouvelles ont de moins en moins d'influence, et maintenant l'apprentissage Q converge

Voici une explication plus détaillée de la relation entre la valeur de l'état et la valeur de l'action dans la réponse d'Aaron. Nous allons d'abord jeter un oeil à la définition de la fonction de valeur et la fonction de la valeur de l'action politique dans le cadre $ \ pi $ : \ begin {align} & V _ {\ pi} (s) = E {\ left [G_t | S_T = s \ right]} \\ & Q _ {\ pi} (s, a) = E {\ left [G_t | S_T = s, A_t = a \ right]} \ End {align} où $ G_t = \ sum_ {k = 0} ^ {\ infty} \ gamma ^ kR_ {t + k + 1} $ est le retour à l'heure $ t $ . La relation entre ces deux fonctions de valeur peut être calculée comme \ begin {align} v _ {\ pi} (s) & = E {\ left [G_t | S_T = s \ right]} \ nonumber \\ & = \ {Sum_ g_t} p (g_t | S_T = s) g_t \ nonumber \\ & = \ {Sum_ g_t} \ sum_ {a} p (g_t, a | S_T = s) g_t \ nonumber \\ & = \ Sum_ {a} p (a | S_T = s) \ {sum_ g_t} p (g_t | S_T = s, A_t = a) g_t \ nonumber \\ & = \ Sum_ {a} p (a | S_T = s) E {\ left [G_t | S_T = s, A_t = a \ right]} \ nonumber \\ & = \ Sum_ {a} p (a | S_T = s) q _ {\ pi} (s, a) \ End {align} L'équation ci-dessus est important. Il décrit la relation entre deux fonctions de valeur fondamentale dans l'apprentissage de renforcement. Il est valable pour toute politique. De plus, si nous avons un déterministe politique, puis $ v _ {\ pi} (s) = q _ {\ pi} (s, \ pi (s) ) $ . Espérons que cela est utile pour vous. (Pour en savoir plus sur l'équation optimalité Bellman https: //stats.stackexchange. com / questions / 347268 / preuve de Bellman-optimalité équation / 370198 # 370198 )

La fonction de valeur est une formulation abstraite de l'utilité. Et la fonction Q est utilisée pour l'algorithme de Q-learning.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange