Fonction Avantage RL Pourquoi a = qv au lieu de a = vq?

https://datascience.stackexchange.com/questions/37673

31-10-2019
|

Question

Dans Cours RL par David Silver - Conférence 7: Méthodes de gradient politique, David explique ce qu'est une fonction avantageuse, et comment c'est la différence entre Q (S, A) et le V (S)

Préliminaire, de ce post:

Rappelez d'abord qu'une politique $ pi $ est une cartographie de chaque état, $ s $, action $ a $, à la probabilité $ pi (a mid s) $ d'agir $ a $ En l'état $ s $.

La fonction de valeur d'état, $ V ^ pi (s) $, est le rendement attendu lors du début de l'état $ s $ et suivant $ pi $ après.

De même, la fonction de valeur d'action d'état, $ Q ^ pi (s, a) $, est le rendement attendu du démarrage en état $ s $, Prendre part $ a $, et la politique suivante $ pi $ après.

D'après ce que je comprends, $ V (s) $ est toujours plus grand que $ Q (s, a) $, parce que la fonction $ V $ Comprend la récompense pour l'état actuel $ s $, contrairement à $ Q $. Alors, pourquoi la fonction avantageuse est-elle définie comme $ A = v - q $ plutôt que $ A = q - v $ (à la minute 1:12:29 dans la vidéo)?

En fait, V n'est peut-être pas plus grand que Q, car $ s $ pourrait en fait contenir une récompense négative. Dans un tel cas, comment pouvons-nous être certains de savoir quoi soustraire de quoi, de sorte que notre avantage est toujours positif?

$ Q (s, a) $ renvoie une valeur de entier Récompense totale qui est attendue finalement, après avoir choisi une action $ a $. $ V (s) $ est le même, juste avec une récompense supplémentaire de l'état actuel $ s $ aussi bien.

Je ne vois pas pourquoi une valeur de $ Q - v $ serait utile. D'autre part, $ V - q $ serait utile Parce que cela nous dirait la récompense que nous allions continuer $ s_ {t + 1} $ Si nous avons pris l'action $ a $.

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange