Quelle est la récompense immédiate de l'itération de la valeur?
-
31-10-2019 - |
Question
Supposons que vous ayez un MDP où les récompenses sont attribuées pour atteindre un état, indépendamment de l'action. Ensuite, lors de l'itération de la valeur:
$$ v_ {i + 1} = max_a sum_ {s '} p_a (s, s') (r_a (s, s ') + gamma v_i (s')) $$
qu'est-ce que $ R_a (s, s ') $ ?
Le problème que j'ai, c'est que les états terminaux ont, par défaut, $ V (s_t) = r (s_t) $ (une récompense terminale). Ensuite, quand j'essaie d'implémenter l'itération de la valeur, si je définis $ R_a (s, s ') $ être $ R (s ') $ (qui est ce que je pensais), je comprends que les États voisins d'un état terminal ont une valeur plus élevée que l'état terminal lui-même, puisque
$$ p_a (s, s_t) (r_a (s, s_t) + gamma v_i (s_t)) $$
peut facilement être plus grand que $ V_i (s_t) $, ce qui en pratique n'a aucun sens. Donc, la seule conclusion que je semble pouvoir obtenir est que dans mon cas, $ R_a (s, s ') = r (s) $.. est-ce correct?
Pas de solution correcte