Question

Supposons que vous ayez un MDP où les récompenses sont attribuées pour atteindre un état, indépendamment de l'action. Ensuite, lors de l'itération de la valeur:

$$ v_ {i + 1} = max_a sum_ {s '} p_a (s, s') (r_a (s, s ') + gamma v_i (s')) $$

qu'est-ce que $ R_a (s, s ') $ ?

Le problème que j'ai, c'est que les états terminaux ont, par défaut, $ V (s_t) = r (s_t) $ (une récompense terminale). Ensuite, quand j'essaie d'implémenter l'itération de la valeur, si je définis $ R_a (s, s ') $ être $ R (s ') $ (qui est ce que je pensais), je comprends que les États voisins d'un état terminal ont une valeur plus élevée que l'état terminal lui-même, puisque

$$ p_a (s, s_t) (r_a (s, s_t) + gamma v_i (s_t)) $$

peut facilement être plus grand que $ V_i (s_t) $, ce qui en pratique n'a aucun sens. Donc, la seule conclusion que je semble pouvoir obtenir est que dans mon cas, $ R_a (s, s ') = r (s) $.. est-ce correct?

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top