Qual è la ricompensa immediata nell'iterazione del valore?
-
31-10-2019 - |
Domanda
Supponiamo che ti sia stato dato un MDP in cui i premi sono attribuiti per raggiungere uno stato, indipendentemente dall'azione. Quindi quando si esegue l'iterazione del valore:
$$ v_ {i + 1} = max_a sum_ {s '} p_a (s, s') (r_a (s, s, s ') + gamma v_i (s')) $$
Cos'è $ R_a (s, s ') $ ?
Il problema che sto riscontrando è che gli stati del terminale hanno, per impostazione predefinita, $ V (s_t) = r (s_t) $ (un po 'di ricompensa terminale). Quindi quando sto cercando di implementare l'iterazione del valore, se imposto $ R_a (s, s ') $ essere $ R (s ') $ (che è che ho pensato), ottengo che gli stati vicini uno stato terminale abbiano un valore più elevato rispetto allo stato terminale stesso, poiché
$$ p_a (s, s_t) (r_a (s, s_t) + gamma v_i (s_t)) $$
può essere facilmente maggiore di $ V_i (s_t) $, che in pratica non ha senso. Quindi l'unica conclusione che mi sembra di essere in grado di ottenere è che nel mio caso, $ R_a (s, s ') = r (s) $.. è corretto?
Nessuna soluzione corretta