Domanda

Supponiamo che ti sia stato dato un MDP in cui i premi sono attribuiti per raggiungere uno stato, indipendentemente dall'azione. Quindi quando si esegue l'iterazione del valore:

$$ v_ {i + 1} = max_a sum_ {s '} p_a (s, s') (r_a (s, s, s ') + gamma v_i (s')) $$

Cos'è $ R_a (s, s ') $ ?

Il problema che sto riscontrando è che gli stati del terminale hanno, per impostazione predefinita, $ V (s_t) = r (s_t) $ (un po 'di ricompensa terminale). Quindi quando sto cercando di implementare l'iterazione del valore, se imposto $ R_a (s, s ') $ essere $ R (s ') $ (che è che ho pensato), ottengo che gli stati vicini uno stato terminale abbiano un valore più elevato rispetto allo stato terminale stesso, poiché

$$ p_a (s, s_t) (r_a (s, s_t) + gamma v_i (s_t)) $$

può essere facilmente maggiore di $ V_i (s_t) $, che in pratica non ha senso. Quindi l'unica conclusione che mi sembra di essere in grado di ottenere è che nel mio caso, $ R_a (s, s ') = r (s) $.. è corretto?

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top