Domanda

Seguente Questa spiegazione su ciò che è l'esperienza Replay (e altri), ho notato che un elemento di esperienza è definito come

$ e_t = (s_t, a_t, r_t, s_ {t+1}) $

La mia domanda è: perché abbiamo bisogno del next state nell'esperienza?

Alla mia comprensione, le nostre reti imparano state to action e action to reward mappature, quindi non riesco a vedere Dove viene utilizzato il "prossimo stato" nell'esperienza?

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top