Perché "Next State" è tenuto in RL Experience Replay?
-
01-11-2019 - |
Domanda
Seguente Questa spiegazione su ciò che è l'esperienza Replay (e altri), ho notato che un elemento di esperienza è definito come
$ e_t = (s_t, a_t, r_t, s_ {t+1}) $
La mia domanda è: perché abbiamo bisogno del next state
nell'esperienza?
Alla mia comprensione, le nostre reti imparano state to action
e action to reward
mappature, quindi non riesco a vedere Dove viene utilizzato il "prossimo stato" nell'esperienza?
Nessuna soluzione corretta
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a datascience.stackexchange