Perché "Next State" è tenuto in RL Experience Replay?

https://datascience.stackexchange.com/questions/44460

machine-learning
reinforcement-learning
q-learning
policy-gradients

01-11-2019
|

Domanda

Seguente Questa spiegazione su ciò che è l'esperienza Replay (e altri), ho notato che un elemento di esperienza è definito come

$ e_t = (s_t, a_t, r_t, s_ {t+1}) $

La mia domanda è: perché abbiamo bisogno del next state nell'esperienza?

Alla mia comprensione, le nostre reti imparano state to action e action to reward mappature, quindi non riesco a vedere Dove viene utilizzato il "prossimo stato" nell'esperienza?

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange