Pourquoi «Next State» est-il conservé dans RL Experience Replay?

https://datascience.stackexchange.com/questions/44460

machine-learning
reinforcement-learning
q-learning
policy-gradients

01-11-2019
|

Question

Suivant Cette explication sur ce qui est une relecture de l'expérience (et autres), j'ai remarqué qu'un élément d'expérience est défini comme

$ e_t = (s_t, a_t, r_t, s_ {t + 1}) $

Ma question est, pourquoi avons-nous besoin du next state dans l'expérience?

À ma compréhension, nos réseaux apprennent state to action et action to reward mappages, donc je ne vois pas Où le "État suivant" est utilisé dans l'expérience Replay?

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange