Pourquoi «Next State» est-il conservé dans RL Experience Replay?
-
01-11-2019 - |
Question
Suivant Cette explication sur ce qui est une relecture de l'expérience (et autres), j'ai remarqué qu'un élément d'expérience est défini comme
$ e_t = (s_t, a_t, r_t, s_ {t + 1}) $
Ma question est, pourquoi avons-nous besoin du next state
dans l'expérience?
À ma compréhension, nos réseaux apprennent state to action
et action to reward
mappages, donc je ne vois pas Où le "État suivant" est utilisé dans l'expérience Replay?
Pas de solution correcte
Licencié sous: CC-BY-SA avec attribution
Non affilié à datascience.stackexchange