Question

Suivant Cette explication sur ce qui est une relecture de l'expérience (et autres), j'ai remarqué qu'un élément d'expérience est défini comme

$ e_t = (s_t, a_t, r_t, s_ {t + 1}) $

Ma question est, pourquoi avons-nous besoin du next state dans l'expérience?

À ma compréhension, nos réseaux apprennent state to action et action to reward mappages, donc je ne vois pas Où le "État suivant" est utilisé dans l'expérience Replay?

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top