Question

Je travaille sur Deep Q-Learning appliqué au serpent, et je suis confus sur la méthodologie. Sur la base du document DeepMind sur le sujet et d'autres sources, la valeur Q avec l'équation de Bellman doit être calculée comme suit:

Q(s,a) = r + γ(max(Q(s',a'))

Bien que le calcul de la valeur Q pour Q-Table soit simple, il n'est pas clair pour moi le processus de l'apprentissage en q profond. Selon certaines sources, les états futurs possibles de l'état réel doivent être traités avec l'apprentissage en profondeur et la valeur Q la plus élevée doit être choisie (entrée: État futur, sortie: valeur Q ou entrée: état actuel, sortie: sortie: Valette de Q pour les états futurs). Ensuite, une table contenant [state, action, reward, future_state] est stocké en mémoire pour réduire Oublier critique. Je ne comprends pas comment nous obligeons les valeurs Q à prédire en premier lieu, si nous avons besoin des États afin de calculer les valeurs Q. Cette approche est-elle correcte, ou je manque quelque chose?

Merci!

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top