Calculez le paramètre Q pour le Q-Learning Deep appliqué aux jeux vidéo
-
31-10-2019 - |
Question
Je travaille sur Deep Q-Learning appliqué au serpent, et je suis confus sur la méthodologie. Sur la base du document DeepMind sur le sujet et d'autres sources, la valeur Q avec l'équation de Bellman doit être calculée comme suit:
Q(s,a) = r + γ(max(Q(s',a'))
Bien que le calcul de la valeur Q pour Q-Table soit simple, il n'est pas clair pour moi le processus de l'apprentissage en q profond. Selon certaines sources, les états futurs possibles de l'état réel doivent être traités avec l'apprentissage en profondeur et la valeur Q la plus élevée doit être choisie (entrée: État futur, sortie: valeur Q ou entrée: état actuel, sortie: sortie: Valette de Q pour les états futurs). Ensuite, une table contenant [state, action, reward, future_state]
est stocké en mémoire pour réduire Oublier critique. Je ne comprends pas comment nous obligeons les valeurs Q à prédire en premier lieu, si nous avons besoin des États afin de calculer les valeurs Q. Cette approche est-elle correcte, ou je manque quelque chose?
Merci!
Pas de solution correcte