Pourquoi Q-Learning utilise-t-il un modèle d'acteur et un modèle critique?
-
31-10-2019 - |
Question
Je lis actuellement l'apprentissage automatique avec Scikit-Learn & Tensorflow, et je me demande pourquoi Q-Learning nécessite-t-il un modèle d'acteur et un modèle critique pour apprendre?
À la page 465, il indique:
Comme nous le verrons, l'algorithme de formation que nous utiliserons nécessite deux DQN avec le même archiricture (mais différents paramètres): l'un sera utilisé pour conduire Mme Pac-Man pendant la formation (l'acteur), et l'autre regardera l'acteur et Apprenez de ses épreuves et erreurs (le critique).
Est-ce une implémentation de Q-Learning typique? Sinon, qu'est-ce que c'est?
Pas de solution correcte
Licencié sous: CC-BY-SA avec attribution
Non affilié à datascience.stackexchange