Pourquoi Q-Learning utilise-t-il un modèle d'acteur et un modèle critique?

https://datascience.stackexchange.com/questions/31472

deep-learning
q-learning

31-10-2019
|

Question

Je lis actuellement l'apprentissage automatique avec Scikit-Learn & Tensorflow, et je me demande pourquoi Q-Learning nécessite-t-il un modèle d'acteur et un modèle critique pour apprendre?

À la page 465, il indique:

Comme nous le verrons, l'algorithme de formation que nous utiliserons nécessite deux DQN avec le même archiricture (mais différents paramètres): l'un sera utilisé pour conduire Mme Pac-Man pendant la formation (l'acteur), et l'autre regardera l'acteur et Apprenez de ses épreuves et erreurs (le critique).

Est-ce une implémentation de Q-Learning typique? Sinon, qu'est-ce que c'est?

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange