Question

Je lis actuellement l'apprentissage automatique avec Scikit-Learn & Tensorflow, et je me demande pourquoi Q-Learning nécessite-t-il un modèle d'acteur et un modèle critique pour apprendre?

À la page 465, il indique:

Comme nous le verrons, l'algorithme de formation que nous utiliserons nécessite deux DQN avec le même archiricture (mais différents paramètres): l'un sera utilisé pour conduire Mme Pac-Man pendant la formation (l'acteur), et l'autre regardera l'acteur et Apprenez de ses épreuves et erreurs (le critique).

Est-ce une implémentation de Q-Learning typique? Sinon, qu'est-ce que c'est?

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top