Question

Je me lance simplement dans l'apprentissage automatique - le renforcement du renforcement - en utilisant un réseau neuronal formé sur les valeurs Q. Cependant, en regardant les hyper-paramètres, il y en a deux qui semblent redondants: le taux d'apprentissage pour le réseau neuronal, $ eta $, et le taux d'apprentissage pour Q-Learning, $ alpha $. Ils semblent tous les deux modifier le taux auquel le filet neuronal prend de nouvelles conclusions sur les anciens.

Alors, ces deux paramètres sont-ils redondants? Dois-je m'inquiéter même d'avoir $ alpha $ comme autre chose que 1 si je suis déjà en train de régler $ eta $, ou ont-ils finalement des effets différents?

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top