Question

Je joue avec le gymnase openai pour essayer de mieux comprendre l'apprentissage du renforcement. Un paramètre d'agent que vous pouvez modifier est le espace d'action c'est-à-dire les actions spécifiques qu'un agent peut prendre dans un environnement à chaque état, par exemple "gauche", "à droite", "up" ou "vers le bas si l'environnement est un jeu avec 4 actions discrètes.

Dans mes recherches, je n'ai trouvé nulle part qui déclare explicitement qu'un modèle RL, en particulier PPO2, prendra plus de temps à s'entraîner si l'espace d'action est plus grand.

Tout le reste étant le même; Les mêmes données, le même environnement, les mêmes hyperparamètres, le même matériel, un modèle avec un plus grand espace d'action (plus d'actions possibles) prendra plus de temps à former (1 épisode) qu'un modèle avec un espace d'action plus petit?

(Par exemple, un agent avec 100 actions possibles prendra plus de temps pour former 1 épisode qu'un agent avec 2 actions possibles?)

Intuitivement, j'aurais pensé que plus un agent a des actions, plus il a de "choix" à chaque État, et donc il faudrait plus de temps dans le choix de l'une de ces actions. Mais encore une fois, je n'ai rien trouvé prouvant ou réfutant cela.

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top