Les agents RL apprennent-ils le «degré» optimal d'une action à prendre?
-
02-11-2019 - |
Question
J'ai un environnement de jeu sur lequel je veux entraîner un modèle RL. Cet environnement a 2 actions fondamentales que l'agent peut prendre; "Gauche" ou "droite" (disons, 0 ou 1).
Cependant, les actions «gauche» ou «droite» peuvent être prises dans un nombre discret de «degrés». Par exemple, je peux agir "à gauche" avec un degré de 70%, ou agir "à droite" avec un degré de 16%.
En supposant un espace d'action discret entre 0 et 100% pour chaque "gauche" ou "droite", faisant de l'espace d'action total une taille discrète de 201 (0-200 par incréments de 1), un agent apprend l'optimal diplôme Pour prendre "à gauche" ou "à droite" dans un état donné?
Pas de solution correcte
Licencié sous: CC-BY-SA avec attribution
Non affilié à datascience.stackexchange