Les agents RL apprennent-ils le «degré» optimal d'une action à prendre?

https://datascience.stackexchange.com/questions/56304

reinforcement-learning
openai-gym

02-11-2019
|

Question

J'ai un environnement de jeu sur lequel je veux entraîner un modèle RL. Cet environnement a 2 actions fondamentales que l'agent peut prendre; "Gauche" ou "droite" (disons, 0 ou 1).

Cependant, les actions «gauche» ou «droite» peuvent être prises dans un nombre discret de «degrés». Par exemple, je peux agir "à gauche" avec un degré de 70%, ou agir "à droite" avec un degré de 16%.

En supposant un espace d'action discret entre 0 et 100% pour chaque "gauche" ou "droite", faisant de l'espace d'action total une taille discrète de 201 (0-200 par incréments de 1), un agent apprend l'optimal diplôme Pour prendre "à gauche" ou "à droite" dans un état donné?

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange