Question

J'ai un environnement de jeu sur lequel je veux entraîner un modèle RL. Cet environnement a 2 actions fondamentales que l'agent peut prendre; "Gauche" ou "droite" (disons, 0 ou 1).

Cependant, les actions «gauche» ou «droite» peuvent être prises dans un nombre discret de «degrés». Par exemple, je peux agir "à gauche" avec un degré de 70%, ou agir "à droite" avec un degré de 16%.

En supposant un espace d'action discret entre 0 et 100% pour chaque "gauche" ou "droite", faisant de l'espace d'action total une taille discrète de 201 (0-200 par incréments de 1), un agent apprend l'optimal diplôme Pour prendre "à gauche" ou "à droite" dans un état donné?

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top