Openai Gym - Qu'est-ce qu'un agent que je peux utiliser avec un espace d'action multi-discrets?
-
02-11-2019 - |
Question
J'ai un environnement personnalisé avec un espace d'action multi-discrets.
Les espaces d'action et d'observation sont les suivants:
Action:
MultiDiscrete([ 3 121 121 121 3 121 121 121 3 121 121 121 3 121 121 121 3 121
121 121 3 121 121 121 3 121 121 121 3 121 121 121 3 121 121 121
3 121 121 121 3 121 121 121 3 121 121 121 3 121 121 121 3 121
121 121 3 121 121 121 3 121 121 121 3 121 121 121])
Observation:
MultiDiscrete([100 3 2 121 2 121 2 121 2 121 2 121 2 121 2 121 2 121
2 121 2 121 2 121 2 121 2 121 2 121 2 121 2 121 2 121
2 121 2 121 2 121 2 121 2 121 2 121 2 121 2 121 2 121
2 121 2 121 2 121 2 121 2 121 2 121 2 121 2 121 2 121
121 121 121 121 121 121 121 121 121 121 121 121 121 121 121 121 121 121
121 121 121 121 121 121 121 121 121 121 121 121 121 121 121])
J'ai une période extrêmement difficile de trouver un agent (par exemple dans Keras-RL) capable de gérer ces espaces.
Ce problème: https://github.com/keras-rl/keras-rl/issues/224 indique que l'agent DDPG Keras-RL est capable de gérer un espace d'action multi-discrets, mais le modèle a une sortie flottante que je ne peux pas utiliser comme action pour le step()
Fonction, qui attend une sortie entière!
La plupart des autres agents semblent utiliser un tanh
couche d'activation, ou une couche qui produit une sortie binaire. J'ai besoin d'une sortie dans la même forme que mon espace d'action.
Comment cela peut-il être géré?
Pas de solution correcte