Question

J'ai un environnement personnalisé avec un espace d'action multi-discrets.

Les espaces d'action et d'observation sont les suivants:

Action:

MultiDiscrete([  3 121 121 121   3 121 121 121   3 121 121 121   3 121 121 121   3 121
 121 121   3 121 121 121   3 121 121 121   3 121 121 121   3 121 121 121
   3 121 121 121   3 121 121 121   3 121 121 121   3 121 121 121   3 121
 121 121   3 121 121 121   3 121 121 121   3 121 121 121])

Observation:

MultiDiscrete([100   3   2 121   2 121   2 121   2 121   2 121   2 121   2 121   2 121
   2 121   2 121   2 121   2 121   2 121   2 121   2 121   2 121   2 121
   2 121   2 121   2 121   2 121   2 121   2 121   2 121   2 121   2 121
   2 121   2 121   2 121   2 121   2 121   2 121   2 121   2 121   2 121
 121 121 121 121 121 121 121 121 121 121 121 121 121 121 121 121 121 121
 121 121 121 121 121 121 121 121 121 121 121 121 121 121 121])

J'ai une période extrêmement difficile de trouver un agent (par exemple dans Keras-RL) capable de gérer ces espaces.

Ce problème: https://github.com/keras-rl/keras-rl/issues/224 indique que l'agent DDPG Keras-RL est capable de gérer un espace d'action multi-discrets, mais le modèle a une sortie flottante que je ne peux pas utiliser comme action pour le step() Fonction, qui attend une sortie entière!

La plupart des autres agents semblent utiliser un tanh couche d'activation, ou une couche qui produit une sortie binaire. J'ai besoin d'une sortie dans la même forme que mon espace d'action.

Comment cela peut-il être géré?

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top