Question

J'essaie de concevoir un environnement de gym Openai qui joue un jeu de société assez simple où chaque joueur a 16 pièces qui sont exactement les mêmes en ce qui concerne la façon dont ils peuvent se déplacer.

La carte est 10x10 et chaque pièce peut augmenter, en bas, à gauche, à droite, up_left, up_right, down_left, down_right. Ils peuvent se déplacer dans cette direction autant de champs que les pièces sont dans cette ligne, y compris la pièce qui se déplace. Donc, si je veux aller à gauche, je compte toutes les autres pièces à ma gauche et que ma droite ajoute 1 pour moi-même, puis allez autant de champs à gauche. Le champ peut être obstrué, auquel cas le mouvement n'est pas possible.

Ma question est donc: comment pourrais-je mettre en œuvre un espace d'action pour cela? Serait discret avec le (SICE du conseil d'administration) * (combien d'actions [Up, Down ...]) appropriées? Et comment puis-je enseigner au RL AI (PPO2) qu'une décision n'est pas possible? Dois-je simplement donner une récompense négative et donner le même état qu'auparavant?

J'apprécierais grandement l'aide :)

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top