Domanda

Sto cercando di progettare un ambiente in palestra Openai che gioca un gioco da tavolo abbastanza semplice in cui ogni giocatore ha 16 pezzi che sono esattamente gli stessi per quanto possono muoversi.

La scheda è 10x10 e ogni pezzo può salire, giù, sinistra, destra, up_left, up_right, down_left, down_right. Possono muoversi in quella direzione quanti campi in quella linea sono in quella linea, incluso il pezzo che si muove. Quindi, se voglio andare a sinistra conto tutti gli altri pezzi a sinistra e la mia destra aggiungo 1 per me stesso e poi vado così tanti campi a sinistra. Il campo può essere ostruito, tuttavia, nel qual caso la mossa non è possibile.

Quindi la mia domanda è: come potrei implementare uno spazio d'azione per questo? Sarebbe discreto con il (sice del consiglio) * (quante azioni [su, giù ...]) adatte? E come posso insegnare alla RL AI (PPO2) che non è possibile una mossa? Dovrei semplicemente dare una ricompensa negativa e dare lo stesso stato di prima?

Apprezzerei molto l'aiuto :)

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top