Question

C'est une autre question que j'ai sur le réseau de neurones d'apprentissage AQ utilisé pour gagner Tic Tac Toe, c'est-à-dire que je ne suis pas sûr de comprendre quand soutenir réellement le propogate via le réseau.

Ce que je fais actuellement, c'est lorsque le programme joue dans le jeu, si le nombre d'ensembles de jeux enregistrés a atteint le montant maximum, chaque fois que le programme se déplace, il choisira un état de jeu aléatoire de sa mémoire et le dos en utilisant cela en utilisant cela état de jeu et récompense. Cela se poursuivra ensuite chaque fois que le programme se déplace car la mémoire de relecture sera toujours pleine à partir de là.

L'association entre les récompenses et l'état de jeu et l'action de l'histoire, c'est que lorsqu'un jeu est terminé, et les récompenses ont été calculées pour chaque étape, ce qui signifie que la récompense totale par étape a été calculée, la méthode que j'utilise pour calculer la récompense est:

Q (s, a) + = récompense * gamma ^ (position inverse dans l'état de jeu)

Dans ce cas, le gamma est une valeur prédéterminée pour réduire le montant que la récompense est prise en compte à mesure que vous revenez en arrière, et la position inverse dans l'état de jeu signifie que s'il y a eu 5 mouvements totaux dans un jeu, alors la position inverse Dans Game State, lors de la modification de la récompense pour le premier mouvement serait de 5, puis pour le deuxième, 4, troisième 3 et ainsi de suite. Cela permet simplement à la récompense d'être prise en compte moins plus tôt que le déménagement.

Cela devrait-il permettre au programme d'apprendre correctement?

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top