Question

Comment utiliser les arbres minmax avec Q-Learning?

Je veux mettre en oeuvre un agent de connexion Q-Learning quatre et entendu que l'ajout d'arbres minmax en elle aide.

Était-ce utile?

La solution

Q-apprentissage est un différence temporelle apprentissage algorithme . Pour chaque état possible (carte), il apprend la valeur des actions disponibles (déplacements). Cependant, il ne convient pas pour une utilisation avec Minimax , car l'algorithme Minimax a besoin d'une évaluation fonction qui retourne la valeur de mesure, et non la valeur d'une action à cette position.

Cependant, les méthodes de différence temporelle peut être utilisée pour apprendre une telle fonction d'évaluation. Plus particulièrement, Gerald Tesauro a utilisé le TD (?) ( "TD lambda") algorithme pour créer TD-Gammon , un programme backgammon concurrentiel humain. Il a écrit un article décrivant l'approche que vous pouvez trouver .

TD (?) a ensuite été étendue à TDLeaf (?), en particulier pour mieux traiter les recherches Minimax. TDLeaf (?) a été utilisé, par exemple, dans le programme d'échecs KnightCap. Vous pouvez lire sur TDLeaf cet article .

Autres conseils

Minimax vous permet de regarder un certain nombre de mouvements dans l'avenir et le jeu de manière à maximiser vos chances de marquer dans ce laps de temps. Ce qui est bon pour Connect-4, où un jeu peut se terminer presque à tout moment et le nombre de mouvements disponibles à chaque tour est pas très grande. Q-Learning vous fournirait une fonction de valeur pour guider la recherche Minimax.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top