Différence entre le réseau de la politique de AlphaGo et réseau de valeur

https://datascience.stackexchange.com/questions/10932

16-10-2019
|

Question

Je lisais un résumé de haut niveau sur les AlphaGo de Google ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ), et je suis tombé sur les termes « réseau politique » et « réseau de valeur ». À un niveau élevé, je crois comprendre que le réseau de la politique est utilisée pour suggérer mouvements et le réseau de valeur est utilisée pour « réduire la profondeur de l'arbre de recherche [et estimer] le gagnant dans chaque position à la place de la recherche tout le chemin à la Fin du jeu."

Ces deux réseaux semblent redondants pour moi. Qu'est-ce que le réseau de la politique faire si elle est de ne pas utiliser le réseau de valeur pour élaguer ses politiques? Il semble assez clair que le réseau de valeur est un réseau de neurones apprentissage en profondeur; est le réseau politique juste une abstraction théorique et non un réseau de neurones réel? La variable cible pour le réseau de valeur semble être gagnant / perte. Y at-il une variable cible pour le réseau de la politique; si oui, quel est-il? Qu'est-ce que le réseau de la politique en essayant d'optimiser?

Le fichier pdf complet du document de Google, publiée dans Nature, se trouve ici: https://vk.com/doc-44016343_437229031?dl=56ce06e325d42fbc72

La solution

En bref chaque réseau a un objectif différent que vous avez mentionné:

Le réseau de valeur a été utilisée au niveau des noeuds de feuilles pour réduire la profondeur de la recherche de l'arbre.
Le réseau politique a été utilisé pour réduire la largeur de la recherche d'un noeud (guider vers promettant des actions immédiates).

En général, vous pouvez utiliser des méthodes de fonction de valeur pour trouver une politique optimale ou recherchez directement dans l'espace politique pour optimiser une fonction politique paramétrée (bien sûr il y a des avantages et des inconvénients). Vous pouvez utiliser la fonction approximateurs (Nets) en profondeur par exemple dans chaque cas. Je vois que vous êtes confus principalement sur le filet de la politique si je me concentre ma réponse dans ce.

Le filet de la politique a d'abord été:

formés pour effectuer les mouvements qui ne serait plus probable étant donné un être humain un état de la carte (si l'entrée est un état de la carte et la sortie est un histogramme qui montre la probabilité de chaque action étant donné que l'état). Le filet peut se rapprocher de la fonction de probabilité sous-jacente de la cartographie des états à des actions. Il est raisonnable de penser à commencer à construire votre politique à partir des données disponibles après tout. Après une formation supervisée à l'aide des experts se déplace le filet de la politique pourrait jouer le jeu suffisant (bien loin du niveau Master). Simplement, vous avez tenté de capturer le schéma général de sélection d'action des joueurs professionnels.

Alors,

il a été formé dans les jeux avec l'adversaire lui-même, afin d'optimiser la politique précédente apprise. Cette fois-ci ses poids ont été mis à jour en utilisant l'algorithme RENFORCER. En faisant cela, vous mettez à jour les paramètres nets vers la maximisation de la récompense attendue. Finalement, vous avez un filet qui sélectionne non seulement les actions comme un joueur professionnel, mais aussi pour gagner le jeu (mais il ne peut pas le plan!).

Après cette étape, ils approximée la fonction de la valeur d'un peu plus de la version bruyante de la politique appris, par régression (entrée est le conseil d'État et cible le résultat du jeu). Vous pouvez utiliser ce réseau pour affecter l'évaluation du nœud feuille.

conceptuellement parlant, le filet de politique vous donne une probabilité sur les actions, mais cela n'indique pas que vous allez vous retrouver dans un bon, pour gagner le jeu, l'état. AlphaGo avait quelques « points aveugles » et pendant le tournoi a vraiment quelques mauvais coups, mais aussi un mouvement exceptionnel qui ne pourrait jamais eu une pensée humaine.

Enfin, vous pouvez utiliser votre algorithme de planification (SCTM) en combinaison avec ces filets. Pourquoi nous avons pris toutes ces étapes? En bref, les simples SCTM sans aucune « intuition » aurait échoué.

Autres conseils

Voici mon processus de pensée concise dans la compréhension des deux réseaux différents.

Tout d'abord, l'objectif est de trouver une solution optimale (ou très près optimale) sans utiliser une recherche exhaustive, ce qui est sans aucun doute difficile.

Par la position ou de l'état, il y aura N mouvements possibles, et chaque mouvement, il y aura sa propre profondeur D dans un arbre de recherche complète. Il est théoriquement ou mathématiquement possible de se promener dans tous les chemins et trouver une solution optimale (s). Cependant, nous ne voulons pas faire une recherche complète.

Maintenant, nous avons eu deux questions distinctes pour l'élaboration d'une approche d'approximation.

Q1. Comment pouvons-nous ignorer ou ne pas tenir compte des mouvements de N par poste? (À savoir, la réduction de la respiration)

Q2. Comment pouvons-nous arrêter à une profondeur intermédiaire dans un arbre de recherche plutôt que de marcher jusqu'à la fin du jeu, sans manquer de trouver une solution optimale? (À savoir, la réduction de la profondeur)

Le réseau politique est principalement conçu pour filtrer les mouvements inutiles sur N, mais sans manquer de trouver une solution optimale. Ici, ce réseau repose d'abord sur les mouvements d'experts de l'homme, à savoir, SL, et améliorée par RL plus tard.

Le réseau valeur est principalement conçu pour trouver la probabilité de gagner sans une recherche complète.

Ces deux réseaux ont un objectif commun de trouver une solution optimale, mais, dans chaque choix stratégique de se déplacer, chaque réseau joue un rôle différent.

J'espère que cela aide. Je sais que ce serait encore à un niveau élevé.

Je pense que l'OP était source de confusion au sujet AlphaGo avec alpha-bêta. En alpha-bêta, vous feriez bien d'utiliser le réseau politique pour aider à la taille, mais pas ici. Encore une fois, il n'y a pas la taille que l'algorithme repose sur la recherche d'arbre Monte-Carlo (SCTM).

Toute personne qui pense que ma réponse est trop long pourrait passer à la section sommaire, où j'indiquer pourquoi les deux réseaux ne sont pas redondants.

Dans l'exemple suivant, je ferai une simplification pour rendre mes idées plus faciles à comprendre.

Exemple:

Imaginez que vous avez une position où il y a deux mouvements juridiques. Le premier mouvement est cependant un mort pour vous-perdu, le deuxième mouvement vous donne un avantage gagnant.

Première décision: la perte forcée pour vous
Deuxième mouvement: victoire forcée pour vous

Réseau d'évaluation

Supposons que le réseau d'évaluation Google vous donne est parfait. Il peut évaluer une position de feuille dans notre exemple parfaitement. Nous ne changerons pas notre réseau de valeur dans l'exemple.

Pour simplifier notre exemple, supposons que notre réseau de valeur donne:

-1000 pour toute position de la feuille qui est une perte pour vous
+1000 pour toute position de la feuille qui est une victoire pour vous

Réseau politique

Supposons que Google vous donne deux réseaux politiques. Les probabilités générées pour notre position est la suivante:

Politique 1: 0,9 à 1 et 0,1 déplacement pour déplacer 2
Politique 2:. 0,2 pour déplacer 1 et 0,8 pour déplacer 2

Notez que notre premier réseau donne politique incorrect probabilité a priori pour notre exemple. Il donne 0,9 pour déplacer 1, qui est un mouvement perdante. Ceci est bien parce que même pas Google pourrait former un réseau de politique parfaite.

Jouer avec le premier réseau politique

AlphaGo doit générer une simulation avec Monte-Carlo, et il doit choisir déplacer 1 ou 2. Maintenant, AlphaGo dessine une variable aléatoire uniforme distribué, et il va choisir:

Déplacer 1 si le nombre aléatoire est <= 0,9
Déplacer 2 si le nombre aléatoire est> 0,9

AlphaGo est beaucoup plus susceptible de choisir le déménagement perdre à Simuler (dans notre première simulation). Dans notre première simulation, nous utiliserons également le réseau de valeur pour obtenir un score pour la simulation. Dans le document, il est:

Cette valeur serait -1000, car cette simulation conduirait à une perte.

Maintenant, AlphaGo doit générer la deuxième simulation. Encore une fois, le premier mouvement serait beaucoup plus susceptibles de choisir. Mais finalement, le deuxième mouvement serait choisir parce que:

Notre probabilité a priori pour le deuxième mouvement est de 0,1, non nul
AlphaGo est encouragé à essayer mouvements qui ne sont pas explorées beaucoup. Dans le document, cela se fait par cette équation:

Notez que N est le nombre de coups recherché pour le mouvement et il est dans le dénominateur. Plus il est probable notre premier mouvement est recherché, plus la fonction est u. Ainsi, la probabilité de sélection de notre deuxième mouvement améliore parce que AlphaGo prend en fait un mouvement par cette équation:

Ceci est la clé équation. S'il vous plaît regarder attentivement:

Il a une durée P pour la probabilité a priori (donnée par le réseau de la politique)
Il a une durée Q pour les scores d'évaluation (donnée par le réseau de valeur)

Maintenant, nous savons que notre deuxième mouvement sera finalement choisi. Quand cela arrive, le réseau de valeur donne un +1000. Cela augmentera Q, ce qui rend le deuxième mouvement beaucoup plus probablement choisir dans les simulations ultérieures.

Compte tenu des simulations suffisamment, le nombre de fois que le deuxième mouvement est choisie pour la simulation devrait être plus que le nombre de fois que le premier mouvement est choisi.

Enfin, le mouvement qui AlphaGo décide de faire est (cité du papier):

Une fois la recherche terminée, l'algorithme choisit le mouvement le plus visité de la position de la racine.

Jouer avec le deuxième réseau politique

Notre deuxième réseau politique aura besoin de moins d'itérations pour choisir 2 déplacer parce qu'il est la probabilité a priori donnée par le réseau de la politique est correcte en premier lieu.

Remarques

Tout ici est très similaire à l'analyse de Bayesian. Nous commençons avec une certaine probabilité a priori (donnée par le réseau de la politique), nous générons des données pour déplacer la distirubtion de probabilité (donnée par le réseau de valeur).

Résumés

réseau politique est utilisé pour générer des probabilités a priori pour guider ce lancer la recherche Monte-Carlo devrait prendre
est utilisée pour générer des données pour valider le réseau politique. Si le réseau de la politique est mauvaise, AlphaGo aurait besoin de plus de ressources pour le calcul de Converge (si jamais).
Vous pouvez penser comme l'analyse bayésienne

Réseau politique :. Le réseau qui apprend à donner une sortie définitive en donnant une entrée particulière au jeu est connu sous le nom de réseau politique

Réseaux à valeur : Le réseau valeur attribue une valeur / partition à l'état du jeu en calculant un score cumulatif prévu pour le s état actuel. Chaque Etat passe par le réseau de valeur. Les Etats qui obtiennent plus de récompense évidemment obtenir plus de valeur dans le réseau.

Une meilleure compréhension Animations Rendez-vous ici: Réseaux politiques vs réseaux valeur dans l'apprentissage par renforcement

D'après ce que je comprends la différence est dans les sorties. Où le réseau de la politique génère une distribution de probabilité sur les mouvements possibles, le réseau de valeur renvoie une valeur réelle qui peut être interprété comme la probabilité de gagner compte tenu de cette configuration de la carte. De là, la recherche de l'arbre Monte-Carlo est effectuée via le haut K se déplace en prenant de puis réduire l'arbre de recherche à nouveau en prenant haut sorties de réseau à valeur K.

se sentir obligé de me corriger si je me trompe.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange