AlphaGo (et d'autres programmes de jeu en utilisant le renforcement apprentissage) sans base de données humaine

https://datascience.stackexchange.com/questions/11118

reinforcement-learning

16-10-2019
|

Question

Je ne suis pas un spécialiste du sujet, et ma question est probablement très naïve. Il découle d'un essai de comprendre les pouvoirs et la limitation de l'apprentissage de renforcement tel qu'il est utilisé dans le programme AlphaGo.

Le AlphaGo du programme a été construit en utilisant, entre autres (exploration Monte-Carlo d'arbres, etc.), les réseaux de neurones qui sont formés à partir d'une base de données énorme de jeux de go joué humains, et qui sont ensuite renforcés en laissant jouer versions du programme contre lui-même plusieurs fois.

Maintenant, je me demande ce qui se passerait est que nous avons essayé de construire le programme d'un tel sans base de données humaine, à savoir à partir d'un programme de base de Go simplement connaître les règles et une méthode pour explorer les arbres, et laisser jouer contre lui-même pour améliorer son réseau de neurones. Allons-nous, après de nombreux matchs contre elle-même, arriver à un programme capable de rivaliser avec ou battre les meilleurs joueurs humains? Et si oui, combien de jeux (en ordre de grandeur) seraient nécessaires pour cela? Ou au contraire, sera un Converge du programme vers un joueur plus faible beaucoup?

Je suppose que l'expérience n'a pas été faite, depuis AlphaGo est si récente. Mais la réponse peut néanmoins être évidente à un spécialiste. Sinon, toute supposition me intéresser.

On peut aussi poser la même question pour les jeux « simples ». Si nous utilisons à peu près les mêmes techniques d'apprentissage utilisées pour renforcement AlphaGo, mais avec aucune utilisation de la base de données humaine, pour un programme d'échecs, nous pourrions éventuellement obtenir un programme capable de battre le meilleur humain? Et si oui, à quelle vitesse? At-il été jugé? Ou sinon pour Echecs, Dames, à propos de ce jeux ou encore plus simples?

Merci beaucoup.

La solution

Je ne suis pas expert, mais il ressemble AlphaGo répond à zéro votre question. https://deepmind.com/blog/alphago-zero-learning-scratch/

Les versions précédentes de AlphaGo initialement formé sur des milliers de l'homme jeux amateurs et professionnels pour apprendre à jouer Go. AlphaGo zéro skips cette étape et apprend à jouer simplement en jouant des jeux contre lui-même, à partir de jeu complètement aléatoire. Ce faisant, rapidement dépassé le niveau de jeu humain et vainquit le déjà publié Version champion battant de AlphaGo de 100 jeux à 0.

Autres conseils

La même question a été posée à l'auteur du document AlphaGo et sa réponse était que nous ne savons pas ce qui se passerait si AlphaGo apprendrait à partir de zéro (ils ont pas testé).

Cependant, étant donné la complexité du jeu, ce serait une tâche difficile de former un algorithme à partir de zéro, sans connaissance préalable. Il est donc raisonnable, au début de commencer à construire un tel système en améliorant à un niveau Master en utilisant les connaissances acquises par l'homme.

Il est intéressant de noter que, bien que les mouvements humains biaisent la sélection d'action au niveau des noeuds d'arbres (états), cela avant a un facteur de décroissance. Cela signifie que accru visitations à un état spécifique, réduire la force de l'avant d'encourager l'algorithme à explorer.

Le niveau actuel de maîtrise de AlphaGo ne sait pas combien près ou de loin, il est à la façon d'un être humain de jouer (dans le tournoi, il a fait un mouvement que l'homme avait presque zéro la probabilité d'effectuer - mais aussi fait quelques vraiment mauvais coups ainsi que). Peut-être qu'il reste pour toutes ces questions auxquelles il faut répondre en mettant en œuvre effectivement les algorithmes de test correspondant.

Je dois modifier ma réponse comme papier récent DeepMind répond à votre question. Il y avait beaucoup de progrès qui sont sortis de toute expérience antérieure avec la première version de AlphaGo et il est la lecture vaut vraiment la peine.

Pour autant que je compris l'algorithme de AlphaGo, il est basé sur un apprentissage de renforcement simple (RL) cadre, en utilisant la recherche de l'arbre Monte-Carlo pour sélectionner les meilleures actions. Sur le dessus, les états et les actions couvertes par l'algorithme RL ne sont pas simplement la configuration complète possible du jeu (Go a une énorme complexité), mais reposent sur un réseau politique et un réseau de valeur, tirées des jeux réels, puis amélioré en jouant des jeux AlphaGo vs AlphaGo.

Alors on peut se demander si la formation des jeux réels est juste un raccourci pour gagner du temps ou une option nécessaire pour obtenir une telle efficacité. Je suppose que personne ne connaît vraiment la réponse, mais nous pourrions dire quelques hypothèses. Tout d'abord, la capacité humaine de promouvoir les bons coups est due à l'intelligence beaucoup plus complexe qu'un simple réseau de neurones. Pour les jeux de société, il est un mélange entre la mémoire, l'expérience, la logique et les sentiments. Dans ce sens, je ne suis pas sûr de l'algorithme AlphaGo pourrait construire un tel modèle sans explorer explicitement un énorme pourcentage de l'ensemble de la configuration du jeu Go (ce qui est pratiquement impossible). Les recherches actuelles se concentrent sur la construction d'une représentation plus complexe d'un tel jeu, comme RL relationnelle ou l'apprentissage de la logique inductive. Ensuite, pour les jeux plus simples (peut-être le cas pour les échecs, mais rien sûr), je dirais que AlphaGo pourrait récupérer des techniques similaires que les humains en jouant contre lui-même, en particulier pour les ouvertures (il y a seulement 10 premiers mouvements disponibles).

Mais il est seulement une opinion. Mais je suis tout à fait sûr que la clé pour répondre à vos questions réside dans l'approche RL qui est aujourd'hui encore assez simple en terme de connaissances. Nous ne sommes pas vraiment en mesure d'identifier ce qui nous fait capable de gérer ces jeux, et la meilleure façon que nous avons trouvé jusqu'à encore à l'homme de la défaite est d'apprendre à peu près de lui, et d'améliorer (un peu) le modèle appris avec des calculs massifs.

auto-play compétitif sans base de données humaine est même possible pour les environnements complexes, partiellement observés. OpenAI se concentre sur cette direction. Selon cet article :

Auto-play assure que l'environnement est toujours la bonne difficulté pour une IA à améliorer.

C'est une raison importante pour le succès de l'auto-play.

OpenAI a obtenu des résultats surhumains pour Dota 2 1c1, 11e Août 2017, battre Dendi 2-0 en vertu des règles du tournoi standard.

Le bot a appris le jeu à partir de zéro par l'auto-play, et ne pas utiliser l'apprentissage de l'imitation ou la recherche d'arbre. Ceci est un pas vers la construction de systèmes d'IA qui réalisent des objectifs bien définis dans désordre, des situations complexes impliquant de vrais humains.

Non seulement les jeux, cette direction est également prometteuses pour les tâches de robotique.

Nous avons trouvé que l'auto-jeu permet de découvrir simulé AIs compétences physiques comme la lutte contre, Esquiver, feindre, coups de pied, attraper et plongée pour la balle, sans explicitement la conception d'un environnement avec ces compétences à l'esprit.

Dans l'étape suivante, ils étendent la méthode pour apprendre à coopérer, communiquer et concurrence , ne limite pas seulement à l'auto-jeu.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange