Quelles connaissances ai-je besoin pour écrire un programme simple AI pour jouer à un jeu?

https://datascience.stackexchange.com/questions/16066

16-10-2019
|

Question

Je suis diplômé B.Sc. L'un de mes cours était « Introduction à l'apprentissage machine », et j'ai toujours voulu faire dans ce sujet un projet personnel.

J'ai récemment entendu parler de différentes formations AI à jouer à des jeux tels que Mario, Go, etc.

Quelles connaissances dois-je acquérir pour former un programme simple IA pour jouer à un jeu? Et quel jeu recommandez-vous pour un débutant?

Voici ce que je sais dans l'apprentissage machine jusqu'à présent -

Introduction au cours et à l'apprentissage de la machine. K-algorithme le plus proche de voisin, et K-means algorithme
Inférence statistique
Modèle mélange gaussien (GMM) et Expectation Maximization (EM)
Probablement Environ modèle correct (PAC), y compris les limites de la généralisation et la sélection du modèle
algorithmes de base hyperplanes: Perceptron et Winnow.
Support Vector Machines (SVM de)
Noyaux
Stimuler les élèves faibles aux apprenants forts: AdaBoost
Marge-Perceptron
régression
PCA
Les arbres de décision
Arbres de décision et la taille des forêts aléatoires

La solution

Il y a plusieurs façons d'aborder la résolution des problèmes de jeu de jeu. Certains jeux peuvent être résolus par des algorithmes de recherche par exemple. Cela fonctionne bien pour cartes et jeux de société jusqu'à un certain niveau de complexité. Par exemple, Deep Blue d'IBM était essentiellement une recherche heuristique axée rapide pour les déplacements optimaux .

Cependant, probablement le plus algorithme d'apprentissage machine à générique pour la formation d'un agent pour effectuer une tâche est optimale . Techniquement, il est pas un algorithme, mais une grande famille d'algorithmes connexes que tout résoudre une formalisation spécifique du problème d'apprentissage.

Officieusement, est de trouver des solutions optimales d'apprentissage Renforcement (RL) à des problèmes définis en termes de Agent qui peuvent observer les État d'un environnement , prendre actions dans cet environnement et de l'expérience récompenses qui sont en quelque sorte liés à l'état et de l'action. RL solveurs doivent être conçus pour faire face à des situations où les récompenses sont reçues au plus tard lorsque des actions importantes ont été prises, ce qui est généralement atteint par l'algorithme d'apprentissage une attente interne de récompenses plus tard associé à l'état et / ou paires d'action de l'État.

Voici quelques ressources pour étudier l'apprentissage par renforcement:

Vous trouverez le sujet lui-même est tout à fait important que de plus en plus sophistiquées variations des algorithmes sont nécessaires que le problème à résoudre devient plus difficile.

Démarrage des jeux pour étudier l'apprentissage de renforcement pourrait inclure:

Tik-tac-toe (aka morpion) -. Cela peut être résolu facilement en utilisant la recherche, mais il fait un simple problème de jouet pour résoudre en utilisant des techniques de RL de base
Mazes - dans la littérature d'apprentissage de renforcement, il existe de nombreux exemples de jeux « monde de la grille », où un agent se déplace en simple N, E, S, pas W sur une petite carte qui peut être rempli avec les risques et les objectifs .
Blackjack (aka 21)

Si vous voulez travailler avec des agents pour jouer à des jeux vidéo, vous pouvez également en apprendre davantage sur réseaux de neurones et probablement en détail -. vous aurez besoin profond, les réseaux de neurones convolutionnels à écran graphique de processus

Une ressource relativement nouvelle pour RL est OpenAI Univers . Ils ont fait beaucoup de travail pour emballer des environnements prêts à former des agents contre, ce qui signifie que vous pouvez vous concentrer sur l'étude des algorithmes d'apprentissage, par opposition à l'effort de mise en place de l'environnement.

En ce qui concerne la liste des compétences actuelles: Aucun d'entre eux sont directement liés à l'apprentissage par renforcement. Cependant:

Si vous pouvez comprendre les mathématiques et la théorie de votre cours précédent, alors vous devriez également être en mesure de comprendre la théorie de l'apprentissage par renforcement.
Si vous avez étudié une ligne ou d'un lot supervisé l'apprentissage des techniques, ceux-ci peuvent être utilisés comme composants à l'intérieur d'un cadre de RL. En règle générale, ils peuvent être utiliséspour approcher une fonction de valeur de l'état du jeu, sur la base de la rétroaction des réussites et des échecs à ce jour.

Autres conseils

Il dépend fortement du type de jeu et les informations sur l'état du jeu qui est disponible à votre AI.

Certains des plus célèbres jeu de AIs de ces dernières années sont basées sur l'apprentissage de renforcement en profondeur (par exemple Lecture Atari avec apprentissage en profondeur renforcement ), qui est l'apprentissage par renforcement normale (par exemple, Q-learning) avec un réseau de neurones en profondeur comme approximation de la fonction de valeur de récompense. Ces approches reçoivent les pixels bruts du jeu ainsi que les points du joueur, et la sortie des actions d'une manette de jeu, un peu comme un être humain. Afin de faire quelque chose comme ça, vous avez besoin d'apprentissage de renforcement maître (voir Sutton et livre fondateur de Barto de ) et l'apprentissage en profondeur (voir Ian Goodfellow et al. livre), puis comment pour faire fondre les dans l'apprentissage de renforcement profond (recherche de « l'apprentissage de renforcement » dans une liste curated des documents d'apprentissage en profondeur comme A * .

Ce que vous cherchez est appelé Apprentissage par renforcement . Dans mon université, il y a un cours complet (15 $ \ cdot = 3h 45h $) seulement pour initier les élèves à ce sujet. Voici mes (la plupart du temps en allemand) notes de cours à la planification probabiliste . Je dirais que cela est définitivement un sujet avancé pour l'apprentissage de la machine.

topcis pour en apprendre davantage sur

Décision de Markov processus (MDP)
- Politique et valeur itération
- Projet: Rock-Paper-Scissors / Tic-Tac-Toe
Décision de Markov Partiellement Obversable processus
- Projet: Jack Black
L'apprentissage Reinforcment
- Q-Learning
- SARSA

Autres jeux simples

Pong
Pendule Inversé
Backgammon

Autres ressources

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange