Q Problème de relecture d'expérience du réseau neuronal d'apprentissage

https://datascience.stackexchange.com/questions/27347

31-10-2019
|

Question

J'essaie actuellement de créer un réseau neuronal d'apprentissage Tic TAC TOE Q pour me présenter à l'apprentissage du renforcement, mais cela n'a pas fonctionné, j'ai donc décidé d'essayer un projet plus simple nécessitant un réseau pour s'entraîner contre des données statiques plutôt qu'un autre réseau neuronal. Cela m'a conduit à suivre les directives de ce site Web - http://outlace.com/rlpart3.html

Cependant, après la programmation, la version simple fonctionne la moitié du temps, c'est la version sans relecture d'expérience. Sur certaines courses du programme, le jeu sera joué correctement, d'autres qui se déplacent d'avant en arrière pour faire des essais. Lorsque vous essayez d'implémenter l'expérience Replay pour terminer la version la plus dure. Le programme se mettra constamment dans une boucle de faire des allers-retours lors du test

J'ai une limite de 100 lots dans lesquels un lot est sur quoi le réseau neuronal est formé. Je me demande s'il s'agit d'un montant approprié, ou s'il pourrait y avoir des problèmes courants avec la mise en œuvre de la relecture d'expérience que j'ai pu faire.

Ma perspective actuelle de la relecture de l'expérience est: 1. Exécutez le programme 2. Après chaque tour, les données sur lesquelles vous avez utilisé pour former le réseau sont enregistrées en un lot 3. Lorsque vous avez atteint X (100) de lots, choisissez un et s'entraînez-vous dessus. 4. Écrasez le plus ancien lot avec les nouveaux lots qui entrent.

Si quelqu'un pouvait me faire savoir où je me suis mal tourné, ou s'il y a des commentaires sur la relecture de l'expérience ou la qualité de la question, veuillez me le faire savoir et je vous serais très reconnaissant.

Edit: Une autre question que j'ai en termes de formation d'un réseau neuronal contre un réseau neuronal, est que vous le formez contre un réseau complètement séparé qui se forme, m ou le formez-vous contre une version précédente de lui-même. Et lors de la formation contre l'autre réseau neuronal, transformez-vous l'Epsilon Greedy pour faire en sorte que le réseau neuronal opposé n'utilise aucun mouvement aléatoire.

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange