Réseau neuronal Q Apprentissage pour Tic Tac Toe - Comment utiliser le seuil

https://datascience.stackexchange.com/questions/26600

31-10-2019
|

Question

Je programmer actuellement un réseau de neurones d'apprentissage aq ne fonctionne pas. J'ai déjà posé une question sur les intrants et j'ai réglé cela. Mon idée actuelle pour expliquer pourquoi le programme ne fonctionne pas est à voir avec la valeur de seuil. Il s'agit d'un réseau neuronal - Q apprenant une variable spécifique.

Fondamentalement, le theshold est une valeur comprise entre 0 et 1, vous faites ensuite un nombre aléatoire entre 0 et 1, si ce nombre aléatoire est plus grand que le seuil, vous choisissez un choix complètement aléatoire, sinon le réseau neuronal choisi en trouvant le plus grand Q Valeur.

Ma question est qu'avec cette valeur de seuil, je la mette actuellement en œuvre comme commençant à près de 0, puis augmentant linéairement jusqu'à ce qu'elle atteigne 1 au moment où le programme a atteint l'itération finale. Est-ce correct?

La raison pour laquelle je soupçonne que cela est incorrect, c'est que lorsque vous tracez un graphique d'erreur de la formation du réseau neuronal, le programme n'apprend pas du tout, mais lorsque le seuil atteint presque 1, il commence à apprendre très rapidement, et si vous exécutez plus d'itérations après Il atteint 1, tous les jeux de jeux dans la mémoire de relecture deviennent les mêmes et l'erreur est essentiellement 0 de leur sur.

Toute rétroaction est grandement appréciée et si cette question n'est pas claire de toute façon, faites-le moi savoir et je vais essayer de le réparer. Merci à tous ceux qui aident.

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange