Quand arrêter le calcul des valeurs de chaque cellule dans la grille en apprentissage par renforcement (programmation dynamique) appliquée sur gridworld

datascience.stackexchange https://datascience.stackexchange.com/questions/6700

Question

Application Compte tenu de l'apprentissage de renforcement (méthode de la programmation dynamique d'effectuer l'itération de la valeur) sur monde de la grille, dans chacun de l'itération, je passe par chacune des cellules de la grille et de mettre à jour sa valeur en fonction de sa valeur actuelle et la valeur actuelle de l'action de cet État prenant. Maintenant

  1. Combien de temps dois-je mettre à jour la valeur de garder chaque cellule? Dois-je garder à jour à moins que le changement dans la précédente et la fonction de la valeur actuelle est le moins? Je ne suis pas en mesure de comprendre comment mettre en œuvre le mécanisme d'arrêt dans le scénario au réseau mondial (escompte pas considéré)
  2. La fonction de valeur les valeurs de toutes les grilles dans le monde du réseau?
Était-ce utile?

La solution

1- Vous devez définir un seuil (un hyper-param) qui vous permettra de quitter la boucle.

Soit V les valeurs de tous les états s et V » les nouvelles valeurs après itération de la valeur.

si $ \ sum_s | V (s) - V »(s) | seuil \ le $, quittez

2 - V est une fonction pour chaque cellule dans la grille oui parce que vous devez mettre à jour toutes les cellules.

it helps.

Licencié sous: CC-BY-SA avec attribution
scroll top