QLearning et des épisodes sans fin

https://stackoverflow.com/questions/1836731

11-09-2019
|

Question

Imaginons que nous ayons un plan (x, y) dans lequel un robot peut se déplacer.Nous définissons maintenant le milieu de notre monde comme l'état objectif, ce qui signifie que nous allons donner une récompense de 100 à notre robot une fois qu'il aura atteint cet état.

Maintenant, disons qu'il existe 4 états (que j'appellerai A, B, C, D) qui peuvent conduire à l'état objectif.

La première fois que nous sommes en A et que nous passons à l'état objectif, nous mettrons à jour notre table QValues comme suit :

Q(state = A, action = going to goal state) = 100 + 0

L'une des deux choses suivantes peut arriver.Je peux terminer l'épisode ici et en commencer un autre où le robot doit retrouver l'état objectif, ou je peux continuer à explorer le monde même après avoir trouvé l'état objectif.Si j'essaie de faire cela, je vois cependant un problème.Si je suis dans l'état objectif et que je retourne à l'état A, sa Qvalue sera la suivante :

Q(state = goalState, action = going to A) = 0 + gamma * 100

Maintenant, si j'essaie de revenir à l'état objectif à partir de A :

Q(state = A, action = going to goal state) = 100 + gamma * (gamma * 100)

Ce qui signifie que si je continue à faire cela, comme 0 <= gamma <= 0, les deux qValues vont augmenter pour toujours.

Est-ce le comportement attendu de QLearning ?Est-ce que je fais quelque chose de mal?Si tel est le comportement attendu, cela ne peut-il pas entraîner des problèmes ?Je sais que, de manière probabiliste, les 4 États (A, B, C et D) grandiront au même rythme, mais quand même, cela me dérange un peu de les voir grandir pour toujours.

L'idée de permettre à l'agent de continuer à explorer même après avoir trouvé l'objectif est liée au fait que plus il est proche de l'état d'objectif, plus il est probable qu'il se trouve dans des états qui peuvent être mis à jour pour le moment.

La solution

C'est comme prévu, puisque l'estimation de Q n'est pas celle attendue. récompense, c'est l'attendu retour, qui est le montant (éventuellement réduit via gamma) de récompense que je m'attendrais à récolter de cet état/action si je commençais par là et suivais ma politique jusqu'à la fin de l'épisode ou pour toujours.

Si vous me donnez des boutons et que l'un de ces boutons produit toujours 1 $ lorsqu'il est enfoncé, alors la véritable récompense attendue pour avoir appuyé sur ce bouton est de 1 $.Mais le véritable retour attendu en appuyant sur un bouton est une infinité de dollars, en supposant que j'ai un nombre infini de chances d'appuyer sur un bouton.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow