Q-Learning Pourquoi soustrayons-nous le terme Q (S, A) pendant la mise à jour?

datascience.stackexchange https://datascience.stackexchange.com/questions/27166

  •  31-10-2019
  •  | 
  •  

Question

Je ne comprends pas la signification du terme $ -q (s_t, a_t) $ dans l'algorithme Q-Learning, et je ne trouve pas non plus d'explication.

Tout le reste fait le sence. L'algorithme de télévision Q est un algorithme hors politique, contrairement à Sarsa. L'équation de Bellman décrit Q-Learning comme suit:

$$ q (s_t, a_t) Leftarrow q (s_t, a_t) + alpha gauche [r_t + gamma cdot argmax (q (s'_t, a'_t)) - q (s_t, a_t) droite ] $$

"La valeur Q de l'action $ a $ prise dans l'état $ s $ au temps $ t $ devient égal à: cette même valeur Q plus petite quantité de: Récompense actuellement reçu (la récompense pourrait être nul) avec un certain montant $ gamma $ de la meilleure valeur Q disponible dans le nouvel État, moins Notre valeur actuelle


Pour moi, ce terme $ -q (s_t, a_t) $ à la toute fin est redondant. ... Si nous fixons Gamma à 0,8 $, les récompenses futures se décomposeront de toute façon.

Oui, si à la place, nous définissons maintenant $ gamma = 0 $, le terme $ -q (s_t, a_t) $ fera glisser notre valeur vers le bas - y a-t-il un cas où il serait utile et quel serait le résultat?


Éditer:

Wikipeda utilise une forme légèrement différente de l'équation de Bellman

$$ q (s_t, a_t) Leftarrow (1- alpha) cdot q (s_t, a_t) + alpha Left [r_t + gamma cdot argmax (q (s'_t, a'_t)) à droite] $$

C'est la même équation que celle ci-dessus, car nous pouvons multiplier $ q (s_t, a_t) $ avec un $ alpha $, puis le prendre en compte, en obtenant la première équation.

Cette représentation me fait bien comprendre que nous interpolons linéairement du courant à la valeur Q plus récente, mais je ne peux pas le lier à la représentation originale ... dans la représentation originale (la première équation), il semble magiquement que Gamma Serait suffisant - quelqu'un peut-il le clarifier pour moi?

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top