Question

Que signifie $ a '$ dans l'équation "combinaison" en duel DQN? (haut de la page 5)

$$ q (s, a; theta, alpha, beta) = v (s; theta, beta) + biggl (a (s, a; theta, alpha) - frac {1} {N} sum_ {a '} ^ {n} a (s, a'; theta, alpha) biggr) $$

Où il y a des actions $ n $ parmi lesquelles choisir;

  • $ s $ est l'état entrant (le vecteur d'entrée)
  • $ a $ l'action est-elle prise? (l'action choisie)
  • $ a '$ je ne sais pas ce qu'il représente dans ce contexte
  • $ theta $ représente les poids des couches convolutionnelles
  • $ alpha $ sont les poids du "Stream Advantage" qui produit un vecteur
  • $ beta $ sont les poids du flux de valeur (qui produit un scalaire)

Pourquoi ne pas utiliser simplement $ a $ partout, pourquoi $ a '$ utilisé en moyenne?

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top