Question

En expliquant la fonction de l'avantage, il est généralement affirmé que l'aide d'une ligne de base réduit la variance. Je n'ai trouvé aucune référence spécifique pour le justifier.

Est-ce une application de contrôle Taxipost ou quelque chose de similaire?

Quelqu'un pourrait-il fournir une référence ou une justification formelle de la réduction de la variance?

Était-ce utile?

La solution

Je suppose que vous faites référence à des estimations de gradient de politique. Ajout d'une sorte de fonction à votre estimation de la politique, qui dépend de l'état de l'environnement, tout d'abord, ne biaise pas votre estimateur de gradient ( preuve ).

L'idée de base de la soustraction d'une ligne de base de votre fonction de la valeur d'action (et formant ainsi la fonction d'avantage) est qu'un estimateur sans biais de votre gradient de politique est toujours impartiale si on soustrait une constante de cet estimateur. Ensuite, cette constante peut être choisie de façon appropriée afin de réduire la variance du nouvel estimateur par l'optimisation. Si vous avez accès, vous pouvez trouver une très bonne explication dans le livre statistique Apprentissage par renforcement: apprentissage moderne machine Approches dans la section 7.2.2. Aussi [ 2 ] et de l'article 3 dans [ 3 ].

Comme vous le mentionnez, il peut être considéré comme un ajout covariable de contrôle [ 4 ] qui est utilisé pour réduire la variance dans les estimations de Monte Carlo. Un bon choix pour cette fonction est d'utiliser la fonction habituelle de valeur ($ V (s) $) qui réduit la variance de votre estimation.

it helps!

Licencié sous: CC-BY-SA avec attribution
scroll top