Pregunta

Al explicar la función de ventaja, generalmente se afirma que el uso de una línea de base reduce la varianza. No he encontrado ninguna referencia específica para justificar esto.

¿Es esta una aplicación de control varia o algo similar?

¿Alguien podría proporcionar alguna referencia o justificación formal para la reducción de la varianza?

¿Fue útil?

Solución

Supongo que se está refiriendo a las estimaciones de gradiente de políticas. Agregar cualquier tipo de función a su estimación de política, que depende del estado del medio ambiente, en primer lugar, no sesgue a su estimador de gradiente (Prueba aquí).

La idea básica de restar una línea de base de su función de valor de acción (y así formar la función de ventaja) es que un estimador imparcial de su gradiente de política aún es imparcial si se restan una constante de ese estimador. Luego, esa constante se puede elegir adecuadamente para reducir la varianza del nuevo estimador por optimización. Si tiene acceso, puede encontrar una muy buena explicación en el libro de aprendizaje de refuerzo estadístico: enfoques modernos de aprendizaje automático en la Sección 7.2.2. También [2] y sección 3 en [3].

Como menciona, se puede ver como una adición de covariable de control [4] que se utiliza para reducir la varianza en las estimaciones de Monte Carlo. Una buena opción para esa función es utilizar la función de valor habitual ($ V (s) $) que reduce la varianza de su estimación.

¡Espero eso ayude!

Licenciado bajo: CC-BY-SA con atribución
scroll top