Pregunta

Creo que entiendo la idea principal, y casi entiendo la derivación, excepto por esta línea, vea la imagen a continuación:

enter image description here

Entiendo lo que estamos haciendo al usar la probabilidad de la política de soportar las recompensas del tiempo T + 2 (porque llegar aquí depende del problema de tomar una acción que llega aquí). Pero no entiendo por qué restamos de manera similar la función de valor de la devolución ...

Tampoco parece coincidir con el ejemplo de retorno objetivo (g) implícito para 2 pasos de respaldo en la diapositiva 15 de las diapositivas de esta conferencia:

https://www.dropbox.com/sh/3xowt7qvyadvejn/aabpwqmkwx3kvbeqvlbcxnyra/slides%20(pdf%20and%20keynote)?dl=0&preview=13-multistep.pdf

Gracias por cualquier idea. Me podría perder algo simple/obvio a medida que me sumerjo en estos detalles.

Editar - Para más contexto, ver pág. 160 de este PDF, que es de donde proviene la imagen: http://incompleteideas.net/sutton/book/bookdraft2016sep.pdf

¿Fue útil?

Solución

Las diapositivas y el libro son consistentes. Observe cómo en las diapositivas hay una restricción en el verano: es decir, $ a neq a_ {t+1} $. Para $ g^{(2)} $, debe "eliminar" de $ v_ {t+1} $ el término que no debería estar allí, es decir, $ a_ {t+1} $.

Ahora, ¿por qué se elimina este término?

Si mantiene este término, agregará $ a_ {t+1} $ dos veces. En la copia de seguridad de 1 paso, es parte de la expectativa de paso $ s_ {t+1} $.

Cuando calcula la copia de seguridad de 2 pasos, desea reemplazar $ (S_ {t+1}, a_ {t+1}) $ en la expectativa de 1 paso con el valor esperado con descuento de $ s_ {t+2} $. Entonces susto el término y agrega la expectativa con descuento por $ s_ {t+2} $

Licenciado bajo: CC-BY-SA con atribución
scroll top