Pregunta

Vamos a imaginar que tenemos una (x,y) del plano donde un robot se puede mover.Ahora vamos a definir el centro de nuestro mundo, como la meta del estado, lo que significa que vamos a dar una recompensa de 100 a nuestro robot una vez que llegue a ese estado.

Ahora, vamos a decir que hay 4 estados(que voy a llamar a,B,C,D) que puede conducir a la meta del estado.

La primera vez que estamos en Un e ir a la meta del estado, vamos a actualizar nuestra QValues tabla como la siguiente:

Q(state = A, action = going to goal state) = 100 + 0

Una de 2 cosas pueden suceder.Puedo terminar el episodio aquí, y empezar una diferente en la que el robot tiene que encontrar de nuevo el objetivo del estado, o puedo seguir explorando el mundo, incluso después de que me encontré con el objetivo de estado.Si yo trato de hacerlo, veo un problema.Si estoy en la meta del estado y volver a Un estado, es Qvalue será el siguiente:

Q(state = goalState, action = going to A) = 0 + gamma * 100

Ahora, si yo trato de ir de nuevo a la meta de estado de Un:

Q(state = A, action = going to goal state) = 100 + gamma * (gamma * 100)

Lo cual significa que si tengo que seguir haciendo esto, como 0 <= gamma <= 0, ambos qValues van a subir siempre.

Es este el comportamiento que se espera de QLearning?Estoy haciendo algo mal?Si este es el comportamiento esperado, no puede dar lugar a problemas?Sé que probabilísticamente, todos los 4 estados(a,B,C y D), crecerá a la misma tasa, pero aún así algo me molesta tener que crezcan para siempre.

La idea de permitir que el agente continúe explorando incluso después de encontrar la meta tiene que ver con que cuanto más cerca se está de la meta del estado, lo más probable es que estando en estados unidos, que pueda ser actualizado en el momento.

¿Fue útil?

Solución

Este es el esperado, ya que el Q esta estimación no es el esperado recompensa, es la espera volver, que es el (posiblemente con descuento vía gamma) la cantidad de recompensa que me gustaría esperar para obtener de ese estado/acción si ahí empecé y seguí a mi la política hasta el final del episodio o para siempre.

Si me das algunos botones, y uno de los botones de siempre produce $1 cuando se pulsa, a continuación, la verdadera recompensa esperada para pulsar ese botón es de $1.Pero el verdadero retorno esperado para presionar el botón infinito de dólares, suponiendo que yo consiga número infinito de posibilidades para pulsar un botón.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top