funciones de generalización para Q-Learning

https://stackoverflow.com/questions/1542690

20-09-2019
|

Pregunta

Tengo que hacer un trabajo con Q de aprendizaje, sobre un chico que tiene que mover los muebles alrededor de una casa (que es básicamente eso). Si la casa es lo suficientemente pequeño, puedo simplemente una matriz que representa las acciones / recompensas, pero a medida que el tamaño de la casa se hace más grande que no será suficiente. Así que tengo que usar algún tipo de función generalización para que, en su lugar. Mi profesor sugiere no usar sólo uno, sino varios más, así que podría compararlos y así. Lo que ustedes recomiendan?

He oído que para esta situación la gente está utilizando máquinas de vectores soporte, también redes neuronales. No estoy realmente en el interior del campo, así que no puedo decir. Que tenía en el pasado alguna experiencia con redes neuronales, pero SVM parece mucho más difícil de captar sujetos. ¿Hay otros métodos que debería tener en cuenta? Sé que debe ser como un trillón de ellos, pero necesito algo sólo para empezar.

Gracias

Solución

Al igual que un repaso de la terminología, en Q-aprendizaje, que está tratando de aprender las funciones Q, que dependen de la acción del Estado y:

Q(S,A) = ????

La versión estándar de Q-learning como se enseña en la mayoría de las clases te dice que para cada S y A, es necesario aprender un valor separado en una tabla y le indica cómo realizar actualizaciones de los botones con el fin de converger a la óptima valores.

Ahora, supongamos que en lugar de la tabla se utiliza un aproximador función diferente. Por ejemplo, vamos a probar las funciones lineales. Tome su (S, A) par y pensar en un montón de características que se pueden extraer de ellos. Un ejemplo de una función es "¿Estoy junto a una pared", otro es "Will el lugar de acción del objeto junto a una pared", etc. Número estas características f1 (S, A), f2 (S, A),. ..

Ahora, trata de aprender la función Q como una función lineal de esas características

Q(S,A) = w1 * f1(S,A) + w2*f2(S,A) ... + wN*fN(S,A)

¿Cómo se debe aprender los pesos w? Bueno, ya que se trata de una tarea, voy a dejar que se piensa en ello por su cuenta.

Sin embargo, como una sugerencia, le dice que tiene K posibles estados y posibles acciones M en cada estado. Digamos que define características K * M, cada uno de los cuales es un indicador de si usted está en un estado particular y va a tomar una acción en particular. Así

Q(S,A) = w11 * (S==1 && A == 1) + w12 * (S == 1 && A == 2) + w21 * (S==2 && A==3) ...

Ahora, observe que para cualquier par de estado / acción, sólo una característica será 1 y el resto será 0, por lo que Q (S, A) será igual a la correspondiente w y que están aprendiendo esencialmente una mesa. Por lo tanto, se puede pensar de la norma, mesa Q-learning como un caso especial de aprendizaje con estas funciones lineales. Por lo tanto, piensa en lo que hace el algoritmo Q-aprendizaje normal, y lo que debe hacer.

Con suerte se puede encontrar una pequeña base de características, un número mucho menor que K * M, que le permitirá representar bien a su espacio.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow