proyecto de aprendizaje por refuerzo juguete

https://stackoverflow.com/questions/2846038

27-09-2019
|

Pregunta

Mi proyecto juguete para aprender y aplicar aprendizaje por refuerzo es:
- Un agente intentos para llegar a un objetivo Estado de "seguridad" y "rápida" ....
- Pero hay proyectiles y cohetes que se lanzan sobre el agente en la forma
. - El agente puede determinar la posición cohetes -con alguna ruido - sólo si están "cerca"
- Luego, el agente debe aprender a evitar chocar en estos cohetes ..
- El agente tiene -rechargable con tiempo- combustible que se consume en agente movimiento
- Acciones continuas : Acelerando hacia adelante - Torneado con ángulo

Necesito algunos consejos y nombres de los algoritmos RL ese traje ese caso ..
- Creo que es POMDP, pero puedo modelar como MDP y simplemente ignorar el ruido
? - En caso POMDP, ¿Cuál es el método recomendado para la evaluación de la probabilidad
? - ¿Qué es mejor para usar en este caso: funciones de valor o iteraciones Política
? - ¿Puedo usar NN a la dinámica del medio ambiente modelo en lugar de utilizar ecuaciones explícitas
? - En caso afirmativo, ¿existe un tipo / modelo específico de NN que se recomienda
? - Creo que acciones deben ser discretizaron, justo

Sé que va a tomar tiempo y esfuerzo para aprender un tema tan, pero estoy ansioso ..
Usted puede responder a algunas de las preguntas si no puede responder a todas ...
Gracias

Solución

Si esta es su primera experiencia con el aprendizaje por refuerzo Yo recomendaría empezar con algo mucho más simple que esto. Se puede empezar de forma sencilla para conseguir la caída de las cosas y luego pasar a un proyecto más complicado como éste. Tengo problemas con POMDPs y he estado trabajando en la vida real durante bastante tiempo ahora. Ahora voy a tratar de responder a las preguntas que pueda.

Creo que es POMDP, pero puedo modelar como MDP y simplemente ignorar el ruido?

Sí. POMDP significa parcialmente observable Proceso de Decisión de Markov. La pieza parcialmente observable se refiere al hecho de que el agente no puede conocer su estado perfectamente, pero se puede estimar que basa en observaciones. En su caso, usted tendría la ubicación del cohete como una observación que puede tener algo de ruido, y en base al conocimiento previo agentes puede actualizarla de la creencia de dónde están los misiles son. Eso añade mucha complejidad. Sería mucho más fácil de utilizar las ubicaciones de misiles como absolutos y no tener que lidiar con la incertidumbre. Entonces no tendría que POMDPs uso.

En caso POMDP, ¿Cuál es la forma recomendada para la evaluación de la probabilidad?

No entiendo su pregunta. Se podría utilizar algún tipo de regla de Bayes. Es decir, usted tiene algún tipo de distribución que sea su estado de creencia (probabilidades de estar en cualquier estado), que sería su distribución a priori y en base a la observación se ajustaría esto y conseguir una distribución posterior. Mirada en la regla de Bayes, si necesita más información.

¿Qué es mejor para usar en este caso:? Funciones de valor o iteraciones Política

La mayor parte de mi experiencia ha estado utilizando funciones de valor y los encontró relativamente fácil de usar / entender. Pero no sé qué más decirle. Creo que esto es probablemente su elección, que tendría que pasar tiempo trabajando en el proyecto para hacer una mejor elección.

¿Puedo usar NN a modelo de dinámica de medio ambiente en lugar de utilizar ecuaciones explícitas? En caso afirmativo, ¿Hay un tipo / modelo específico de NN para ser recomendado?

No sé nada acerca del uso de NN a entornos modelo, lo siento.

Creo que acciones deben ser discretizaron, ¿verdad?

Sí. Usted tendría que tener una lista discreta de acciones, y una lista de estados discretos. En general, el algoritmo va a elegir la mejor acción para cualquier estado dado, y para los algoritmos más simples (algo así como QLearning) que acaba de realizar un seguimiento de un valor para cada par estado-acción determinada.

Si se acaba de aprender todas estas cosas, le recomendaría el Sutton y Barto texto. Además, si desea ver un ejemplo simple de un algoritmo de RL tengo una clase base muy simple y un ejemplo de utilizarlo durante la dirección github (escrito en Python). La clase abstract_rl está destinado a ser extendida para tareas RL, pero es muy simple. simple_rl.py es un ejemplo de una tarea sencilla (es una simple rejilla con ser una posición de la meta y que utiliza QLearning como el algoritmo) usando base_rl que se puede ejecutar y se imprimirá algunos gráficos que muestran recompensa con el tiempo. Tampoco son muy complejos, pero si usted acaba de empezar puede ayudar a darle algunas ideas. Espero que esto ayudó. Déjeme saber si usted tiene alguna pregunta más o más específicos.

Otros consejos

¿Puedo usar NN a modelo de dinámica de medio ambiente en lugar de utilizar ecuaciones explícitas? En caso afirmativo, ¿Hay un tipo / modelo específico de NN para ser recomendado?

Sí, redes neuronales son conocidos por ser capaz de resolver tareas de predicción. Sin embargo, depende de cómo se define la tarea: ¿usted quiere que su algoritmo para aprender sólo para controlar el medio ambiente cuando se sabe que es dinámica, o quieres aprender a resolver la tarea en un entorno desconocido? El último caso es más común en RL.

Creo que acciones deben ser discretizaron, ¿verdad?

No, ellos no tienen que ser. Por ejemplo, las soluciones Actor crítico trabajan para acciones continuas. También he oído acerca de RL basado en Proceso de Gauss. Un montón de materiales de ambas soluciones son fáciles de encontrar a través de Google.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow