Pregunta

He estado estudiando problemas de aprendizaje de refuerzo hierachial, y aunque muchos documentos proponen formas interesantes para aprender una política, todos parecen asumir que conocen de antemano una estructura gráfica que describe las acciones en el dominio. Por ejemplo, El método MAXQ para el aprendizaje de refuerzo jerárquico por Dietterich describe un gráfico complejo de acciones y subtareas para un dominio de taxi simple, pero no cómo se descubrió este gráfico. ¿Cómo aprenderías la jerarquía de este gráfico, y no solo la política?

¿Fue útil?

Solución

En MAXQ de Dietterich, el gráfico se construye manualmente. Se considera que es una tarea para el diseñador del sistema, de la misma manera que se trata de un espacio de representación y funciones de recompensa.

Dependiendo de lo que esté tratando de lograr, es posible que desee descomponer automáticamente el espacio de estado, aprender características relevantes o transferir experiencia de tareas simples a otras más complejas.

Le sugiero que comience a leer documentos que se refieren al maxq con el que vinculó. Sin saber qué exactamente lo que quiere lograr, no puedo ser muy prescriptivo (y no estoy en la cima de toda la investigación actual de RL), pero puede encontrar ideas relevantes en el trabajo de Luo, Bell & McCollum o Los documentos de Madden y Howley.

Otros consejos

Este documento describe un enfoque que es un buen punto de partida:

N. Mehta, S. Ray, P. Tadepalli y T. Dietterich. Descubrimiento automático y transferencia de jerarquías MAXQ. En Conferencia Internacional sobre Aprendizaje Autor, 2008.

http://web.engr.oregonstate.edu/~mehtane/papers/hi-mat.pdf

Digamos que este agente se mueve sobre hacer cosas. No conoce sus objetivos internos (gráfico de tareas). ¿Cómo inferir sus objetivos?

En el camino, esto es imposible. Así como es imposible para mí saber qué objetivo tenía la mente cuando dejaste esa caja: tal vez estabas cansado, tal vez viste una abeja asesina, tal vez tenías que orinar ...

Estás tratando de modelar la estructura de objetivos internos de un agente. Para hacerlo, necesita algún tipo de orientación sobre cuáles son el conjunto de objetivos posibles y cómo se representan por acciones. En la literatura de investigación, este problema se ha estudiado bajo los términos "reconocimiento del plan" y también con el uso de POMDP (proceso de decisión de Markov parcialmente observable), pero ambas técnicas suponen que sí sabe algo sobre los objetivos del otro agente.

Si no sabes nada sobre sus objetivos, todo lo que puedes hacer es inferir uno de los modelos anteriores (esto es lo que hacemos los humanos. Supongo que otros tienen los mismos objetivos que tengo. Nunca pienso: "Oh, él dejó caer Su computadora portátil, debe estar listo para poner un huevo "CSE, es un humano). O modelarla como una caja negra: una función simple de estado a las acciones y luego agregar estados internos según sea necesario (hmmmm, alguien debe haber escrito un documento Sobre esto, pero no sé quién).

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top