¿Cuál es la función Q y cuál es la función V en el aprendizaje de refuerzo?

https://datascience.stackexchange.com/questions/9832

16-10-2019
|

Pregunta

Me parece que la función $ V $ puede expresarse fácilmente mediante la función $ Q $ y, por lo tanto, la función $ V $ me parece superfluo. Sin embargo, soy nuevo en el aprendizaje de refuerzo, así que supongo que tuve algo mal.

Definiciones

El aprendizaje Q y V está en el contexto de Procesos de decisión de Markov. A MDP es un 5-tuple $ (s, a, p, r, gamma) $ con

$ S $ es un conjunto de estados (típicamente finitos)
$ A $ es un conjunto de acciones (típicamente finitas)
$ P (s, s ', a) = p (s_ {t+1} = s' | s_t = s, a_t = a) $ es la probabilidad de obtener del estado $ s $ al estado $ s '$ con acción $ A $.
$ R (s, s ', a) in mathbb {r} $ es la recompensa inmediata después de pasar del estado $ s $ a estado $ s' $ con acción $ a $. (Me parece que generalmente solo $ S '$ es importante).
$ gamma en [0, 1] $ se llama factor de descuento y determina si uno se enfoca en recompensas inmediatas ($ gamma = 0 $), la recompensa total ($ gamma = 1 $) o alguna compensación.

A Política $ pi $, de acuerdo a Aprendizaje de refuerzo: una introducción por Sutton y Barto es una función $ pi: s rectarrow a $ (esto podría ser probabilístico).

De acuerdo a Mario Martins Slides, la $ V $ función es $$ v^ pi (s) = e_ pi {r_t | s_t = s } = e_ pi { sum_ {k = 0}^ infty gamma^k r_ {t+k+1} | s_t = s } $$ y el Q Función es $$ q^ pi (s, a) = e_ pi {r_t | s_t = s, a_t = a } = e_ pi { sum_ {k = 0}^ infty gamma^k r_ {t+k+1} | s_t = s, a_t = a } $$

Mis pensamientos

La función $ V $ establece cuál es el valor general esperado (¡no recompensa!) De un estado $ s $ bajo la póliza $ pi $ es.

La función $ Q $ establece cuál es el valor de un estado $ s $ y una acción $ a $ bajo la póliza $ pi $.

Esto significa, $$ q^ pi (s, pi (s)) = v^ pi (s) $$

¿Derecha? Entonces, ¿por qué tenemos la función de valor? (Supongo que mezclé algo)

Solución

Los valores Q son una excelente manera de hacer que las acciones de Making explícitas para que pueda lidiar con problemas donde la función de transición no esté disponible (sin modelo). Sin embargo, cuando su espacio de acción es grande, las cosas no son tan agradables y los valores Q no son tan convenientes. Piense en una gran cantidad de acciones o incluso espacios de acción continuos.

Desde una perspectiva de muestreo, la dimensionalidad de $ Q (s, a) $ es más alto que $ V (s) $ Entonces podría ser más difícil tener suficiente $ (s, a) $ muestras en comparación con $ (s) $. Si tiene acceso a la función de transición a veces $ V $ es bueno.

También hay otros usos donde ambos se combinan. Por ejemplo, la función de ventaja donde $ A (s, a) = q (s, a) - v (s) $. Si está interesado, puede encontrar un ejemplo reciente utilizando las funciones de ventaja aquí:

Arquitecturas de red de duelo para el aprendizaje de refuerzo profundo

Por Ziyu Wang, Tom Schaul, Matteo Hessel, Hado Van Hasselt, Marc Lanctot y Nando de Freitas.

Otros consejos

$ V^ pi (s) $ es la función de valor estatal de MDP (proceso de decisión de Markov). Es el retorno esperado que comienza desde el estado $ S $ Política siguiente $ pi $.

En la expresión

$$ v^ pi (s) = e_ pi {g_t | s_t = s } $$

$ G_t $ es la recompensa total con descuento del paso de tiempo $ t $, Opuesto a $ R_t $ que es un retorno inmediato. Aquí está tomando la expectativa de todas las acciones de acuerdo con la política. $ pi $.

$ Q^ pi (s, a) $ es la función de valor de acción. Es el retorno esperado que comienza desde el estado $ S $, siguiendo la política $ pi $, tomando acción $ A $. Se centra en la acción particular en el estado particular.

$$ q^ pi (s, a) = e_ pi {g_t | s_t = s, a_t = a } $$

La relación entre $ Q^ pi $ y $ V^ pi $ (el valor de estar en ese estado) es

$$ v^ pi (s) = sum_ {a ∈ A} pi (a | s) * q^ pi (a, s) $$

Sume cada valor de acción multiplicado por la probabilidad de tomar esa acción (la política $ pi (a | s) $).

Si piensa en el ejemplo del mundo de la cuadrícula, multiplica la probabilidad de (arriba/hacia abajo/derecha/izquierda) con el valor de estado de un paso por delante de (arriba/hacia abajo/derecho/izquierda).

Lo tienes bien, el $ V $ la función le da el valor de un estado y $ Q $ le da el valor de una acción en un estado (siguiendo una política determinada $ pi $). Encontré la explicación más clara de Q-Learning y cómo funciona en el libro de Tom Mitchell "Machine Learning" (1997), cap. 13, que se puede descargar. $ V $ se define como la suma de una serie infinita, pero no es importante aquí. Lo que importa es el $ Q $ la función se define como

$$ q (s, a) = r (s, a) + gamma v^{*} ( delta (s, a)) $$Donde V* es el mejor valor de un estado si puede seguir una política óptima que no sabe. Sin embargo, tiene una buena caracterización en términos de $ Q $ $$ v^{*} (s) = max_ {a '} q (s, a') $$Informática $ Q $ se realiza reemplazando el $ V^*$ en la primera ecuación para dar$$ q (s, a) = r (s, a) + gamma max_ {a '} q ( delta (s, a), a') $$

Esto puede parecer una recursión extraña al principio porque está expresando el valor Q de una acción en el estado actual en términos del mejor valor Q de un sucesor Estado, pero tiene sentido cuando se observa cómo lo usa el proceso de respaldo: el proceso de exploración se detiene cuando alcanza un estado de gol y recoge la recompensa, lo que se convierte en el valor Q de la transición final. Ahora, en un episodio de capacitación posterior, cuando el proceso de exploración llega a ese estado predecesor, el proceso de respaldo utiliza la igualdad anterior para actualizar el valor Q actual del estado predecesor. La próxima vez su Se visita el predecesor de que el valor Q del estado se actualice, y así en el retroceso (el libro de Mitchell describe una forma más eficiente de hacerlo almacenando todos los cálculos y reproduciéndolos más tarde). Siempre que cada estado se visite infinitamente a menudo, este proceso eventualmente calcula la Q óptima

A veces verás una tasa de aprendizaje $ alfa $ aplicado para controlar cuánto Q realmente se actualiza:$$ q (s, a) = (1- alpha) q (s, a) + alpha (r (s, a) + gamma max_ {a '} q (s', a ')) $ ps $$ = q (s, a) + alpha (r (s, a) + gamma max_ {a '} q (s', a ') - q (s, a)) $$Observe ahora que la actualización del valor Q lo hace Depender del valor Q actual. El libro de Mitchell también explica por qué es y por qué necesitas $ alfa $: es para MDP estocásticos. Sin que $ alfa $, Cada vez que se intentaba un estado, se intentaba un par de acciones, habría una recompensa diferente para que la función Q^ rebotara por todo el lugar y no convergiera. $ alfa $ ¿Está ahí para que, como el nuevo conocimiento, solo se acepta en parte? Inicialmente $ alfa $ se establece alto para que la corriente (en su mayoría valores aleatorios) de Q sean menos influyentes. $ alfa $ disminuye a medida que avanza la capacitación, de modo que las nuevas actualizaciones tienen cada vez menos influencia, y ahora Q aprendizaje converge

Aquí hay una explicación más detallada de la relación entre el valor de estado y el valor de acción en la respuesta de Aaron. Primero echemos un vistazo a las definiciones de la función de valor y la función de valor de acción en la política $ pi $: begin {align} & v _ { pi} (s) = e { left [g_t | s_t = s right]} & q _ { pi} (s, a) = e { left [g_t | s_t = s, a_t = a right]} end {align}dónde $ G_t = sum_ {k = 0}^{ infty} gamma^kr_ {t+k+1} $ es el regreso en el momento $ t $. La relación entre estas dos funciones de valor puede derivarse comobegin {align} v _ { pi} (s) & = e { left [g_t | s_t = s right]} nonumber & = sum_ {g_t} p (g_t | s_t = s) g_t Nonumber & = sum_ {g_t} sum_ {a} p (g_t, a | s_t = s) g_t nonumber & = sum_ {a} p (a | s_t = s) sum_ {g_t} p (g_t | s_t = s, a_t = a) g_t nonumber & = sum_ {a} p (a | s_t = s) e { izquierda [g_t | s_t = s, a_t = a right]} nonumber & = sum_ {a} p (a | s_t = s) q _ { pi} (s, a) end {alinearse}La ecuación anterior es importante. Describe la relación entre dos funciones de valor fundamental en el aprendizaje de refuerzo. Es válido para cualquier política. Además, si tenemos un determinista política, entonces $ V _ { pi} (s) = q _ { pi} (s, pi (s)) $. Espero que esto te sirva de ayuda. (Para ver más sobre la ecuación de optimización de Bellman https://stats.stackexchange.com/questions/347268/proof-of-bellman-optimity-equation/370198#370198)

La función de valor es una formulación abstracta de utilidad. Y la función Q se usa para el algoritmo Q-learning.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange