Pregunta

Estoy estudiando el aprendizaje de refuerzo y estoy trabajando metódicamente El libro de Sutton y Barto más Conferencias de David Silver.

He notado una diferencia menor en cómo se definen los procesos de decisión de Markov (MDP) en esas dos fuentes, que afecta la formulación de las ecuaciones de Bellman, y me pregunto sobre el razonamiento detrás de las diferencias y cuándo podría elegir una u otra.

En Sutton y Barto, la función de recompensa esperada se escribe $ r^a_ {ss '} $, mientras que en las conferencias de David Silver se escribe $ r^a_ {s} $. A su vez, esto conduce a formulaciones ligeramente diferentes de todas las ecuaciones de Bellman. Por ejemplo, en Sutton y Barto, la ecuación para la evaluación de políticas viene dada por:

begin {align} v _ { pi} (s) = sum_a pi (a | s) sum_ {s '} p_ {ss'}^a (r_ {ss '}^a + gamma v _ { Pi} (s ')) end {align}

Mientras que las conferencias de David Silver muestran:

begin {align} v _ { pi} (s) = sum_a pi (a | s) izquierda (r_ {s}^a + gamma sum_ {s '} p_ {ss'}^a v_ { pi} (s ') right) end {align}

En ambos casos:

  • $ pi (a | s) $ es la función de la política - probabilidad de elegir acción $ a $ dada estado $ s $.
  • $ gamma $ es factor de descuento.
  • $ P_ {ss '}^a $ es la función de transición, probabilidad de que el estado cambie a $ s' $ dado $ s, a $

Entiendo que $ R_ {SS '}^a $ y $ r_ {S}^a $ están relacionados (a través de $ p_ {ss'}^a $), de modo que estas dos fuentes explican exactamente lo mismo. Tenga en cuenta que la primera ecuación también se puede escribir como

begin {align} v _ { pi} (s) & = sum_a pi (a | s) sum_ {s '} (p_ {ss'}^ar_ {ss '}^a + gamma p_ {ss '}^av _ { pi} (s')) & = sum_a pi (a | s) izquierda ( sum_ {s '} p_ {ss'}^ar_ {ss '}^a + Sum_ {S '} gamma p_ {ss'}^av _ { pi} (s ') right) & = sum_a pi (a | s) izquierda ( sum_ {s'} p_ {ss '}^ar_ {ss'}^a + gamma sum_ {s '} p_ {ss'}^av _ { pi} (s ') right) end {align}

Por lo tanto, debe ser cierto que $ r_ {s}^a = sum_ {s '} p_ {ss'}^a r_ {ss '}^a $.

Mi pregunta es si hay alguna razón por la que prefiera usar una u otra notación.

Comencé con Sutton y Barto, y encuentro esa notación más intuitiva: la recompensa puede depender del estado final, y esto es explícito en las ecuaciones. Sin embargo, en la práctica parece que la notación utilizada en las conferencias de video describe cálculos más eficientes (esencialmente $ r_ {s}^a = sum_ {s '} p_ {ss'}^a r_ {ss '}^a $ se almacena en caché, si se traduce la fórmula directamente codificar). Eso es todo?

¿Fue útil?

Solución

Tu intuición es correcta. En el caso más general (definiciones de Sutton), el modelo del entorno consiste en la distribución de transición del estado y la distribución de recompensas. Raramente se considera el último, ya que muchas veces la recompensa está siendo asignada por el modelador, dependiente solo por la acción seleccionada del estado actual y siendo determinista. Como lo mencionó, simplifica mucho la implementación de codificación.

Licenciado bajo: CC-BY-SA con atribución
scroll top