Обучающие и нескончаемые эпизоды

https://stackoverflow.com/questions/1836731

11-09-2019
|

Вопрос

Давайте представим, что у нас есть плоскость (x, y), по которой робот может двигаться.Теперь мы определяем середину нашего мира как целевое состояние, что означает, что мы собираемся наградить нашего робота в размере 100 долларов, как только он достигнет этого состояния.

Теперь предположим, что есть 4 состояния (которые я назову A, B, C, D), которые могут привести к целевому состоянию.

В первый раз, когда мы окажемся в состоянии A и перейдем в состояние цели, мы обновим нашу таблицу QValues следующим образом:

Q(state = A, action = going to goal state) = 100 + 0

Может произойти одно из двух событий.Я могу закончить эпизод здесь и начать другой, где робот должен снова найти целевое состояние, или я могу продолжить исследовать мир даже после того, как нашел целевое состояние.Однако, если я попытаюсь это сделать, я увижу проблему.Если я нахожусь в состоянии цели и возвращаюсь в состояние A, его Qvalue будет следующим:

Q(state = goalState, action = going to A) = 0 + gamma * 100

Теперь, если я попытаюсь снова перейти к целевому состоянию из:

Q(state = A, action = going to goal state) = 100 + gamma * (gamma * 100)

Это означает, что если я продолжу это делать, то как 0 <= гамма <= 0, оба Q-значения будут расти вечно.

Является ли это ожидаемым поведением QLearning?Я делаю что-то не так?Если это ожидаемое поведение, не может ли это привести к проблемам?Я знаю, что вероятностно все 4 состояния (A, B, C и D) будут расти с одинаковой скоростью, но даже в этом случае меня как бы беспокоит, что они растут вечно.

Идея позволить агенту продолжать исследование даже после нахождения цели связана с тем, что чем ближе он находится к целевому состоянию, тем больше вероятность того, что он окажется в состояниях, которые могут быть обновлены в данный момент.

Решение

Это соответствует ожиданиям, поскольку оценка Q не является ожидаемой награда, это ожидаемое Возврат, которая представляет собой сумму вознаграждения (возможно, со скидкой через gamma), которую я ожидал бы получить от этого состояния / действия, если бы я начал с этого и следовал своей политике до конца эпизода или навсегда.

Если вы дадите мне несколько кнопок, и одна из этих кнопок всегда выдает 1 доллар при нажатии, то истинная ожидаемая награда за нажатие этой кнопки составит 1 доллар.Но истинная ожидаемая отдача от нажатия кнопки составляет бесконечность долларов, предполагая, что я получу бесконечное количество шансов нажать кнопку.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow