Вопросы процесса принятия решений по Маркову [закрыто]

https://stackoverflow.com/questions/2148345

23-09-2019
|

Вопрос

альтернативный текст http://img693.imageshack.us/img693/724/markov.png

Меня немного смущают некоторые моменты:

Что значит сказать, что данное действие будет успешным в 70% случаев?Означает ли это, что каждый раз, когда он пытается выполнить действие А, он в 70% случаев будет выполнять это действие А, а остальные 30% — действие, которое приводит к одному и тому же состоянию, или просто это так, как если бы он делал это всегда? действие А, но только в 30% случаев он его не выполняет?Надеюсь, я ясно выражаюсь :(
Как возможно иметь несколько последовательных состояний с одинаковой полезностью?По идее полезность не всегда должна уменьшаться по мере удаления от состояний с вознаграждением?
Зная только информацию, которую я дал выше, возможно ли сделать вывод, что такое фактор дисконтирования (гамма)?Если да, то как?
Можно ли рассчитать вознаграждение за государства?Как?

Решение

Существует шаблон решения большинства проблем MDP, но я думаю, что вы, вероятно, упустили некоторую информацию из описания проблемы, скорее всего, это связано с состоянием, которого вы пытаетесь достичь, или с тем, как заканчивается эпизод (что произойдет, если вы выбежите за край сетки).Я сделал все возможное, чтобы ответить на ваши вопросы, но добавил краткое описание процесса, который я использую для решения подобных проблем.

Во-первых, полезность — это достаточно абстрактная мера того, насколько вы хотите находиться в данном состоянии.Определенно возможно иметь два состояния с одинаковой полезностью, даже если вы измеряете полезность с помощью простых эвристик (евклидово или манхэттенское расстояние).В этом случае я предполагаю, что ценность полезности и вознаграждение взаимозаменяемы.

В долгосрочной перспективе целью подобных проблем, как правило, является: как максимизировать ожидаемое (долгосрочное) вознаграждение? Скорость обучения, гамма, контролирует, насколько большое внимание вы уделяете текущему состоянию по сравнению с тем, где вы хотели бы оказаться в конечном итоге. По сути, вы можете думать о гамме как о спектре, исходящем из «сделай то, что приносит мне наибольшую пользу в данный момент времени» в другую крайность «Изучите все мои варианты и выберите лучший».Саттон и Барто в книге. обучение с подкреплением возьми что-нибудь действительно приятное объяснения о том, как это работает.

Прежде чем начать, вернитесь к вопросу и убедитесь, что вы можете уверенно ответить на следующие вопросы.

Что такое государство?Сколько штатов существует?
Что такое действие?Сколько действий?
Если вы начнете с состояния u и примените действие a, какова вероятность достижения нового состояния v?

Итак, ответы на вопросы?

Состояние — это вектор (x,y).Сетка имеет размер 5 на 5, поэтому имеется 25 штатов.
Есть четыре возможных действия: {E,N,S,W}.
Вероятность успешного достижения соседнего состояния после применения подходящего действия равна 0,7, вероятность не двигаться (оставаться в том же состоянии) 0,3.Предполагая, что (0,0) — это верхняя левая ячейка, а (4,4) — нижняя правая ячейка, в следующей таблице показано небольшое подмножество всех возможных переходов.

Start State Action           Final State    Probability
---------------------------------------------------
(0,0)           E               (0,0)          0.3
(0,0)           E               (1,0)          0.7
(0,0)           E               (2,0)          0
...
(0,0)           E               (0,1)          0
... 
(0,0)           E               (4,4)          0
(0,0)           N               (0,0)          0.3
...
(4,4)           W               (3,4)          0.7
(4,4)           W               (4,4)          0.3

Как мы можем проверить, имеет ли это смысл для данной задачи?

Убедитесь, что в таблице имеется необходимое количество записей.В сетке 5 на 5 имеется 25 состояний и 4 действия, поэтому в таблице должно быть 100 записей.
Убедитесь, что для пары начальное состояние/действие только две записи имеют ненулевую вероятность возникновения.

Редактировать.ответ на запрос вероятностей перехода к целевое состояние.Приведенные ниже обозначения предполагают

v — конечное состояние
ты — исходное состояние
a — это действие, где оно не упоминается, подразумевается, что примененное действие не имеет значения.

P( v=(3,3) | u =(2,3), a=E ) = 0.7
P( v=(3,3) | u =(4,3), a=W ) = 0.7
P( v=(3,3) | u =(3,2), a=N ) = 0.7
P( v=(3,3) | u =(3,4), a=S ) = 0.7
P( v=(3,3) | u =(3,3) ) = 0.3

Другие советы

объявление.1) вероятно дело не в том, что робот должен всегда двигаться, т.е.эти 30% — это «ах, теперь я немного отдохну» или «вообще не было сил двигаться».

Я сформулировал эту проблему как марковский процесс принятия решений с конечным горизонтом и решил ее с помощью итерации политики.Справа от каждой итерации имеется цветовая сетка, представляющая рекомендуемые действия для каждого состояния, а также исходная сетка/матрица вознаграждений.

Рассмотрите окончательную политику/стратегию на Этапе 4.Согласуется ли это с вашей интуицией?

enter image description here

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow