Обновить правило во временной разнице

https://stackoverflow.com/questions/2929023

05-10-2019
|

Вопрос

Правило обновления TD (0) Q-обучение:

Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max( Q(t) ) )
Затем возьмите либо текущее наилучшее действие (оптимизировать) или случайное действие (для проводника)

Где MaxNextQ является максимальным Q, который можно получить в следующем состоянии ...

Но в TD (1) я думаю, что правило обновления будет:

Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max( Q(t) ) )

Мой вопрос:
Период, термин gamma * Reward(t-1) означает, что я всегда буду принимать мои лучшие действия в t-1 .. который я думаю, предотвратит изучение ..
Может кто-нибудь дать мне намек?

Спасибо

Решение

Вы говорите о использовании «Прияснение следов», верно? Увидеть Уравнения и алгоритм.

Обратите внимание e_t (s, a) уравнение там. Наказание не применяется при использовании шага разведки.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow