在时间差异中更新规则
题
更新规则TD(0)Q学习:
Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max( Q(t) ) )
然后采取当前的最佳动作(优化)或随机操作(对资源管理器)
其中maxNextq是可以在下一个状态下获得的最大Q ...
但是在TD(1)中,我认为更新规则将是:
Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max( Q(t) ) )
我的问题:
期限 gamma * Reward(t-1)
意味着我将永远尽力而为 t-1
..我认为这将阻止探索..
有人可以给我一个提示吗?
谢谢
解决方案
您正在谈论“资格跟踪”用法,对吗?看到 方程式和算法.
注意 E_T(S,A) 那里的方程式。使用探索步骤时,没有罚款。
不隶属于 StackOverflow