在时间差异中更新规则

题

更新规则TD（0）Q学习：

Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max( Q(t) ) )
然后采取当前的最佳动作（优化）或随机操作（对资源管理器）

其中maxNextq是可以在下一个状态下获得的最大Q ...

但是在TD（1）中，我认为更新规则将是：

Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max( Q(t) ) )

我的问题：
期限 gamma * Reward(t-1) 意味着我将永远尽力而为 t-1 ..我认为这将阻止探索..
有人可以给我一个提示吗？

谢谢

解决方案

您正在谈论“资格跟踪”用法，对吗？看到方程式和算法.

注意 E_T（S，A） 那里的方程式。使用探索步骤时，没有罚款。

许可以下： CC-BY-SA 和归因