更新规则TD(0)Q学习:

Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max( Q(t) ) )
然后采取当前的最佳动作(优化)或随机操作(对资源管理器)

其中maxNextq是可以在下一个状态下获得的最大Q ...


但是在TD(1)中,我认为更新规则将是:

Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max( Q(t) ) )

我的问题:
期限 gamma * Reward(t-1) 意味着我将永远尽力而为 t-1 ..我认为这将阻止探索..
有人可以给我一个提示吗?

谢谢

有帮助吗?

解决方案

您正在谈论“资格跟踪”用法,对吗?看到 方程式和算法.

注意 E_T(S,A) 那里的方程式。使用探索步骤时,没有罚款。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top