在QLearning负回报

https://stackoverflow.com/questions/1844178

12-09-2019
|

题

让我们假设我们是在一个房间里我们的代理商可以沿着XX和YY轴移动。在每一点上，他可以向上，向下，左，右。因此，我们的状态空间可通过（X，Y）来定义，我们的每一点行动由（上，下，左，右）。让我们假设，无论我们的代理做一个动作，这将让他碰了壁，我们会给他的-1负报酬，并把他带回在他之前的状态。如果他在房间的中央发现的傀儡他赢10的奖励。

当我们对一个给定的状态/动作对更新我们的QValue，我们看到什么样的行动可以在新的状态下进行，计算的是这是可能实现这一目标的最大QValue，这样我们就可以更新我们的Q（S我们目前的状态/动作，一）值。这意味着，如果我们在点（10，10）有一个目标状态，周围所有国家都会有QValue有点小，因为他们得到更远。现在，在关系到墙壁，在我看来，同样是不正确的。

当代理点击的壁（让我们假定他在位置（0，0），也做了动作UP）时，他将收到该状态/动作-1的奖励，从而得到-1 QValue。

现在，如果后来我在状态（0，1），并假设所有其它状态的操作（0,0 0）是零，计算的QValue时（0，1）的动作LEFT，它会计算它通过以下方式：

Q([0,1], LEFT) = 0 + gamma * (max { 0, 0, 0, -1 } ) = 0 + 0 = 0

这是，已经打在墙上不会传播到附近的状态，相反，当你有积极的奖励状态会发生什么。

在我的光学器件，这似乎奇数。起初，我以为找到状态/动作对给予奖励负将learningwise为正回报的好，但我在上面的例子中，这种说法似乎并不成立。似乎是在算法采取更考虑到积极的奖励比负面的偏差。

这是QLearning的预期行为？应该不差的回报是一样积极因素一样重要？什么是“变通”这个？

解决方案

可以通过增加从0默认奖励1避免负面奖项，目标奖励10至11，以及罚款从-1到0。

有吨的Q学习科学出版物，所以我敢肯定还有其他的配方将允许负反馈。

编辑：我认错，我前面说过，这并不改变行为。我的思维过程中，与负反馈的制剂可以由一个替换，而不

原因你的观察是，你必须对你的行为的结果，或者是在国家没有不确定性，因此你的代理人总是可以选择它认为行动具有最优收益（因此，最大的Q值在所有今后的行动）。这就是为什么你的负反馈不传播：代理将简单地避免在未来的行动

然而，如果你的模型将包括在结果的不确定性在你的动作（例如，总有一个随机的方向移动的概率为10％），你的学习规则应该整合了所有可能的未来的回报（基本上取代了最大通过加权和）。在这种情况下，负反馈可以过传播（这就是为什么我认为这应该是可能的：P）。这种模型的例子是 POMDPs 。

其他提示

，当它是从一个特定的移动唯一可能的结果负反馈只传播。

这是否是有意的或无意的我不知道。

您的问题是在这本书“强化学习：简介”的回答，其中有“最大化偏置和双学”

的部分。

在“Q-性学习的”算法有一个缺点，其中最大过度估计值被隐式地使用作为最大值的估计，这可能导致显著正偏压。

“双Q-学习”算法可以最大化避免偏见和解决你的问题，你需要学习两个独立的估计，所谓的Q_1（a）和Q_2（一）。在这里，我贴伪代码为您提供：双Q学习

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow