让我们假设我们是在一个房间里我们的代理商可以沿着XX和YY轴移动。在每一点上,他可以向上,向下,左,右。因此,我们的状态空间可通过(X,Y)来定义,我们的每一点行动由(上,下,左,右)。让我们假设,无论我们的代理做一个动作,这将让他碰了壁,我们会给他的-1负报酬,并把他带回在他之前的状态。如果他在房间的中央发现的傀儡他赢10的奖励。

当我们对一个给定的状态/动作对更新我们的QValue,我们看到什么样的行动可以在新的状态下进行,计算的是这是可能实现这一目标的最大QValue,这样我们就可以更新我们的Q(S我们目前的状态/动作,一)值。这意味着,如果我们在点(10,10)有一个目标状态,周围所有国家都会有QValue有点小,因为他们得到更远。现在,在关系到墙壁,在我看来,同样是不正确的。

当代理点击的壁(让我们假定他在位置(0,0),也做了动作UP)时,他将收到该状态/动作-1的奖励,从而得到-1 QValue。

现在,如果后来我在状态(0,1),并假设所有其它状态的操作(0,0 0)是零,计算的QValue时(0,1)的动作LEFT,它会计算它通过以下方式:

Q([0,1], LEFT) = 0 + gamma * (max { 0, 0, 0, -1 } ) = 0 + 0 = 0

这是,已经打在墙上不会传播到附近的状态,相反,当你有积极的奖励状态会发生什么。

在我的光学器件,这似乎奇数。起初,我以为找到状态/动作对给予奖励负将learningwise为正回报的好,但我在上面的例子中,这种说法似乎并不成立。似乎是在算法采取更考虑到积极的奖励比负面的偏差。

这是QLearning的预期行为?应该不差的回报是一样积极因素一样重要?什么是“变通”这个?

有帮助吗?

解决方案

可以通过增加从0默认奖励1避免负面奖项,目标奖励10至11,以及罚款从-1到0。

有吨的Q学习科学出版物,所以我敢肯定还有其他的配方将允许负反馈。

编辑: 我认错,我前面说过,这并不改变行为。 我的思维过程中,与负反馈的制剂可以由一个替换,而不

原因你的观察是,你必须对你的行为的结果,或者是在国家没有不确定性,因此你的代理人总是可以选择它认为行动具有最优收益(因此,最大的Q值在所有今后的行动)。这就是为什么你的负反馈不传播:代理将简单地避免在未来的行动

然而,如果你的模型将包括在结果的不确定性在你的动作(例如,总有一个随机的方向移动的概率为10%),你的学习规则应该整合了所有可能的未来的回报(基本上取代了最大通过加权和)。在这种情况下,负反馈可以过传播(这就是为什么我认为这应该是可能的:P)。这种模型的例子是 POMDPs

其他提示

,当它是从一个特定的移动唯一可能的结果负反馈只传播。

这是否是有意的或无意的我不知道。

您的问题是在这本书“强化学习:简介”的回答,其中有“最大化偏置和双学”

的部分。

在“Q-性学习的”算法有一个缺点,其中最大过度估计值被隐式地使用作为最大值的估计,这可能导致显著正偏压。

“双Q-学习”算法可以最大化避免偏见和解决你的问题,你需要学习两个独立的估计,所谓的Q_1(a)和Q_2(一)。在这里,我贴伪代码为您提供: 双Q学习

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top