让我们假定,我们有一个(X,Y)平面,其中一个机械手可以移动。现在我们定义我们的世界中为目标状态,这意味着我们将会给100奖励给我们的机器人一旦达到该状态。

现在,让我们说,有4种状态(我将称之为A,B,C,d),其可以导致目标状态。

第一次我们是在一个并进入目标状态,我们将更新我们的qvalue的表如下:

Q(state = A, action = going to goal state) = 100 + 0

一的两件事情可能发生。我可以在这里结束的插曲,并启动一个不同的地方机器人必须再次找到目标状态,或者我可以继续探索世界,即使是在我发现目标状态。如果我尝试这样做,我虽然发现了问题所在。如果我的目标状态,并返回到状态A,它的Qvalue会有如下:

Q(state = goalState, action = going to A) = 0 + gamma * 100

现在,如果我尝试再去从A目标状态:

Q(state = A, action = going to goal state) = 100 + gamma * (gamma * 100)

这意味着如果我继续这样做,因为0 <=伽马<= 0时,这两个qvalue的要永远上涨。

这是QLearning的预期行为?难道我做错了什么?如果这是预期的行为,不能这样导致的问题?我知道概率,所有的4种状态(A,B,C和d),会以同样的速度增长,但即便如此,它有点错误我让他们永远增长。

允许代理人继续探索即使发现目标与他是从目标状态越近,就越有可能是在当时可以更新状态正在做的IDEIA。

有帮助吗?

解决方案

这是如预期的,由于q-估计不期望的奖励,这是预期的返回,这是奖励的(经由伽马可能的折扣)量我期望从国家/动作收获,如果我在那里开始跟着我,直到政策的插曲或永远结束。

如果你给我一些按钮,这些按钮中的一个总是产生$ 1中按时,则按下该按钮的真实预期回报为$ 1但按下按钮的真实预期收益无穷美元,假设我得到机会按下一个按钮的无限数量。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top