QLearning和永无止境的情节

题

让我们假定，我们有一个（X，Y）平面，其中一个机械手可以移动。现在我们定义我们的世界中为目标状态，这意味着我们将会给100奖励给我们的机器人一旦达到该状态。

现在，让我们说，有4种状态（我将称之为A，B，C，d），其可以导致目标状态。

第一次我们是在一个并进入目标状态，我们将更新我们的qvalue的表如下：

Q(state = A, action = going to goal state) = 100 + 0

一的两件事情可能发生。我可以在这里结束的插曲，并启动一个不同的地方机器人必须再次找到目标状态，或者我可以继续探索世界，即使是在我发现目标状态。如果我尝试这样做，我虽然发现了问题所在。如果我的目标状态，并返回到状态A，它的Qvalue会有如下：

Q(state = goalState, action = going to A) = 0 + gamma * 100

现在，如果我尝试再去从A目标状态：

Q(state = A, action = going to goal state) = 100 + gamma * (gamma * 100)

这意味着如果我继续这样做，因为0 <=伽马<= 0时，这两个qvalue的要永远上涨。

这是QLearning的预期行为？难道我做错了什么？如果这是预期的行为，不能这样导致的问题？我知道概率，所有的4种状态（A，B，C和d），会以同样的速度增长，但即便如此，它有点错误我让他们永远增长。

允许代理人继续探索即使发现目标与他是从目标状态越近，就越有可能是在当时可以更新状态正在做的IDEIA。

解决方案

这是如预期的，由于q-估计不期望的奖励，这是预期的返回，这是奖励的（经由伽马可能的折扣）量我期望从国家/动作收获，如果我在那里开始跟着我，直到政策的插曲或永远结束。

如果你给我一些按钮，这些按钮中的一个总是产生$ 1中按时，则按下该按钮的真实预期回报为$ 1但按下按钮的真实预期收益无穷美元，假设我得到机会按下一个按钮的无限数量。

许可以下： CC-BY-SA 和归因