alt文本http://img693.imageshack.us/img693/724/markov.png

我有点感到困惑的一些要点:

  1. 这是什么意思来说,这将是成功的,70%的时间,他试图给定的行动?这是否意味着每一次他试图执行行动,将70%的时间做这行动和其他30%的人的行动,导致同一国家,或者只是它是如果他总是那样的行动,但只有30%的时候,他只是没有不是吗?我希望我让自己清楚的:(
  2. 怎么可能具有连续几个国家用同样的实用工具?在理论的实用工具不应该总是有减少,越远,你是从国家的奖励?
  3. 只知道的信息,我给了上面, 它是能够推断出是什么 折扣系数(gamma)?如果是,怎么样?
  4. 是否有可能计算 奖励的国家?怎么样?
有帮助吗?

解决方案

有一种模式,以处理与最市场发展方案的问题,但我认为你可能省略了一些信息问题的说明,最有可能的状态你想达到的,或该方法的一个小插曲结束(如果发生了什么你跑掉的边缘网格)。我已经做了我最好回答你的问题,但我附上底漆对这个过程中,我用它来处理这些类型的问题。

首先的工具是一个相当抽象的量度你有多想要在给定的状态。这绝对是可能有两个国家平等的实用工具,甚至当你措施的实用简单的启发式(欧几里德曼哈顿或距离)。在这种情况下,我假定的实用价值和奖励,是可以互换的。

在长期的目标,在这些类型的问题的倾向, 你如何最大限度地提高预期的(长期)的奖励? 学习率,伽马,控制多少重视你的当前状态对您想要结束了-你可以有效地认为伽马射线频谱去, '做的事情的好处最让我在这个时间步长' 在另一个极端 '探索一切选项,并回到最好的一个'.Sutton和巴托在那本书上 加强学习 有一些非常好的 解释 如何运作的。


在开始之前,回去通过的问题并确保可以满怀信心地回答下列问题。

  1. 是什么状态?如何许多国家都没有?
  2. 是什么行动?如何许多的行动吗?
  3. 如果你开始在的状态,并应用一个动作一,什么是概率达到一个新的国家v?

所以答案的问题吗?

  1. 状态矢量(x,y)。格是5 5,所以,有25个国家。
  2. 有四种可能的行动,{E、N、S W}
  3. 该概率的成功地达成一个相邻的国家之后申请一个合适的行动是0.7,该概率的不动(住在同一个国家是0.3).假设(0,0)是左上电池和(4,4)是右元,下表显示的一小部分的所有可能的过渡。
Start State Action           Final State    Probability
---------------------------------------------------
(0,0)           E               (0,0)          0.3
(0,0)           E               (1,0)          0.7
(0,0)           E               (2,0)          0
...
(0,0)           E               (0,1)          0
... 
(0,0)           E               (4,4)          0
(0,0)           N               (0,0)          0.3
...
(4,4)           W               (3,4)          0.7
(4,4)           W               (4,4)          0.3

我们如何能够检查这个意义,对于这个问题?

  1. 检查表中有适当数量的项目。5由5个格有25个国家和4的行动,因此表应该有100项。
  2. 检查以确保对启动国家行动的对,只有两项具有非零的概率发生.

编辑。回答请求,为过渡概率 目标状态。符号下面的假定

  • v是最终状态
  • 妳是来源国
  • 一个是行动,不是提及,这是暗示的行动施加不相关的。
P( v=(3,3) | u =(2,3), a=E ) = 0.7
P( v=(3,3) | u =(4,3), a=W ) = 0.7
P( v=(3,3) | u =(3,2), a=N ) = 0.7
P( v=(3,3) | u =(3,4), a=S ) = 0.7
P( v=(3,3) | u =(3,3) ) = 0.3

其他提示

广告。1) 大概 这并不是说机器人总动--即这些30%是"啊,现在我休息一位"或"没有任何移动的动力"。

我已经制定了这个问题作为一个有限的地平线Markov决策进程和解决它通过政策的迭代。向右的每一次迭代,有一种彩色编码的网格表示的建议采取的行动对每个国家以及原来的奖励格/矩阵。

审查最终的政策/战略在第4阶段。它不会同意你的直觉?

enter image description here

enter image description here

enter image description here

enter image description here

enter image description here

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top