我必须做与Q学习一些工作,大约有移动家具周围的房子(这基本上是)一个人。如果房子是足够小,我只能有一个代表动作/奖励一个矩阵,但随着房屋面积逐渐变大,这将是不够的。所以,我必须使用某种它推广的功能,来代替。我的老师建议我用的不只是一个,而是几个的,这样我就可以对它们进行比较等等。什么你们建议?

我听说,造成这种情况的人正在使用支持向量机,也是神经网络。我真的不场地内的,所以我不能告诉。我在过去曾与神经网络的一些经验,但似乎SVM困难得多主题把握。有没有我应该寻找其他的方法呢?我知道一定有像他们一样的数不胜数,但我需要的东西只是开始。

由于

有帮助吗?

解决方案

正如术语的复习,在Q学习,你正在努力学习的Q功能,这取决于国家和行动:

Q(S,A) = ????

在大多数班级授课Q学习的标准版本,告诉你,你的每一个S和A,你需要学习表中的一个单独的值,并告诉你如何执行贝尔曼更新,以收敛到最优值。

现在,让我们说的不是表,你使用不同的函数逼近。例如,让我们试着线性函数。把你的(S,A)对,想到有一堆的功能,您可以从中提取的。一个特征的一个例子是“我是旁边的一个壁,”另一个是“请问动作发生的对象旁的墙壁”等号码这些特征f1(S,A),F2(S,A)。 ..

现在,尝试学习Q函数作为这些特性的线性函数

Q(S,A) = w1 * f1(S,A) + w2*f2(S,A) ... + wN*fN(S,A)

你应该如何学习加权W?那么,既然这是一门功课,我就让你想想看你自己了。

但是,作为一个提示,让说,你有K个可能的状态和M可能采取的行动在每个状态。比方说,你定义K * M特性可用,每一个都是你是否是在一个特定的状态,将采取特定操作的指标。所以

Q(S,A) = w11 * (S==1 && A == 1) + w12 * (S == 1 && A == 2) + w21 * (S==2 && A==3) ...

现在,请注意,对于任何状态/动作对,只有一个特征将是1,其余的将是0,所以Q(S,A)将等于相应的w和你基本上是学习的表格。所以,你能想到的标准,表Q学习与这些线性函数学习的一个特例。因此,认为正常的Q学习算法做了什么,你应该做的事情。

希望你能找到的特点,于K * M少很多小的基础,这将让你代表你的空间很好。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top