对于Q学习泛化功能

题

我必须做与Q学习一些工作，大约有移动家具周围的房子（这基本上是）一个人。如果房子是足够小，我只能有一个代表动作/奖励一个矩阵，但随着房屋面积逐渐变大，这将是不够的。所以，我必须使用某种它推广的功能，来代替。我的老师建议我用的不只是一个，而是几个的，这样我就可以对它们进行比较等等。什么你们建议？

我听说，造成这种情况的人正在使用支持向量机，也是神经网络。我真的不场地内的，所以我不能告诉。我在过去曾与神经网络的一些经验，但似乎SVM困难得多主题把握。有没有我应该寻找其他的方法呢？我知道一定有像他们一样的数不胜数，但我需要的东西只是开始。

由于

解决方案

正如术语的复习，在Q学习，你正在努力学习的Q功能，这取决于国家和行动：

Q(S,A) = ????

在大多数班级授课Q学习的标准版本，告诉你，你的每一个S和A，你需要学习表中的一个单独的值，并告诉你如何执行贝尔曼更新，以收敛到最优值。

现在，让我们说的不是表，你使用不同的函数逼近。例如，让我们试着线性函数。把你的（S，A）对，想到有一堆的功能，您可以从中提取的。一个特征的一个例子是“我是旁边的一个壁，”另一个是“请问动作发生的对象旁的墙壁”等号码这些特征f1（S，A），F2（S，A）。 ..

现在，尝试学习Q函数作为这些特性的线性函数

Q(S,A) = w1 * f1(S,A) + w2*f2(S,A) ... + wN*fN(S,A)

你应该如何学习加权W？那么，既然这是一门功课，我就让你想想看你自己了。

但是，作为一个提示，让说，你有K个可能的状态和M可能采取的行动在每个状态。比方说，你定义K * M特性可用，每一个都是你是否是在一个特定的状态，将采取特定操作的指标。所以

Q(S,A) = w11 * (S==1 && A == 1) + w12 * (S == 1 && A == 2) + w21 * (S==2 && A==3) ...

现在，请注意，对于任何状态/动作对，只有一个特征将是1，其余的将是0，所以Q（S，A）将等于相应的w和你基本上是学习的表格。所以，你能想到的标准，表Q学习与这些线性函数学习的一个特例。因此，认为正常的Q学习算法做了什么，你应该做的事情。

希望你能找到的特点，于K * M少很多小的基础，这将让你代表你的空间很好。

许可以下： CC-BY-SA 和归因