强化学习和POMDP

题

问题：
对于几乎所有测试用例，输出概率接近0.95 ..没有输出不到0.9！即使为了几乎不可能的结果，它也给出了很高的概率。

PS：我认为这是因为我教了它仅发生的情况，但不贴上未贴上的案例。.但是我不能在剧集的每个步骤中教会它的输出= 0.0，每次不受影响的动作！

有什么建议如何解决这个问题？还是可能是使用NN或实现ProB函数的另一种方法？

谢谢

解决方案

问题在于，以下所有状态的总和必须等于1。如果您这样构建网络，则不能保证。我想到了两种可能的替代方案，我认为我认为离散状态。

从数学角度来看，这两个实际上大致相当。

在连续变量的情况下，您必须假设分布（例如多元高斯），并将该分布的参数（例如均值和协方差stdev）作为输出。

其他提示

拟合NN时，您可能需要适合更广泛的数据，在培训中，您是否有任何数据将其拟合到更接近0的概率？如果没有，我怀疑您的结果可能很差。作为第一步，我将尝试在培训数据集中选择一些不同的内容。

您还如何训练NN？您是否尝试过使用其他方法？激活功能如何，可以尝试使用一些不同的激活功能。

有了神经网，我认为选择模型时会进行反复试验。（对不起，如果所有这些都不够具体。）

许可以下： CC-BY-SA 和归因