汇总概率计划

https://stackoverflow.com/questions/3701278

02-10-2019
|

题

我正在尝试创建一个简单的带子基于计划者。我已经完成了基本功能，以计算将达到目标的单独概率计划，但是现在我试图根据其初步行动来确定这些计划如何汇总这些计划，以确定时间t0的“总体”最佳动作是什么。

考虑以下示例。实用程序在0到1之间，表示计划的实现程度。 CF（也介于0到1之间）表示确定性因子或执行计划的概率将导致给定的效用。

Plan1: CF=0.01, Utility=0.7
Plan2: CF=0.002, Utility=0.9
Plan3: CF=0.03, Utility=0.03

如果所有互斥的三个计划从动作A1开始，我应该如何汇总它们以确定使用Action A1的总体“适合度”？我的第一个想法是总结确定性因素，以及按平均公用事业的平均值。这看起来正确吗？

因此，我目前的结果看起来像：

fitness(A1) = (0.01 + 0.002 + 0.03) * (0.7 + 0.9 + 0.03)/3. = 0.02282

还是我应该计算个人可能的公用事业和平均水平？

fitness(A1) = (0.01*0.7 + 0.002*0.9 + 0.03*0.03)/3. = 0.00323

理论上有更多的声音吗？

解决方案

如果您采取行动A1，则必须决定遵循的3个计划中的哪个是相互排斥的。那时我们可以计算计划1的预期效用是

E[plan1] = Prob[plan1 succeeds]*utility-for-success 
           + Prob[plan1 fails]*utility-of-failure
         = .01*.7 + .99*0 //I assume 0
         = .007

同样，对于其他两个计划。但是，由于您只能选择一个计划，因此采取行动A1的真实预期实用程序（我认为这是您的意思）

max(E[plan1],E[plan2],E[plan3]) = fitness(A1)

其他提示

我认为您所谈论的健身功能也必须将所有没有A1的计划视为第一个动作。它们可能非常好，在这种情况下，这样做A1是一个坏主意，或者在这种情况下，这样做A1的情况可能很糟糕。

看着您的想法，第二个对我来说更有意义。它计算出从A1开始的所有计划中随机选择计划的预期效用。这是假设计划可以实现给定效用或完全失败的假设。例如，第一个计划以0.7的概率获得实用程序= 0.01，并以0.3的概率获得效用= 0。这似乎是一个合理的假设。除非您有更多数据可以使用，否则您可以做到的。

因此，这是我的建议：让A1成为所有计划，从A1和〜A1开始，所有计划都不启动A1。然后

F(A1) = fitness(A1) / fitness(~A1)

在第二个示例中定义健身的位置。

这应该为您提供了从A1开始与没有的计划的预期实用程序的比率。如果大于一个，A1看起来像是一个好动作。

如果您对概率计划感兴趣，应该看看 POMDP模型和算法类似于价值迭代。

编辑：

实际上，我应该指向你马尔可夫决策过程（没有PO）。对不起。

您可能应该为自己的问题做的是最大化预期的实用程序。称呼这个。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow