我正在尝试创建一个简单的 带子基于计划者。我已经完成了基本功能,以计算将达到目标的单独概率计划,但是现在我试图根据其初步行动来确定这些计划如何汇总这些计划,以确定时间t0的“总体”最佳动作是什么。

考虑以下示例。实用程序在0到1之间,表示计划的实现程度。 CF(也介于0到1之间)表示确定性因子或执行计划的概率将导致给定的效用。

Plan1: CF=0.01, Utility=0.7
Plan2: CF=0.002, Utility=0.9
Plan3: CF=0.03, Utility=0.03

如果所有互斥的三个计划从动作A1开始,我应该如何汇总它们以确定使用Action A1的总体“适合度”?我的第一个想法是总结确定性因素,以及按平均公用事业的平均值。这看起来正确吗?

因此,我目前的结果看起来像:

fitness(A1) = (0.01 + 0.002 + 0.03) * (0.7 + 0.9 + 0.03)/3. = 0.02282

还是我应该计算个人可能的公用事业和平均水平?

fitness(A1) = (0.01*0.7 + 0.002*0.9 + 0.03*0.03)/3. = 0.00323

理论上有更多的声音吗?

有帮助吗?

解决方案

如果您采取行动A1,则必须决定遵循的3个计划中的哪个是相互排斥的。那时我们可以计算计划1的预期效用是

E[plan1] = Prob[plan1 succeeds]*utility-for-success 
           + Prob[plan1 fails]*utility-of-failure
         = .01*.7 + .99*0 //I assume 0
         = .007

同样,对于其他两个计划。但是,由于您只能选择一个计划,因此采取行动A1的真实预期实用程序(我认为这是您的意思)

max(E[plan1],E[plan2],E[plan3]) = fitness(A1)

其他提示

我认为您所谈论的健身功能也必须将所有没有A1的计划视为第一个动作。它们可能非常好,在这种情况下,这样做A1是一个坏主意,或者在这种情况下,这样做A1的情况可能很糟糕。

看着您的想法,第二个对我来说更有意义。它计算出从A1开始的所有计划中随机选择计划的预期效用。这是假设计划可以实现给定效用或完全失败的假设。例如,第一个计划以0.7的概率获得实用程序= 0.01,并以0.3的概率获得效用= 0。这似乎是一个合理的假设。除非您有更多数据可以使用,否则您可以做到的。

因此,这是我的建议:让A1成为所有计划,从A1和〜A1开始,所有计划都不启动A1。然后

F(A1) = fitness(A1) / fitness(~A1)

在第二个示例中定义健身的位置。

这应该为您提供了从A1开始与没有的计划的预期实用程序的比率。如果大于一个,A1看起来像是一个好动作。

如果您对概率计划感兴趣,应该看看 POMDP模型 和算法类似于价值迭代。

编辑:

实际上,我应该指向你 马尔可夫决策过程 (没有PO)。对不起。

您可能应该为自己的问题做的是最大化预期的实用程序。称呼这个。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top