爱丽丝和鲍勃玩游戏。 鲍勃有一个良好的 $ m= 4999 $ 白色卡和 $ n= 4999 $ 绿色牌。甲板中的每张卡的每个允许都同样可能。爱丽丝为鲍勃设定了一些规则。

  • 每次鲍勃翻转一张白卡,他得到一个硬币,否则他会失去一个硬币。在任何时刻(即使在开始时),鲍勃就被允许停止玩游戏并保持他所拥有的硬币数量。
  • 在游戏过程中 - 扮演鲍勃可能是负面的硬币的平衡。

如果鲍勃最佳地播放,那么预期的硬币鲍勃将有什么?

可以给我一个想法或提示如何解决它。

有帮助吗?

解决方案

$ w(a,b)$ $ a $ 正卡的预期利润和 $ b $ 负卡。然后 $ w(0,0)= 0 $ $$ w(a,b)=max \ bigl(0,\ tfrac {a} {a + b}(w(a-1,b)+ 1)+ \ tfrac {b} {a + b}(w(w(a,b-1) - 1)\ bigr)。 $$ 实际上,如果我们立即停止游戏,利润为零。否则,具有概率 $ \ tfrac {a} {a + b} $ ,我们删除了一个正卡,并且概率 $ \ tfrac {b} {a + b} $ ,我们拔出一个负牌卡。

使用这种复发,很容易计算 $ w(4999,4999)$ 。在我的笔记本电脑上,花了不到一秒钟。

许可以下: CC-BY-SA归因
不隶属于 cs.stackexchange
scroll top