-
29-09-2020 - |
题
爱丽丝和鲍勃玩游戏。 鲍勃有一个良好的 $ m= 4999 $ 白色卡和 $ n= 4999 $ 绿色牌。甲板中的每张卡的每个允许都同样可能。爱丽丝为鲍勃设定了一些规则。
- 每次鲍勃翻转一张白卡,他得到一个硬币,否则他会失去一个硬币。在任何时刻(即使在开始时),鲍勃就被允许停止玩游戏并保持他所拥有的硬币数量。
- 在游戏过程中 - 扮演鲍勃可能是负面的硬币的平衡。
如果鲍勃最佳地播放,那么预期的硬币鲍勃将有什么?
可以给我一个想法或提示如何解决它。
解决方案
让 $ w(a,b)$ 是 $ a $ 正卡的预期利润和 $ b $ 负卡。然后 $ w(0,0)= 0 $ 和 $$ w(a,b)=max \ bigl(0,\ tfrac {a} {a + b}(w(a-1,b)+ 1)+ \ tfrac {b} {a + b}(w(w(a,b-1) - 1)\ bigr)。 $$ 实际上,如果我们立即停止游戏,利润为零。否则,具有概率 $ \ tfrac {a} {a + b} $ ,我们删除了一个正卡,并且概率 $ \ tfrac {b} {a + b} $ ,我们拔出一个负牌卡。
使用这种复发,很容易计算 $ w(4999,4999)$ 。在我的笔记本电脑上,花了不到一秒钟。
不隶属于 cs.stackexchange