Вопрос

Алиса и Боб играют в игру. У Боба есть хорошо смятная колода $ m= 4999 $ Белые карты и $ n= 4999 $ greenоткрытки.Каждая перестановка карт в колоде одинаково вероятно.Алиса установила некоторые правила для Боба.

    .
  • каждый раз, когда Боб переворачивает белую карточку, он получает одну монету, иначе он теряет одну монету.В любой момент (даже в начале) Боб разрешается перестать играть в игру и сохранить количество монет, которые у него есть.
  • во время игры - воспроизвести баланс монет, которые Боб может быть отрицательным.

Если Боб играет оптимально, какое ожидаемое количество монет Bob будет?

Может ли любое тело дать мне идею или намек, как это решить.

Это было полезно?

Решение

Пусть $ w (a, b) $ Будьте ожидаемой прибылью с $ a $ положительные картыи $ B $ Отрицательные карты.Затем $ W (0,0)= 0 $ и $$ w (a, b)=max \ bigl (0, \ tfrac {a} {a + b} (w (a-1, b) + 1) + \ tfrac {b} {a + b} (wA, B-1) - 1) \ bigr). $$ Действительно, если мы немедленно остановим игру, прибыль равен нулю.В противном случае, с вероятностью $ \ tfrac {a} {a + b} $ , мы вытащим положительную карту, и с вероятностью $ \ tfrac {b} {a + b} $ , мы вытащим отрицательную карту.

Использование этого рецидива, легко вычислять $ W (4999 4999) $ .На моем ноутбуке потребовалось менее секунды.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с cs.stackexchange
scroll top