マルコフ決定過程の質問【休館日】

https://stackoverflow.com/questions/2148345

23-09-2019
|

質問

altテキストhttp://img693.imageshack.us/img693/724/markov.png

いてはちょっとした混乱の一部についてポイントはこちら

こうすることに成功70%の時間はそうと、定義されているアクション?これは毎回そうとして、アクションを実行するで、70%の時間とアクションおよびその他の30%につながる行動を引き起こすときと同じ状態で、かばんはいつもったアクションに、30%のではないのですか？私は私が自分のクリア(
どのようにすることは可能で複数の連続状態と同じです。理論的には、明なも減るので遠くから国です。
知の情報行いました、ができるのかを推測の割引率(ガンマ)?ある場合、いかがですか？
で計算することが可能で報酬を述べた。いかがですか？

解決

いうパターンをほとんどを取り扱MDPの問題だと思うんだゲームとしては初めての省略に関する情報は、問題の記述、ものづくりを持っている状態をいに位置するビーチに近いこのはのエピソード（その場合の端にグリッド）.もちろん、私の質問にお答えし、私は別のプライマーを使ってい対応という課題が示されています。

まずユーティリティーはかなり抽象度がどれくらいいられた。レコード店ディスクユニオンの立て両国と同等の明る場合でも、測定用プヒューリスティックス(ユークリッドまたはマンハッタン距離).この場合、その利用価値および報酬は互換性があります。

長期的に目的にこれらの問題が、 いま最も期待される（長期）す。 の学習率、ガンマ、どのくらい強い場所の現状に対しが終わ効果のようなものと考えることができるガンマとスペクトルから, 'いものにでもっともにこのtimestep' のその他の極限 'を探る全てのオプションに戻ると、以下のようになってい最高の一'.サットンとBartoが書強化学習あん説明この作品。

する前に、帰の問題に確認しておき以下の問題に答えよ。

何ですか。どのように多くの国があるのでしょうか。
何かアクション?どのように多くの行動が要因であると認識しています。
い状態u、適用アクションでは、どういう確率がに達した状態でv?

も甘党のマチゲリータです。

状態であるベクトル(x,y).グリッドには5 5、25です。
ができるアクション,{E、N、S、W}
の確率で成功を達成で隣接する状態で適用後の適切な行動は0.7での確率で可動しません（ご宿泊の場合と同じ状態では0.3です。仮に(0,0)は左上のセル(4,4)が、右下にある細胞を調節することをお勧めします。小型のサブセットを作ることができ推移です。

Start State Action           Final State    Probability
---------------------------------------------------
(0,0)           E               (0,0)          0.3
(0,0)           E               (1,0)          0.7
(0,0)           E               (2,0)          0
...
(0,0)           E               (0,1)          0
... 
(0,0)           E               (4,4)          0
(0,0)           N               (0,0)          0.3
...
(4,4)           W               (3,4)          0.7
(4,4)           W               (4,4)          0.3

してきていることを確認すというのですが。

チェックのテーブルについては適切な数の作品の応募がありました。5 5グリッドがあり25カ国4組のテーブルすべき100作品の応募がありました。
よって実行されていることを確認するために、始状態/動ペアのみつけてゼロでない確率の庭.

編集できるようになります。は、要求の応答の遷移確率へ対象の状態です。の表記は以下を想定し

vの最終状態
uでは、ソースの状態
を行いない上、決定することが示唆される行動を用いる。

P( v=(3,3) | u =(2,3), a=E ) = 0.7
P( v=(3,3) | u =(4,3), a=W ) = 0.7
P( v=(3,3) | u =(3,2), a=N ) = 0.7
P( v=(3,3) | u =(3,4), a=S ) = 0.7
P( v=(3,3) | u =(3,3) ) = 0.3

他のヒント

ad.1）のおそらくのそれはロボットが移動するために常に持っているということではありません - すなわち、それらの30％が「ああ、今私は少し休む」しているか「すべてで移動する何の力がなかったです」ます。

私は有限ホライズンマルコフ決定過程として、この問題を定式化し、ポリシーイテレーションを経て、それを解決してきました。各反復の右側に、各状態の推奨アクションの色分けされたグリッド表現並びに元報酬グリッド/行列がある。

レビューステージ4.んで、最終的な政策/戦略は、それはあなたの直感に同意しますか？

ここに画像の説明を入力します

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow