QLearningの負の報酬

https://stackoverflow.com/questions/1844178

12-09-2019
|

質問

のは、我々は、エージェントがXXとYY軸に沿って移動することができます部屋にいると仮定しましょう。各時点で、彼は右と左、上下に移動することができます。だから、私たちの状態空間は（X、Y）で定義することができ、各ポイントでの私たちの行動は（上、下、右、左）で与えられます。私たちのエージェントは、彼は我々が彼に-1の負の報酬を与える、と彼は前にした状態で彼を戻って置く壁にぶつかるようになりますアクションを行う場所にいると仮定しましょう。彼は部屋の中央に人形を見つけた場合、彼は10の報酬を獲得します。

私たちは与えられた状態/行動ペアのための私達のQ値を更新すると、

、我々は行動が新しい状態で何ができるか見て、そこに到達することが可能となる最大のQ値が何であるかを計算するので、我々は我々のQ（Sを更新することができています私たちの現在の状態/アクションの、a）の値。これが意味することは、我々はポイント（10、10）にゴール状態を持っている場合は、彼らが遠くなるにつれて、その周辺のすべての状態が少し小さく、小さいQ値を持っているということです。今、壁との関係で、それは同じことが真実ではない私には思える。

エージェントは（のは、彼が位置（0、0にだと仮定します）とアクションUPをしました）壁に当たったときは、

、彼はこのように-1のQ値を取得し、その状態/アクションのために-1の報酬を受け取ることになります。

次に、後でI（1、0）状態で午前、およびアクションLEFT（1、0）のQ値を計算する際に（0,0 0）は、ゼロである状態の他のすべてのアクションを想定した場合、それはそれを次のように計算します。

Q([0,1], LEFT) = 0 + gamma * (max { 0, 0, 0, -1 } ) = 0 + 0 = 0

これは、正の報酬の状態を持っているときに何が起こるかに反し近くの状態に反映されません壁にヒットした、である。

私の光では、これは奇妙に思えます。最初に私は、負の報酬を与える状態/アクションのペアを見つけることが正の報酬として良いlearningwiseことだろうと思ったが、私は上記の示された例から、そのステートメントが成立していないようです。考慮にはるかに負のものより正の報酬を取るためのアルゴリズムの偏りがあるようです。

これはQLearningの期待される動作ですか？悪い報酬はポジティブなものと同様に重要であってはなりませんか？このため、「回避策」を教えてください。

解決

あなたは-1から0まで10から11まで、0から1までのデフォルトの報酬を増やすことで、目標の報酬を負の賞を回避し、ペナルティができます。

がありQ学習の科学出版物のトンがあるので、私は否定的なフィードバックを可能にする他の製剤があると確信しています。

編集：私は修正立って、私が先に述べたように、これは、動作を変更しません。私の思考プロセスは、負のフィードバックを持つ製剤はなく、1つに置き換えることができるということであった。

あなたの観察のための理由は、したがって、あなたのエージェントは、常にそれがすべてにわたって最適な報酬（したがって、最大Q値を有していると考えているアクションを選択することができ、あなたがあなたの行動やそれが中にある状態の結果に不確実性を持っていないということです今後の行動）。これはあなたの負のフィードバックが反映されません理由です。エージェントは単に将来的にその行動を避けることができます。

しかし、あなたのモデルは、（例えば、ランダム方向に移動し、10％の確率が常にある）あなたの行動を超える結果の不確実性が含まれる場合は、

、あなたの学習ルールは基本的に最大の交換（すべての可能な将来の報酬を超える統合する必要があります）加重和によって。その場合には負のフィードバックは、（：P私はそれが可能であるべきと思った理由です）あまりにも伝播することができます。このようなモデルの例は、 POMDPsするます。

他のヒント

それは特定の移動からのみ可能な結果である場合、

負帰還のみ伝播する。

これは私にはわからない意図的または非意図的であるかどうか。

あなたの質問は、「強化学習：はじめに」の本の中で答えている、「最大化バイアスとダブル学習」

のセクションがあります。

「Q-Learing」アルゴリズムは、推定値に対する最大値は有意な正のバイアスをもたらすことができる最大値の推定値として暗黙的に使用されるという欠点を有している。

「ダブルQラーニング」アルゴリズムは、最大化バイアスを避けるために、あなたはQ_1（a）とQ_2（A）と呼ばれる2つの独立した推定値を、学ぶ必要がある、あなたの疑問を解決することができます。ここで私はあなたのための擬似コードを貼り付けます。ダブルQ-学習する

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow