質問

我々は、ロボットが移動することができます(x、y)の平面を持って想像してみましょう。今、私たちは、それがその状態に達すると、当社のロボットに100の報酬を与えるしようとしていることを意味し、ゴール状態として、私たちの世界の真ん中を定義します。

さて、目標状態につながることができます(私はA、B、C、Dを呼びます)4つの状態があることを言わせます。

私たちはAであり、目標状態に行く最初の時間は、私たちは次のように私たちのQValuesテーブルを更新します

Q(state = A, action = going to goal state) = 100 + 0

2点の一つが起こる可能性があります。私はここでのエピソードを終了し、ロボットが再びゴール状態を見つけるために持っている別のものを開始するか、私は目標状態を発見した後も、世界を探検し続けることができます。私はこれをしようとした場合、私はしかし、問題を参照してください。

:私は目標状態で午前とバック状態Aに行く場合は、Q値は以下のことになるのです
Q(state = goalState, action = going to A) = 0 + gamma * 100

さて、私はAから目標状態へ再び移動しようとします。

Q(state = A, action = going to goal state) = 100 + gamma * (gamma * 100)

0 <=ガンマ<= 0、両方qValuesは永遠に上昇しようとしているように私が続ける場合は、これを行うことを意味します。

これはQLearningの期待される動作ですか?私が何か間違ったことをやっていますか?これは予想される動作である場合、これは問題につながることができませんか?私は確率的に、すべての4つの状態(A、B、CおよびD)は、同じ速度で成長することを知っているが、それでもそれちょっとバグので、私は永遠に成長して、それらを持っています。

エージェントが目標を見つけること、彼はゴール状態からで近いが、より多くの可能性が高いことが、現時点で更新することができた状態であることにあることに関係していた後も模索し続けることを可能にするideia。

役に立ちましたか?

解決

これはQの推定が期待されるの報酬の、それは報酬の(おそらくガンマ経由で割り引いた)量であると予想のリターンの、だではないので、予想通りであります私はそこに開始し、エピソードや永遠の終わりまで、私のポリシーに従った場合、私はその状態/アクションから享受を期待したいです。

あなたは私にいくつかのボタンを与えた場合、それらのいずれかのボタンが常に押されたときに、そのボタンを押すための真の期待報酬は$ 1 $ 1作り出します。しかし、ボタンを押すための真の期待リターンは、私はボタンをプッシュするチャンスの無限の数を取得すると仮定すると、無限ドルです。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top