質問

更新ルールTD(0)Qラーニング:

Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max( Q(t) ) )
次に、現在の最高のアクション(最適化するため)またはランダムアクション(探検家に)のいずれかを取ります

ここで、maxnextqは次の状態で得られる最大qです...


しかし、TD(1)では、更新ルールは次のとおりです。

Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max( Q(t) ) )

私の質問:
用語 gamma * Reward(t-1) 私はいつも私の最善の行動を取ることを意味します t-1 ..私はこれが探索を防ぐと思う。
誰かが私にヒントを与えることができますか?

ありがとう

役に立ちましたか?

解決

あなたは「適格性トレース」の使用について話しているのですか?を参照してください 方程式とアルゴリズム.

に注意してください E_T(S、A) そこに方程式。探索ステップを使用する場合、ペナルティは適用されません。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top