一時的な違いのルールを更新します

質問

更新ルールTD（0）Qラーニング：

Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max( Q(t) ) )
次に、現在の最高のアクション（最適化するため）またはランダムアクション（探検家に）のいずれかを取ります

ここで、maxnextqは次の状態で得られる最大qです...

しかし、TD（1）では、更新ルールは次のとおりです。

Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max( Q(t) ) )

私の質問：
用語 gamma * Reward(t-1) 私はいつも私の最善の行動を取ることを意味します t-1 ..私はこれが探索を防ぐと思う。
誰かが私にヒントを与えることができますか？

ありがとう

解決

あなたは「適格性トレース」の使用について話しているのですか？を参照してください方程式とアルゴリズム.

に注意してください E_T（S、A） そこに方程式。探索ステップを使用する場合、ペナルティは適用されません。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow