一時的な違いのルールを更新します
質問
更新ルールTD(0)Qラーニング:
Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max( Q(t) ) )
次に、現在の最高のアクション(最適化するため)またはランダムアクション(探検家に)のいずれかを取ります
ここで、maxnextqは次の状態で得られる最大qです...
しかし、TD(1)では、更新ルールは次のとおりです。
Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max( Q(t) ) )
私の質問:
用語 gamma * Reward(t-1)
私はいつも私の最善の行動を取ることを意味します t-1
..私はこれが探索を防ぐと思う。
誰かが私にヒントを与えることができますか?
ありがとう
解決
あなたは「適格性トレース」の使用について話しているのですか?を参照してください 方程式とアルゴリズム.
に注意してください E_T(S、A) そこに方程式。探索ステップを使用する場合、ペナルティは適用されません。
所属していません StackOverflow