Frage

Das Update Regel TD (0) Q-Learning:

Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max( Q(t) ) )
Dann nehmen Sie entweder die aktuelle beste Aktion (zur Optimierung) oder eine zufällige Aktion (zum Explorer)

Wo MaxNextQ ist die maximale Q, die in den nächsten Zustand bekommen werden kann ...


Aber in TD (1) Ich denke, Fortschreibungsregel wird:

Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max( Q(t) ) )

Meine Frage:
Der Begriff gamma * Reward(t-1) bedeutet, dass ich immer meine beste Aktion bei t-1 nehmen .. was meiner Meinung nach zu erkunden verhindert ..
Kann mir jemand einen Tipp geben?

Danke

War es hilfreich?

Lösung

Sie sprechen von „Berechtigungsspuren“ usage, nicht wahr? Sehen Sie sich die Gleichungen und den Algorithmus .

Beachten Sie die e_t (s, a) Gleichung gibt. Keine Gebühren wird angewendet, wenn ein Explorationsschritt verwendet wird.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top