QLearning und nie endenden Episoden

https://stackoverflow.com/questions/1836731

11-09-2019
|

Frage

Lassen Sie uns vorstellen, dass wir ein (x,y) - Ebene, wo sich ein Roboter bewegen kann.Nun definieren wir die Mitte unserer Welt als die Ziel-Zustand, was bedeutet, dass wir geben eine Belohnung von 100 bis unsere Roboter, sobald Sie diesen Zustand erreicht.

Nun, lassen Sie uns sagen, dass es 4 Zustände(die ich als A,B,C,D) kann dazu führen, dass der Ziel-Zustand.

Das erste mal sind wir in Ein und gehen Sie zu der Ziel-Zustand, werden wir aktualisieren unsere QValues Tabelle wie folgenden:

Q(state = A, action = going to goal state) = 100 + 0

Eines der 2 Dinge, die passieren können.Ich kann am Ende der episode hier und beginnen, eine andere, wo der Roboter hat, wieder zu finden die Ziel-Zustand, oder ich kann mich weiter um die Welt, sogar nach und nach fand ich die Ziel-Zustand.Wenn ich versuche, dies zu tun, sehe ich ein problem, obwohl.Wenn ich bin in der Ziel-Zustand und gehen wieder auf den Stand Ein, es ist Qvalue ist der folgende:

Q(state = goalState, action = going to A) = 0 + gamma * 100

Jetzt, wenn ich versuche, wieder zu gehen, um das Ziel-Zustand aus:

Q(state = A, action = going to goal state) = 100 + gamma * (gamma * 100)

Das bedeutet, dass, wenn ich halten Sie tun dies,, 0 <= gamma <= 0, beide qValues steigen für immer.

Ist dies das erwartete Verhalten von QLearning?Mache ich etwas falsch?Ist dies das erwartete Verhalten ist, kann das nicht zu Problemen führen?Ich weiß, dass probabilistisch, alle 4 Zustände(A,B,C und D), wird wachsen mit der gleichen rate, aber auch so ein bisschen nervt mich mit Ihnen wächst immer.

Die Idee, dass der agent weiterhin die Erkundung selbst zu finden, nachdem das Ziel hat zu tun mit, dass der näher er ist von der Ziel-Zustand, der wahrscheinlicher ist als in Staaten, die aktualisiert werden können, zumindest im moment.

Lösung

Dies ist wie erwartet, da der Q-Schätzung nicht die erwartete Belohnung, es ist die erwartete zurück, die ist die (möglicherweise discounted über gamma) Höhe der Belohnung, die ich erwarten würde, um in den Genuss von diesem Zustand/Aktion, wenn ich fing es auf und folgte meiner Politik bis zum Ende der episode, oder für immer.

Wenn Sie geben Sie mir einige Tasten, und eine dieser Tasten immer produziert von $1, wenn Sie gedrückt werden, dann stimmt die erwartete Belohnung für das drücken dieser Taste ist $1.Aber der wahre erwartete Rendite für das drücken der Taste ist Unendlichkeit-Dollar, vorausgesetzt ich bekomme unendliche Anzahl von Chancen, einen Knopf zu drücken.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow