Verstärkung Lernen und POMDP

https://stackoverflow.com/questions/2750608

02-10-2019
|

Frage

Ich versuche, Multi-Layer-NN verwenden Wahrscheinlichkeitsfunktion in Teil beobachtbaren Markov-Prozess zu implementieren ..
Ich dachte, Eingaben an die NN wären: aktuelle Zustand, ausgewählte Aktion, Ergebnis Zustand; Die Ausgabe ist eine Wahrscheinlichkeit in [0,1] (prob., Dass auf dem gegenwärtigen Zustand ausgewählte Aktion durchführt führt Zustand zu führen)
Im Training fütterte ich die Eingänge bereits erwähnt, in den NN, und ich unterrichtete er den Ausgang = 1,0 für jeden Fall, dass bereits eingetreten ist.

Das Problem:
Bei fast allen Testfall ist die Ausgangswahrscheinlichkeit in der Nähe von 0,95 .. keine Ausgabe unter 0,9 war! Auch für fast unmöglich, Ergebnisse, gab es, dass eine hohe prob.

PS: Ich denke, das ist, weil ich lehrte es Fälle geschah nur, aber nicht un-geschah diejenigen .. Aber ich kann nicht bei jedem Schritt in der Folge lehrt es die Ausgabe = 0,0 für jede un-geschah Aktion!

Haben Sie Vorschläge, wie man über dieses Problem kommen? Oder kann eine andere Art und Weise seines NN zu verwenden oder prob-Funktion zu implementieren?

Danke

Lösung

Das Problem ist, dass die Summe über alle möglichen folgenden Zustände 1. zu entsprechen hat Wenn Sie Ihr Netzwerk so konstruieren, die nicht garantiert ist. Zwei mögliche Alternativen kommen mir in den Sinn, wo ich diskrete Zustände annehmen.

Wenn eine Vorhersage zu machen, führen Sie das Netzwerk für jeden möglichen folgenden Zustand. Danach normalisieren, indem sie durch die Summe aller Wahrscheinlichkeiten dividiert wird.
Verwenden Sie eine Ausgabe pro möglichem folgenden Zustand. Sie können dann eine softmax Schicht (wie in Klassifizierung) verwenden und die Werte interpretieren, die dann von 0 bis 1 reichen und die Summe bis zu 1 als Wahrscheinlichkeiten.

Diese beiden tatsächlich etwa gleich aus mathematischer Sicht.

Im Falle der kontinuierlichen Variablen, werden Sie Verteilungen annehmen müssen (beispielsweise eine multivariate Gaussian) und verwenden Sie die Parameter dieser Verteilung (z Mittelwert und die Kovarianz STABW) als Ausgänge.

Andere Tipps

Wenn die NN passend möchten Sie vielleicht ein breiteres Spektrum an Daten passen, in der Ausbildung gibt es keine Daten, die Sie auf eine näher an 0 Wahrscheinlichkeit ausgestattet werden wollen? Wenn es nicht, dass ich den Verdacht, dass Sie schlechte Ergebnisse erhalten könnten. In einem ersten Schritt würde ich versuchen, einige anderen Dinge in dem Trainingsdatensatz zu wählen.

Auch wie trainieren Sie die NN? Haben Sie mit anderen Methoden ausprobiert? Wie wäre es Aktivierungsfunktionen, vielleicht experimentieren mit mit einigen verschiedenen.

Mit neuronalen Netzen ich einige Versuch und Irrtum denken bei der Wahl des Modells, um helfen wird. (Sorry, wenn dies alles nicht spezifisch genug ist.)

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow