Bestärkendes Lernen mit neuronalen Netzen

https://stackoverflow.com/questions/2749498

02-10-2019
|

Frage

Ich arbeite an einem Projekt mit RL & NN
Ich brauche die Aktion Vektor-Struktur zu bestimmen, die zu einem neuronalen Netz zugeführt werden ..

Ich habe 3 verschiedene Aktionen (A & B & Nothing), die jeweils mit unterschiedlichen Leistungen (zum Beispiel A100 A50 B100 B50) Ich frage mich, was der beste Weg ist, diese Maßnahmen zu einer NN zuzuführen, um beste Ergebnisse zu erzielen?

1- Vorschub A / B an dem Eingang 1, während Aktionsleistung 100/50 / Nothing auf Eingang 2

2- Vorschub A100 / A50 / Nothing Eingang 1, während B100 / B50 / Nothing zum Eingang 2

3- Vorschub A100 / A50 zur Eingabe von 1, während B100 / B50 an dem Eingang 2, während nichts Flag auf Eingang 3

4- Auch einzuspeisen 100 & 50 oder in 2 & 1 normalisieren?

Ich brauche Gründe, warum ein Verfahren zur Auswahl Alle Vorschläge werden empfohlen

Danke

Lösung

Was wollen Sie wissen? Was sollte die Ausgabe sein? Ist der Eingang nur die verwendete Aktion? Wenn Sie ein Modell der Umwelt lernen, sie durch eine Wahrscheinlichkeitsverteilung ausgedrückt wird:

P (next_state | Zustand, Aktion)

Es ist üblich, ein separates Modell für jede Aktion zu verwenden. Das macht die Zuordnung zwischen Eingang und Ausgang einfacher. Die Eingabe ist ein Vektor von Zustandsfunktionen. Der Ausgang ist ein Vektor, der die Merkmale des nächsten Zustandes. Die verwendete Aktion wird durch das Modell impliziert werden.

Die Zustands Merkmale könnten als Bits codiert werden. Ein aktives Bit würde das Vorhandensein eines Merkmals an.

Dies würde ein deterministisches Modell lernen. Ich weiß nicht, was ein guter Weg, um eine stochastische Modell der nächsten Zustände zu lernen. Eine Möglichkeit kann sein, stochastische Neuronen zu verwenden.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow