apprendimento per rinforzo con le reti neurali

https://stackoverflow.com/questions/2749498

02-10-2019
|

Domanda

Sto lavorando su un progetto con RL e NN
devo determinare la struttura azione vettore che sarà alimentata ad una rete neurale ..

Ho 3 azioni differenti (A & B & Niente) ognuno con diverse potenze (ad es A100 A50 B50 B100) Mi chiedo qual è il modo migliore per alimentare queste azioni ad un NN al fine di produrre i migliori risultati?

1- alimentazione A / B all'ingresso 1, mentre la potenza azione 100/50 / Nulla all'ingresso 2

2- mangimi A100 / A50 / Nulla all'ingresso 1, mentre B100 / B50 / Nulla all'ingresso 2

3- mangimi A100 / A50 all'ingresso 1, mentre B100 / B50 all'ingresso 2, mentre nulla bandiera all'ingresso 3

4- anche per alimentare 100 & 50 o normalizzare a 2 e 1?

Ho bisogno motivi per scegliere un metodo sono raccomandati Eventuali suggerimenti

Grazie

Soluzione

Che cosa vuoi imparare? Quale dovrebbe essere l'uscita? È l'ingresso solo l'azione usato? Se si sta imparando un modello dell'ambiente, è espressa da una distribuzione di probabilità:

P (next_state | Stato, azioni)

E 'comune l'uso di un modello separato per ogni azione. Questo rende la mappatura tra ingresso e uscita più semplice. L'ingresso è un vettore di caratteristiche di stato. L'uscita è un vettore di caratteristiche dello stato successivo. L'azione è implicita utilizzato dal modello.

Le caratteristiche di stato potrebbe essere codificato come bit. Un po 'attiva indicherebbe la presenza di una caratteristica.

Questo sarebbe imparare un modello deterministico. Non so che cosa è un buon modo per imparare un modello stocastico dei prossimi Stati. Una possibilità potrebbe essere quella di utilizzare i neuroni stocastici.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow