Rinforzo di apprendimento e POMDP

https://stackoverflow.com/questions/2750608

02-10-2019
|

Domanda

Sto cercando di utilizzare più strati NN per implementare la funzione di probabilità in Parzialmente osservabile processo di Markov ..
ho pensato ingressi al NN sarebbero: stato attuale, azione selezionata, stato di conseguenza; L'uscita è una probabilità di [0,1] (prob. Che l'esecuzione di un'azione selezionata sullo stato attuale porterà ai risultati stato)
In allenamento, Ho alimentato gli ingressi affermato prima, nel NN, e ho insegnato che l'output = 1.0 per ciascun caso già avvenuto.

Il problema:
Per quasi tutti i casi di test la probabilità di uscita è vicina 0,95 .. no uscita era sotto 0.9! Anche per i risultati quasi impossibili, ha dato così alto prob.

PS: Penso che questo sia perché ho insegnato è successo solo casi, ma non quelli non-successo .. Ma non posso in ogni fase del insegnare episodio è l'uscita = 0,0 per ogni azione non-successo!

Qualche suggerimento su come venire su questo problema? O può essere un altro modo per usare NN o per implementare la funzione prob?

Grazie

Soluzione

Il problema è che la somma su tutti i possibili stati seguenti deve essere uguale 1. Se si costruisce la rete del genere, che non è garantito. Due possibili alternative vengono in mente, dove suppongo stati discreti.

Quando si effettua una previsione, eseguire la rete per ogni possibile stato seguito. In seguito, normalizzare dividendo attraverso la somma di tutte le probabilità.
Usa un output per possibile stato seguito. È quindi possibile utilizzare uno strato softmax (come nella classificazione) e interpretare i valori che poi vanno da 0 a 1 e riassumere a 1 come probabilità.

Questi due sono in realtà meno equivalente dal punto di vista matematico.

Nel caso di variabili continue, si dovrà assumere distribuzioni (ad esempio un multivariata gaussiana) e usare i parametri di tale distribuzione (ad esempio media e covarianza DEV.ST.) come uscite.

Altri suggerimenti

Quando si monta il NN si potrebbe desiderare di adattarsi a una più ampia gamma di dati, nella formazione è lì tutti i dati che si desidera ottenere montato ad una probabilità più vicino a 0? Se non c'è ho il sospetto che si potrebbe ottenere scarsi risultati. Come primo passo che mi piacerebbe provare la scelta di alcune cose diverse nel set di dati di training.

Anche come stai allenando NN? Hai provato a usare altri metodi? Che ne dite di funzioni di attivazione, forse sperimentare con l'utilizzo di alcuni tra quelli diversi.

Con le reti neurali Credo che alcuni tentativi ed errori al momento di scegliere il modello sta per dare una mano. (Scusate se tutto questo non è abbastanza specifico.)

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow