Quali sono gli usi di reti neurali ricorrenti quando li utilizzano con Reinforcement Learning?

https://stackoverflow.com/questions/1783389

21-09-2019
|

Domanda

So che le reti neurali multistrato feedforward con backprop vengono utilizzati con Reinforcement Learning da contribuire a generalizzare le azioni nostro agente fa. Questo è, se abbiamo un grande spazio di stato, possiamo fare alcune azioni, e che vi aiuterà generalizzare su tutto lo spazio dello stato.

Cosa reti neurali ricorrenti fanno, invece? Per quali compiti sono hanno usato per, in generale?

Soluzione

ricorrenti Reti Neurali, RNN in breve (ma attenzione che RNN è spesso usato in letteratura per designare casuali Reti Neurali , che sono effettivamente un caso speciale di ricorrenti NN ), sono disponibili in molto diversi "sapori", che li induce ad esporre vari comportamenti e le caratteristiche. In generale, tuttavia queste molte sfumature di comportamenti e caratteristiche sono radicata nella disponibilità di [valutazioni] input per i singoli neuroni . Questo feedback proviene da altre parti della rete, sia esso locale o distante, dal medesimo strato (compresi talvolta "self"), o anche su diversi strati (*). Informazioni di ritorno è trattato come "normale" input del neurone e può quindi influenzare, almeno in parte, la sua uscita.

A differenza di Indietro propagazione che viene utilizzato durante la fase di apprendimento di una rete feed-forward con lo scopo di mettere a punto i pesi relativi dei vari [Feedfoward-only ] connessioni, feedback in RNR costituiscono vero un ingresso ai neuroni che si connettono al.

Uno degli usi di risposte sono per rendere la rete più resistente al rumore e altre imperfezioni nell'input (cioè ingresso alla rete nel suo complesso). La ragione di questo è che, oltre agli ingressi "direttamente" di pertinenza l'ingresso di rete (i tipi di input che sarebbe stato presente in una rete Feedforward), i neuroni avere le informazioni su ciò che altri neuroni stanno "pensando". Questa informazione in più poi porta a Hebbian apprendimento , vale a dire l'idea che i neuroni che [normalmente] fuoco insieme dovrebbe "incoraggiare" l'un l'altro per sparare. In termini pratici questo ingresso in più da neuroni vicini "come-firing" (o no-così vicini) possono indurre un neurone a fuoco anche se i suoi ingressi non-feedback possono essere stati tali che non sarebbe sparato (o licenziato meno fortemente, a seconda del tipo di rete).

Un esempio di questo resilienza alle imperfezioni ingresso è con memoria associativa , un impiego comune RNR. L'idea è quella di utilizzare le informazioni feeback per "riempire gli spazi vuoti-in".

Un altro uso analoga ma distinta di risposte sono con segnali inibitori , per cui un dato neurone può apprendere che, mentre tutti gli altri ingressi potrebbero indurla a fuoco, un particolare ingresso feedback da qualche altra parte rete tipicamente indicativa che in qualche modo gli altri ingressi non devono essere attendibile (in questo particolare contesto).

Un altro uso estremamente importante del feedback, è che in alcune architetture può introdurre un elemento temporale al sistema . Un ingresso particolare [valutazioni] potrebbe non tanto istruire il neurone di ciò che "pensa" [oggi], ma invece "ricordare" il neurone che dicono, due cicli fa (qualunque cicli possono rappresentare), lo stato della rete (o uno dei i suoi un sub-stati) è stato "X". Tale capacità di "ricordare" il [in genere] recente passato è un altro fattore di resilienza al rumore in ingresso, ma il suo interesse principale potrebbe essere l'introduzione di "previsione" nel processo di apprendimento. Questi ingresso ritardata può essere visto come le previsioni provenienti da altre parti della rete: "Ho dei passi nel corridoio sentito, si aspettano di sentire il campanello della porta [oi tasti rimescolamento]".

(*) BTW quali un'ampia libertà nelle "regole" che dettano i collegamenti abilitati, se il feedback o feedforward, spiega perché ci sono tanti architetture differenti RNN e loro varianti). Un altro motivo per questi differenti architetture è che una delle caratteristiche di RNN è che essi non sono facilmente trattabili come, matematicamente o altrimenti, rispetto al modello feed-forward. Di conseguenza, guidato da una visione matematica o semplice approccio per tentativi ed errori, molte possibilità differenti sono sotto processo.

Questo non vuol dire che la rete di retroazione sono totAl scatole nere, infatti alcuni dei RNR come il Reti di Hopfield sono piuttosto ben capito. E 'solo che la matematica è in genere più complicata (almeno per me ;-))

Credo che quanto sopra, in generale (anche in generale!), Gli indirizzi Elysium divorato s '(PO) questioni di " cosa fare RNN fare, invece ", ed il " compiti generali sono utilizzati per ". A molti complemento queste informazioni, ecco un sondaggio incompleta ed informale di applicazioni di RNR. Le difficoltà di raccolta di un tale elenco sono molteplici:

la sovrapposizione di applicazioni tra reti e RNR feed-forward (di conseguenza questo si nasconde la specificità del RNR)
la natura spesso altamente specializzata di applicazioni (che sia rimanere in concetti troppo borad come la "classificazione" o ci tuffiamo in "Pronostico turni di carbonio in serie di benzeni saturi" ;-))
l'hype spesso associato con le reti neurali, quando descritto nei testi volgarizzazione

In ogni caso, ecco l'elenco

la modellazione, in particolare l'apprendimento di [oft' non-lineare] sistemi dinamici
Classificazione (ora, FF Net sono utilizzati anche per quello ...)
ottimizzazione combinatoria

Inoltre ci sono un sacco di applicazioni associate con la dimensione temporale dei RNR (un altro settore in cui non sarebbero in genere si trovano reti FF)

Proposta di rilevazione
la previsione del carico (come con programmi di utilità o servizi: predire il carico a breve termine)
elaborazione del segnale: filtraggio e di controllo

Altri suggerimenti

C'è un presupposto nel quadro di base Reinforcement Learning che la sequenza di stati / azione / ricompensa è una decisione processo di Markov. Ciò significa in pratica che non c'è bisogno di ricordare tutte le informazioni sugli stati precedenti da questo episodio per prendere decisioni.

Ma questo ovviamente non è vero per tutti i problemi. A volte si ha bisogno di ricordare alcune cose recenti di prendere decisioni informate. A volte si può costruire in modo esplicito le cose che hanno bisogno di essere ricordato nel segnale di stato, ma in generale ci piacerebbe il nostro sistema per imparare che cosa ha bisogno di ricordare. Questo è chiamato un parzialmente osservabile decisione processo di Markov (POMDP), e ci sono una varietà di metodi utilizzati per trattare con esso. Uno possibilmente soluzione è quella di utilizzare una rete neurale ricorrente, dal momento che incorporano dettagli da tempo passi precedenti nella decisione corrente.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow