¿Cuáles son los usos de la recurrente de las redes neuronales cuando se utiliza con el Aprendizaje por Refuerzo?

https://stackoverflow.com/questions/1783389

21-09-2019
|

Pregunta

Yo sé que feedforward multi-capa de las redes neuronales con backprop se utilizan con el Aprendizaje por Refuerzo como para ayudar a generalizar las acciones de nuestro agente.Esto es, si tenemos un gran espacio de estado, podemos hacer algunas acciones, y ellos le ayudarán a generalizar sobre la totalidad del espacio de estado.

¿Qué redes neuronales recurrentes hacer, en lugar?A qué tareas se utilizan, en general?

Solución

Recurrente Redes Neuronales, RNN para corto (aunque ten en cuenta que RNN se utiliza a menudo en la literatura para designar Al Azar De Redes Neuronales, que efectivamente son un caso especial de la Recurrente NN), vienen en muy diferentes "sabores" que hace que se presentan diversas características y comportamientos.En general, sin embargo muchos de estos tonos de comportamientos y características son arraigada en la disponibilidad de [comentarios] de entrada a las neuronas individuales.Tal retroalimentación que proviene de otras partes de la red, ya sea local o distante, de la misma capa (incluyendo en algunos casos el "sí mismo"), o incluso en diferentes capas (*).La retroalimentación de la información es tratada como "normal" de entrada de la neurona y, a continuación, puede influir, al menos en parte, su salida.

A diferencia de de vuelta de propagación que se utiliza durante la fase de aprendizaje de un Feed-forward de la Red con el propósito de ajustar los pesos relativos de los distintos [Feedfoward-sólo] conexiones de Retroalimentación en RNNs constituyen la verdadera entrada a las neuronas que se conectan.

Uno de los usos de la retroalimentación es para hacer la red más resistente al ruido y otras imperfecciones en la entrada (es decir, de entrada a la red como un todo).La razón de esto es que, además de las entradas "directamente" perteneciente a la red de entrada (los tipos de entrada que habría estado presente en una Red Feedforward), las neuronas tienen la información acerca de lo que otras neuronas están "pensando".Esta información adicional, a continuación, conduce a El aprendizaje de hebb, es decir,la idea de que las neuronas que [generalmente] disparan juntas deben "alentar" a cada uno de los otros al fuego.En términos prácticos, este aporte extra de "como de fuego" vecino de neuronas (o no tan vecinos) puede solicitar una neurona a fuego pesar de su no-comentarios de las entradas de mayo han sido tales que no han despedido (o despedido con menos fuerza, dependiendo del tipo de red).

Un ejemplo de esta capacidad de resistencia a la entrada de las imperfecciones es con la memoria asociativa, un común emplear de RNNs.La idea es utilizar la retroalimentación info para "rellenar los espacios en blanco".

Otro relacionado pero distinto uso de la retroalimentación es con señales inhibitorias, en la cual una neurona determinada puede aprender que mientras que todos sus otros insumos llevarían a fuego, un particular comentarios de la entrada de alguna otra parte de la red suele indicativo de que de alguna manera las otras entradas no son de confianza (en este contexto en particular).

Otro muy importante el uso de la retroalimentación, es que en algunas arquitecturas en las que puede introducir un elemento temporal para el sistema.Un particular [comentarios] de entrada puede que no tanto instruir a la neurona de lo que "piensa" [ahora], pero en lugar de "recordar" la neurona que decir, dos ciclos de atrás (lo de los ciclos de representar), la red del estado (o de una de sus sub-estados) fue "X".Tal capacidad de "recordar" el [normalmente] pasado reciente es otro factor de resiliencia frente a ruido en la entrada, pero su principal interés en la introducción de la "predicción" en el proceso de aprendizaje.Estos retardo de entrada puede ser visto como predicciones de otras partes de la red:"He oído pasos en el pasillo, esperar a escuchar el timbre de la puerta [teclas o arrastrando los pies]".

(*) Por CIERTO, una amplia libertad en las "reglas" que dictan las conexiones permitidas, si la retroalimentación o "feed-forward", explica por qué hay tantas diferentes RNN arquitecturas y variaciones de los mismos).Otra razón por la que muchas de estas diferentes arquitecturas es que una de las características de la RNN es que ellos no están tan manejable, matemáticamente o de otro tipo, en comparación con el avance del modelo.Como resultado, impulsado por el matemático insight o en formato de prueba-y-error de enfoque, muchas posibilidades diferentes, están siendo juzgados.

Esto no quiere decir que la red de realimentación es el total de las cajas negras, de hecho algunos de los RNNs tales como la Las Redes De Hopfield son bastante bien conocidos.Es sólo que las matemáticas suele ser más complicado (al menos para mí ;-) )

Creo que el anterior, en general (también en general!), direcciones devorado elysium's (OP) preguntas de "¿qué RNN hacer en su lugar"y la "tareas generales que se utilizan para".Para muchos complementar esta información, aquí está incompleta y encuesta informal de aplicaciones de RNNs.Las dificultades en la recolección de dicha lista son múltiples:

la superposición de las aplicaciones entre Feed-forward Redes y RNNs (como resultado de esto se esconde la especificidad de RNNs)
a menudo altamente especializado de la naturaleza de las aplicaciones (o bien quedarse con demasiado borad conceptos como el de "clasificación" o nos sumergimos en la "Predicción de Carbono, los cambios en la serie de grasas saturadas bencenos" ;-) )
el bombo a menudo se asocia con las redes neuronales, cuando se la describe en los textos de vulgarización

De todos modos, aquí está la lista

modelado, en particular el aprendizaje de [oft' no-lineal] sistemas dinámicos
Clasificación (ahora, FF Net se utilizan también para que...)
Optimización combinatoria

También hay una gran cantidad de aplicaciones relacionadas con la dimensión temporal de la RNNs (otra área donde FF redes, normalmente no se encuentra)

Detección de movimiento
la predicción de carga (como con las utilidades o servicios:la predicción de la carga en el corto plazo)
el procesamiento de la señal :filtrado y control de

Otros consejos

Hay una suposición en el marco básico aprendizaje por refuerzo que su secuencia de estado / acción / recompensa es un Proceso de Decisión de Markov. Que básicamente significa que usted no necesita recordar ninguna información acerca de los estados anteriores de este episodio para tomar decisiones.

Pero esto obviamente no es cierto para todos los problemas. A veces sí es necesario recordar algunas cosas recientes para tomar decisiones informadas. A veces se puede construir de forma explícita las cosas que necesitan ser recordado en la señal de estado, pero en general nos gustaría nuestro sistema para aprender lo que se necesita recordar. Esto se denomina parcialmente observable Proceso de Decisión de Markov (POMDP), y hay una variedad de métodos utilizados para tratar con él. Una posible solución es utilizar una red neuronal recurrente, ya que incorporan detalles de pasos de tiempo anteriores a la toma de corriente.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow