aprendizaje por refuerzo con redes neuronales

https://stackoverflow.com/questions/2749498

02-10-2019
|

Pregunta

Estoy trabajando en un proyecto con RL & nn
I necesidad de determinar la estructura de acción vector que se alimenta a una red neuronal ..

Tengo 3 acciones diferentes (A y B y Nada) cada uno con diferentes poderes (por ejemplo A100 A50 B100 B50) Me pregunto cuál es la mejor manera de alimentar a estas acciones a un NN con el fin de obtener mejores resultados?

1- alimentación A / B a la entrada 1, mientras que el poder de acción de 100/50 / Nada a la entrada 2

2- alimentación A100 / A50 / Nada a la entrada 1, mientras que B100 / B50 / Nada a la entrada 2

3- alimentación A100 / A50 a la entrada 1, mientras que B100 / B50 a la entrada 2, mientras que la bandera Nada a la entrada 3

4- También para alimentar a 100 y 50 o los normalizar a 2 y 1?

Necesito razones por las que elegir un método Se recomiendan alguna sugerencia

Gracias

Solución

¿Qué quieres aprender? ¿Cuál debe ser la salida? Es la entrada sólo la acción que se utiliza? Si está aprendiendo un modelo del entorno, que se expresa por una distribución de probabilidad:

P (next_state | estado, acción)

Es común el uso de un modelo separado para cada acción. Eso hace que el mapeo entre la entrada y la salida más simple. La entrada es un vector de características del estado. La salida es un vector de las características del estado siguiente. La acción utilizada se da a entender por el modelo.

Las características del estado podría ser codificado como bits. Un bit activo indicaría la presencia de una característica.

Esto aprender un modelo determinista. No sé lo que es una buena manera de aprender un modelo estocástico de los siguientes estados. Una posibilidad puede ser utilizar las neuronas estocásticos.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow