Y el aprendizaje por refuerzo POMDP

https://stackoverflow.com/questions/2750608

02-10-2019
|

Pregunta

Estoy tratando de utilizar múltiples capas NN para implementar la función de probabilidad en el proceso de Markov parcialmente observable ..
pensé entradas al NN serían: estado actual, acción seleccionada, estatal resultado; La salida es una probabilidad en [0,1] (prob. Que la realización de la acción seleccionada en estado actual conducirá a resultar estado)
En el entrenamiento, Alimenté las entradas se dijo antes, en el NN, y lo enseñé la salida = 1,0 para cada caso de que ya se ha producido.

El problema:
Para casi todos los casos de prueba la probabilidad de salida está cerca de 0.95 .. no hay salida estaba bajo 0,9! Incluso para los resultados casi imposibles, le dio ese gran prob.

PS: Creo que esto es porque me enseñaron que ocurrió solamente los casos, pero no los de la ONU sucedido .. Pero no puedo en cada paso en el episodio enseña que la salida = 0,0 para cada acción anti-sucedido!

¿Alguna sugerencia sobre cómo vienen este problema? O puede ser otra forma de usar NN o para implementar la función prob?

Gracias

Solución

El problema es que la suma sobre todos los posibles estados siguientes tiene que ser igual a 1. Si construye su red como esa, que no está garantizado. Dos alternativas posibles vienen a la mente, donde Asumo estados discretos.

Al hacer una predicción, ejecute la red para cada posible estado siguiente. Posteriormente, normalizar dividiendo por la suma de todas las probabilidades.
Usar una salida por posible estado siguiente. A continuación, puede utilizar una capa softmax (como en clasificación) e interpretar los valores que luego van de 0 a 1 y resumir a 1 como probabilidades.

Estos dos son en realidad más o menos equivalente desde un punto de vista matemático.

En el caso de las variables continuas, que tendrá que asumir distribuciones (por ejemplo, un multivariante Gaussian) y el uso de los parámetros de esa distribución (por ejemplo, medias y STDEV covarianza) como salidas.

Otros consejos

Al montar el NN es posible que desee para adaptarse a una gama más amplia de datos, en el entrenamiento es que hay algún dato que desea conseguir cabido a una probabilidad más próximo a 0? Si no hay sospecho que es posible obtener resultados pobres. Como primer paso que iba a tratar de elegir algunas cosas diferentes en el conjunto de datos de entrenamiento.

También cómo estás entrenando el NN? ¿Ha intentado utilizar otros métodos? ¿Qué hay de funciones de activación, tal vez experimentar con el uso de algunos otros diferentes.

Con las redes neuronales Creo que un poco de ensayo y error al elegir el modelo va a ayudar. (Lo siento si todo esto no es lo suficientemente específica.)

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow