Pregunta

Estoy intentando crear un simple TIRAS planificador basado. He completado la funcionalidad básica para calcular los planes probabilísticos separadas que se llega a una meta, pero ahora estoy tratando de determinar cómo agregar estos planes sobre la base de su acción inicial, para determinar cuál es la mejor acción "global" es el momento t0 .

Consideremos el siguiente ejemplo. Utilidad, acotada entre 0 y 1, representa lo bien que el plan cumple con el objetivo. CF, también delimitada entre 0 y 1, representa la certeza de factor, o la probabilidad de que la realización del plan dará lugar a la utilidad dada.

Plan1: CF=0.01, Utility=0.7
Plan2: CF=0.002, Utility=0.9
Plan3: CF=0.03, Utility=0.03

Si los tres planes, que son mutuamente excluyentes, comienzan con la acción A1, ¿cómo debo agregar que para determinar el "fitness" en general para el uso de la acción A1? Mi primer pensamiento es para resumir la certeza de factores múltiples, y que por el promedio de las utilidades. ¿Le parece correcto?

Así que mi resultado actual se vería así:

fitness(A1) = (0.01 + 0.002 + 0.03) * (0.7 + 0.9 + 0.03)/3. = 0.02282

O debería calcular las utilidades probables individuales, y promediar los?

fitness(A1) = (0.01*0.7 + 0.002*0.9 + 0.03*0.03)/3. = 0.00323

¿Hay una manera más teóricamente sonido?

¿Fue útil?

Solución

Si usted toma la acción A1, a continuación, usted tiene que decidir cuál de los 3 planes a seguir, que son mutuamente excluyentes. En ese momento podemos calcular que la utilidad esperada del plan es 1

E[plan1] = Prob[plan1 succeeds]*utility-for-success 
           + Prob[plan1 fails]*utility-of-failure
         = .01*.7 + .99*0 //I assume 0
         = .007

Del mismo modo para los otros 2 planes. Pero, ya que sólo se puede elegir un plan, la utilidad esperada real (que creo que es lo que quiere decir con "fitness") a partir de la adopción de medidas A1 es

max(E[plan1],E[plan2],E[plan3]) = fitness(A1)

Otros consejos

Creo que la función de aptitud que está hablando tendría que considerar también todos los planes que no tienen A1 como la primera acción. Podrían ser todo ser realmente bueno, en cuyo caso haciendo A1 es una mala idea, o podrían ser terrible en cuyo caso se ve haciendo A1 como un buen movimiento.

En cuanto a sus ideas, el segundo tiene mucho más sentido para mí. Se calcula la utilidad esperada de la selección de un plan de manera uniforme al azar de todos los planes que comienzan con A1. Esto es bajo el supuesto de que un plan o bien alcanza la utilidad dada o falla completamente. Por ejemplo, el primer plan obtiene utilidad = 0,01 con una probabilidad de 0,7 y obtiene utilidad = 0 con una probabilidad de 0,3. Esto parece una suposición razonable; es todo lo que puede hacer a menos que tenga más datos para trabajar con ellos.

Así que aquí está mi sugerencia: Let A1 sea todos los planes que comienzan con ~ A1 y A1 sean todos los planes no-empezando por A1. Entonces

F(A1) = fitness(A1) / fitness(~A1)

donde la aptitud es como se ha definido en el segundo ejemplo.

Esto debe darle una razón de utilidad esperada para los planes que comienzan con A1 contra los que no lo hacen. Si es mayor que uno, miradas A1 como una buena acción.

Si está interesado en la planificación probabilístico, se debe echar un vistazo a la href="http://en.wikipedia.org/wiki/Markov_decision_process" rel="nofollow noreferrer"> modelo y algoritmos como valor de iteración.

Editar:

En realidad, debería haber señalado que a Markov Proceso de decisión (sin la PO). Lo siento.

Lo que debe hacer probablemente para su problema es maximizar la utilidad esperada. Llame a la aptitud esto.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top