Plans probabilistes de concentration

https://stackoverflow.com/questions/3701278

02-10-2019
|

Question

Je suis en train de créer un simple BANDES planificateur basé. J'ai terminé la fonctionnalité de base pour le calcul des plans probabilistes distincts qui atteindront un but, mais maintenant je suis en train de déterminer comment regrouper ces plans en fonction de leur action initiale, afin de déterminer quelle est la meilleure action « globale » est au moment t0 .

Prenons l'exemple suivant. Utilitaire, délimité entre 0 et 1, représente le plan comment accomplit l'objectif. CF, également délimitée entre 0 et 1, représente la certitude-facteur, ou la probabilité que l'exécution du plan se traduira par l'utilitaire donné.

Plan1: CF=0.01, Utility=0.7
Plan2: CF=0.002, Utility=0.9
Plan3: CF=0.03, Utility=0.03

Si les trois plans, qui sont mutuellement exclusifs, commencent par l'action A1, comment dois-je les agréger pour déterminer la « forme physique » globale pour l'utilisation de l'action A1? Ma première pensée est de résumer la certitude-facteurs et multiples que par la moyenne des services publics. Est-ce que semble correct?

Donc, mon résultat courant ressemblerait à ceci:

fitness(A1) = (0.01 + 0.002 + 0.03) * (0.7 + 0.9 + 0.03)/3. = 0.02282

Ou devrais-je calculer les utilités individuelles probables, et en moyenne les?

fitness(A1) = (0.01*0.7 + 0.002*0.9 + 0.03*0.03)/3. = 0.00323

Y at-il une manière plus sur le plan théorique?

La solution

Si vous prenez des mesures A1, alors vous devez décider lequel des 3 plans à suivre, qui sont mutuellement exclusives. À ce moment-là, nous pouvons calculer que l'utilité espérée du plan 1 est

E[plan1] = Prob[plan1 succeeds]*utility-for-success 
           + Prob[plan1 fails]*utility-of-failure
         = .01*.7 + .99*0 //I assume 0
         = .007

De même pour les 2 autres plans. Mais, puisque vous ne pouvez choisir un seul plan, l'utilité réelle attendue (qui je pense est ce que vous entendez par « remise en forme ») de prendre des mesures A1 est

max(E[plan1],E[plan2],E[plan3]) = fitness(A1)

Autres conseils

Je pense que la fonction de remise en forme vous parlez devrait également tenir compte de tous les plans qui n'ont pas A1 comme la première action. Ils pourraient être tous être vraiment bon, dans ce cas, faire A1 est une mauvaise idée, ou ils pourraient être terribles dans ce cas, faire regards A1 comme une bonne chose.

En regardant vos idées, le second fait me sens beaucoup plus. Il calcule l'utilité espérée de choisir un plan uniforme au hasard parmi tous les plans qui commencent par A1. Ceci est en supposant qu'un plan soit atteint l'utilitaire donné ou échoue complètement. Par exemple, le premier plan obtient utilité = 0,01 avec une probabilité de 0,7 et obtient utilité = 0 avec une probabilité de 0,3. Cela semble une hypothèse raisonnable; il est tout ce que vous pouvez faire à moins que vous avez plus de données pour travailler avec.

Alors, voici ma suggestion: Soit A1 tous les plans commençant par A1 et A1 ~ être tous les plans non commençant par A1. Ensuite,

F(A1) = fitness(A1) / fitness(~A1)

où est remise en forme comme vous l'avez défini dans le second exemple.

Cela devrait vous donner un rapport de l'utilité espérée pour les plans commençant par A1 contre ceux qui ne le font pas. Si elle est supérieure à un, A1 ressemble à une bonne action.

Si vous êtes intéressé par la planification probabiliste, vous devriez jeter un oeil à la modèle POMDP et des algorithmes comme itération de la valeur.

Edit:

En fait, je vous aurais fait Markov Décision de processus (sans le bon de commande). Je suis désolé.

Ce que vous devriez probablement faire pour votre problème est de maximiser l'utilité espérée. Appelez la remise en forme cela.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow