Q-Learning lors de la minimisation d'un coût total au lieu de maximiser une récompense totale

https://datascience.stackexchange.com/questions/56621

02-11-2019
|

Question

J'ai un problème de décision où les résultats sont mesurés comme un coût que je veux minimiser. Cela semble être un bon ajustement à Q-Learning, mais je ne sais pas comment l'ajuster pour gérer un coût au lieu d'une récompense.

Quel est le meilleur:

L'initialisation des valeurs Q pour toutes les actions avec Zeros, puis oblige à apprendre les actions qui maximisent les valeurs Q, puis filtrent plus tard les actions avec un minimum de valeurs Q. La mise à jour des valeurs Q serait alors:

q_dict['state1']['act1'] += 
    r + (max([q_dict['state2'][u] for u in q_dict['state2']]))

Initialiser les valeurs Q avec un grand nombre, amener l'agent à apprendre des actions qui minimisent les valeurs Q, puis filtrant plus tard les actions avec un minimum de valeurs Q. La mise à jour des valeurs Q serait alors:

q_dict['state1']['act1'] -= 
    r + (max([q_dict['state2'][u] for u in q_dict['state2']]))

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange