Question

J'ai un problème de décision où les résultats sont mesurés comme un coût que je veux minimiser. Cela semble être un bon ajustement à Q-Learning, mais je ne sais pas comment l'ajuster pour gérer un coût au lieu d'une récompense.

Quel est le meilleur:

  1. L'initialisation des valeurs Q pour toutes les actions avec Zeros, puis oblige à apprendre les actions qui maximisent les valeurs Q, puis filtrent plus tard les actions avec un minimum de valeurs Q. La mise à jour des valeurs Q serait alors:
q_dict['state1']['act1'] += 
    r + (max([q_dict['state2'][u] for u in q_dict['state2']]))
  1. Initialiser les valeurs Q avec un grand nombre, amener l'agent à apprendre des actions qui minimisent les valeurs Q, puis filtrant plus tard les actions avec un minimum de valeurs Q. La mise à jour des valeurs Q serait alors:
q_dict['state1']['act1'] -= 
    r + (max([q_dict['state2'][u] for u in q_dict['state2']]))

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top