Domanda

Ho un problema decisionale in cui i risultati sono misurati come un costo che voglio ridurre al minimo. Sembra una buona scelta per Q-Learning, ma non sono sicuro di come adattarlo per affrontare un costo anziché una ricompensa.

Qual è il migliore:

  1. Inizializzazione dei valori Q per tutte le azioni con zeri, quindi convincere l'agente ad apprendere le azioni che massimizzano i valori Q e successivamente filtrare le azioni con valori Q minimi. L'aggiornamento dei valori Q sarebbe quindi:
q_dict['state1']['act1'] += 
    r + (max([q_dict['state2'][u] for u in q_dict['state2']]))
  1. Inizializzazione dei valori Q con un numero grande, quindi convincere l'agente ad apprendere azioni che minimizzano i valori Q e successivamente filtrando le azioni con valori Q minimi. L'aggiornamento dei valori Q sarebbe quindi:
q_dict['state1']['act1'] -= 
    r + (max([q_dict['state2'][u] for u in q_dict['state2']]))

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top