Q-Learning Quando si riduce al minimo un costo totale invece di massimizzare una ricompensa totale

https://datascience.stackexchange.com/questions/56621

02-11-2019
|

Domanda

Ho un problema decisionale in cui i risultati sono misurati come un costo che voglio ridurre al minimo. Sembra una buona scelta per Q-Learning, ma non sono sicuro di come adattarlo per affrontare un costo anziché una ricompensa.

Qual è il migliore:

Inizializzazione dei valori Q per tutte le azioni con zeri, quindi convincere l'agente ad apprendere le azioni che massimizzano i valori Q e successivamente filtrare le azioni con valori Q minimi. L'aggiornamento dei valori Q sarebbe quindi:

q_dict['state1']['act1'] += 
    r + (max([q_dict['state2'][u] for u in q_dict['state2']]))

Inizializzazione dei valori Q con un numero grande, quindi convincere l'agente ad apprendere azioni che minimizzano i valori Q e successivamente filtrando le azioni con valori Q minimi. L'aggiornamento dei valori Q sarebbe quindi:

q_dict['state1']['act1'] -= 
    r + (max([q_dict['state2'][u] for u in q_dict['state2']]))

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange