Come formulare la ricompensa di un agente RL con due obiettivi
-
02-11-2019 - |
Domanda
Ho iniziato ad apprendere l'apprendimento del rinforzo e cercare di applicarlo per il mio caso d'uso. Sto sviluppando un agente RL in grado di mantenere la temperatura con un valore particolare e ridurre al minimo il consumo di energia se l'attrezzatura intraprendendo azioni diverse che sono disponibili per intraprendere.
Sto cercando di formulare una funzione di ricompensa per questo.
Energy e temp_act possono essere misurati
energy_coeff = -10
temp_coeff = -10
temp_penalty = np.abs(temp_setpoint - temp_act)
reward = energy_coeff * energy + temp_coeff * temp_penalty
Questa è la funzione di ricompensa che sto usando, ma intuitivamente, sento che dovrebbe essere migliore. Perché il valore assoluto di enenrgy e temp_penalty è su scale diverse. Come faccio a contare il problema di ridimensionamento, strutturando una ricompensa.
Nessuna soluzione corretta
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a datascience.stackexchange