Domanda

Ho iniziato ad apprendere l'apprendimento del rinforzo e cercare di applicarlo per il mio caso d'uso. Sto sviluppando un agente RL in grado di mantenere la temperatura con un valore particolare e ridurre al minimo il consumo di energia se l'attrezzatura intraprendendo azioni diverse che sono disponibili per intraprendere.

Sto cercando di formulare una funzione di ricompensa per questo.

Energy e temp_act possono essere misurati

energy_coeff = -10
temp_coeff = -10

temp_penalty = np.abs(temp_setpoint - temp_act)

reward = energy_coeff * energy + temp_coeff * temp_penalty

Questa è la funzione di ricompensa che sto usando, ma intuitivamente, sento che dovrebbe essere migliore. Perché il valore assoluto di enenrgy e temp_penalty è su scale diverse. Come faccio a contare il problema di ridimensionamento, strutturando una ricompensa.

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top