Domanda

Sto cercando di risolvere Lunarlander-V2 di Openi Gym's Gym.

Sto usando l'algoritmo di learning profondo. Ho provato vari iperparametri, ma non riesco a ottenere un buon punteggio.

Generalmente la perdita diminuisce per molti episodi, ma la ricompensa non migliora molto.enter image description here

Come dovrei interpretarlo? Se una perdita più bassa significa previsioni più accurate del valore, ingenuamente mi sarei aspettato che l'agente intraprendesse azioni più elevate.

Questo potrebbe essere un segno del fatto che l'agente non abbia esplorato abbastanza, di essere bloccato in un minimo locale?

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top