Domanda

Sto cercando di capire la differenza tra valori target e valori d'azione in reti profonde Q.

Da quello che ho capito, il valore d'azione cerca di approssimare la ricompensa di una determinata azione (in un certo stato). Il valore target è anche approssimativo della ricompensa. Come sono differenti?

Riferimento
- https://storage.googleapis.com/deepmind-media/dqn/dqnnaturepaper.pdf

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top