Domanda

In RL Course di David Silver - Lecture 7: Metodi per gradiente politico, David spiega cos'è una funzione di vantaggio e come è la differenza tra q (s, a) e v (s)

enter image description here

Preliminare, da questo post:

Prima ricorda che una politica $ pi $ è una mappatura di ogni stato, $ s $, azione $ a $, alla probabilità $ pi (a mid s) $ di agire $ a $ quando si trova in stato $ s $.

La funzione del valore statale, $ V^ pi (s) $, è il ritorno atteso quando si inizia nello stato $ s $ e seguendo $ pi $ Successivamente.

Allo stesso modo, la funzione del valore dell'azione statale, $ Q^ pi (s, a) $, è il ritorno atteso di quando si inizia nello stato $ s $, prendere l'iniziativa $ a $, e seguendo la politica $ pi $ Successivamente.

Nella mia comprensione, $ V (s) $ è sempre più grande di $ Q (s, a) $, perché la funzione $ V $ Include la ricompensa per lo stato attuale $ s $, a differenza di $ Q $. Quindi, perché la funzione di vantaggio è definita come $ A = v - q $ piuttosto che $ A = q - v $ (al minuto 1:12:29 nel video)?

In realtà, V potrebbe non essere più grande di Q, perché $ s $ potrebbe effettivamente contenere una ricompensa negativa. In tal caso come possiamo essere certi cosa sottrarre da cosa, in modo tale che il nostro vantaggio sia sempre positivo?

$ Q (s, a) $ restituisce un valore di tutto ricompensa totale che alla fine è previsto, dopo aver scelto un'azione $ a $. $ V (s) $ è lo stesso, solo con una ricompensa extra dello stato attuale $ s $ anche.

Non vedo perché un valore di $ Q - V $ sarebbe utile. D'altro canto, $ V - Q $ sarebbe utile perché ci direbbe la ricompensa che avremmo fatto $ s_ {t+1} $ Se abbiamo intrapreso l'azione $ a $.

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top