Comment un algorithme Q considère-t-il les récompenses futures?

https://datascience.stackexchange.com/questions/29933

31-10-2019
|

Question

J'essaie de comprendre la logique sous-jacente de l'apprentissage Q (Deep Q Learning à être précis). Pour le moment, je suis coincé à la notion de récompenses futures.

Pour comprendre la logique, je passe en revue certains des échantillons de code actuels. Celui-ci semblait assez intéressant, alors je l'ai traversé:

https://github.com/keon/deep-q-learning/blob/master/dqn.py

Voici l'essentiel du code qui fait la formation réelle du réseau neuronal profond sous-jacent:

def replay(self, batch_size):
    minibatch = random.sample(self.memory, batch_size)
    for state, action, reward, next_state, done in minibatch:
        target = reward
        if not done:
            target = (reward + self.gamma *
                      np.amax(self.model.predict(next_state)[0]))
        target_f = self.model.predict(state)
        target_f[0][action] = target
        self.model.fit(state, target_f, epochs=1, verbose=0)
    if self.epsilon > self.epsilon_min:
        self.epsilon *= self.epsilon_decay

Dans la 5e ligne du code (après le if not done Ligne) Nous ajoutons la récompense actualisée de l'étape suivante, à l'étape actuelle, et la définissant comme récompense cible de l'action exécutée à former. Donc, la façon dont je le vois, nous avons la récompense de l'action exécutée et récompensé possible récompense de l'action suivante, combinée.

Pour autant que je comprenne, dans chaque itération, l'algorithme de contrôle Q prédit la récompense future de l'étape suivante (et la prochaine étape seulement) Utilisation de la technique d'apprentissage automatique utilisée (que ce soit le CNN, le DNN, etc.). Et nous multiplions la récompense de Étape suivante (et cette prochaine étape spécifique uniquement) avec le taux d'actualisation, pour le rendre moins important que la récompense immédiate (avec le ratio que nous avons spécifié). Donc, ma question est de savoir comment l'algorithme prend-il en compte encore plus de mesures (disons 5 étapes)?

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange