Question

J'ai lu Deepmind Atari de Google papier Et j'essaie de comprendre le concept de "relecture d'expérience". La relecture de l'expérience se présente dans de nombreux autres documents d'apprentissage par renforcement (en particulier le papier alphago), donc je veux comprendre comment cela fonctionne. Vous trouverez ci-dessous quelques extraits.

Premièrement, nous avons utilisé un mécanisme d'inspiration biologique appelé l'expérience de la relecture qui randorise les données, supprimant ainsi les corrélations dans la séquence d'observation et lissant les changements dans la distribution des données.

Le papier élabore ensuite comme suit:

Alors que d'autres méthodes stables existent pour la formation de réseaux de neurones dans le cadre d'apprentissage du renforcement, tels que la Q-iteration ajustée neuronale, ces méthodes impliquent la formation répétée des réseaux de novo Des centaines d'itérations. Par conséquent, ces méthodes, contrairement à notre algorithme, sont trop inefficaces pour être utilisées avec succès avec de grands réseaux de neurones. Nous paramétrons une fonction de valeur approximative $ Q (s, a; theta_i) $ en utilisant le réseau neuronal convolutionnel profond illustré à la figure 1, dans laquelle $ theta_i $ sont les paramètres (c'est-à-dire les poids) du réseau Q à l'itération $ i $. Pour effectuer une rediffusion d'expérience, nous stockons les expériences de l'agent $ e_t = (s_t, a_t, r_t, s_ {t + 1}) $ à chaque pas de temps $ t $ Dans un ensemble de données $ D_t = {e_1, dots, e_t } $. Pendant l'apprentissage, nous appliquons des mises à jour Q-Learning, sur des échantillons (ou mini-lots) d'expérience $ (s, a, r, s ') sim u (d) $, dessiné uniformément au hasard à partir du pool d'échantillons stockés. La mise à jour Q-Learning à l'itération $ i $ utilise la fonction de perte suivante:

$$ l_i ( theta_i) = mathbb {e} _ {(s, a, r, s ') sim u (d)} Left [ Left (r + gamma max_ {a'} q ( s ', a'; theta_i ^ -) - q (s, a; theta_i) droite) ^ 2 droite] $$

Qu'est-ce que l'expérience Replay, et quels sont ses avantages, en termes de laïcs?

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top