Question

Je suis en train de comprendre l'apprentissage de renforcement et les processus de décision markoviens (MDP) de dans le cas où un réseau de neurones est utilisé comme la fonction approximator.

Je vais avoir du mal à la relation entre le MDP où l'environnement est explorée de manière probabiliste, comment des cartes Retour aux paramètres d'apprentissage et comment la solution finale / politiques se trouvent.

Ai-je raison de supposer que dans le cas de Q-learning, le réseau de neurones agit essentiellement comme une approximation de fonction pour valeur q elle-même tant d'étapes à l'avenir? Comment cette carte pour les paramètres de mise à jour via rétropropagation ou d'autres méthodes?

En outre, une fois que le réseau a appris à prédire la récompense future, comment cette forme avec le système en termes de prise de décisions réellement? Je suppose que le système final ne ferait pas probabilistes transitions d'état.

Merci

Était-ce utile?

La solution

Dans Q-Learning, à chaque étape, vous utiliserez des observations et des récompenses pour mettre à jour votre fonction Q-valeur:

$$ Q_ {t + 1} (S_T, a_t) = Q_t (S_T, a_t) + \ alpha [R_ {t + 1} + \ gamma \ underset {a '} {\ max} Q_t (s_ {t + 1}, a ') - Q_t (S_T, a_t)] $$

Vous avez raison de dire que le réseau de neurones est juste une approximation de fonction pour la fonction de valeur q.

En général, la partie d'approximation est juste un problème d'apprentissage supervisé norme. Vos utilisations de réseau (s, a) que l'entrée et la sortie est la valeur de q. Comme q valeurs sont ajustées, vous devez former ces nouveaux échantillons au réseau. Pourtant, vous trouverez quelques questions que vous en utilisant des échantillons corrélés et SGD souffrira.

Si vous regardez le document DQN, les choses sont légèrement différentes. Dans ce cas, ce qu'ils font est de mettre des échantillons dans un vecteur (replay expérience). Pour enseigner le réseau, ils échantillons tuples à partir du vecteur, bootstrap en utilisant ces informations pour obtenir une nouvelle valeur q qui est enseigné au réseau. Quand je dis l'enseignement, je veux dire régler les paramètres du réseau à l'aide de descente de gradient stochastique ou votre approche d'optimisation préférée. En ne pas enseigner les échantillons dans l'ordre qui sont collectées par la politique du décorréler eux et qui aide à la formation.

Enfin, afin de prendre une décision sur l'état $ s $, vous choisissez l'action qui fournit la valeur la plus élevée q:

$$ A ^ * (s) = \ underset {a} {arg} \ espace Q (s, a) $$

Si votre fonction Q-valeur a été appris complètement et l'environnement est stationnaire, il est beau d'être gourmand à ce stade. Cependant, tout en apprenant, vous êtes attendus à explorer. Il y a plusieurs approches $ \ varepsilon $ un -greedy des façons les plus simples et les plus courantes.

Licencié sous: CC-BY-SA avec attribution
scroll top