Est-ce que l'apprentissage de renforcement nécessite l'aide d'autres algorithmes d'apprentissage?

https://datascience.stackexchange.com/questions/8024

16-10-2019
|

Question

ne peut pas être utilisé l'apprentissage par renforcement sans l'aide d'autres algorithmes d'apprentissage, comme la propagation de retour MLP et SVM? Je consultais deux documents:

les deux ont utilisé d'autres méthodes d'apprentissage appareil dans la boucle interne.

La solution

Vous ne algorithmes d'apprentissage supplémentaires pas besoin d'effectuer l'apprentissage de renforcement dans les systèmes simples où vous pouvez explorer tous les états. Pour ceux, simples itérative Q-learning peut faire très bien - ainsi qu'une variété des techniques similaires, telles que la différence temporelle, SARSA. Tous ces éléments peuvent être utilisés sans réseaux de neurones, à condition que votre problème ne soit pas trop grand (généralement sous quelques millions de paires Etat / action).

La forme la plus simple de Q-learning seulement les magasins et les mises à jour une table de paires de <state, action> => <estimated reward>. Il n'y a pas de modèle statistique plus à l'intérieur que. Q-learning repose sur des estimations de la récompense de ce tableau afin de prendre une action, puis il met à jour avec une estimation plus raffinée après chaque action.

Q-apprentissage et les techniques connexes telles que la différence temporelle sont parfois appelés libre modèle . Toutefois, cela ne se réfère pas à l'absence d'un modèle statistique, comme un réseau de neurones. Au lieu de cela, cela signifie que vous n'avez pas besoin d'avoir un modèle du système que vous apprenez à optimiser disponibles, comme savoir toutes les probabilités de résultats et conséquences des actions dans un jeu. Dans le modèle RL libre, peut être fait tout apprentissage tout simplement en faisant l'expérience du système comme un agent (si vous avez un modèle, alors il peut encore être utilisé pour la simulation ou la planification). Lorsque l'on considère que l'on utilise pour les systèmes qui fonctionnent avec des estimations de valeur explicites pour chaque état possible ou une paire État / d'action ou non vous avez besoin d'un réseau de neurones, le terme tableau . Et le terme Fonction d'approximation est utilisé pour décrire la façon dont un réseau de neurones est utilisé dans le contexte de RL.

Pour les grands problèmes complexes, qui peuvent même avoir des états possibles infinis, il est impossible d'utiliser des méthodes tabulaires, et vous avez besoin de bonnes estimations de la valeur généralisée basée sur une fonction de l'état. Dans ces cas, vous pouvez utiliser un réseau de neurones pour créer une approximator de fonction, qui peut estimer les récompenses des Etats similaires à ceux déjà vu. Le réseau de neurones remplace la fonction de la table simple dans Q-Learning sous forme de tableau. Cependant, le réseau de neurones (ou un autre supervisé algorithme ML) ne pas effectuer le processus d'apprentissage par lui-même, vous avez encore besoin d'une méthode RL « externe » qui explore les états et les actions afin de fournir des données pour le NN d'apprendre.

Autres conseils

« Apprentissage par renforcement » désigne le résultat de l'algorithme d'apprentissage est une politique; une fonction qui prend un ensemble d'entrées et renvoie une décision. « Apprentissage Supervisé », en revanche, apprend une fonction qui renvoie une prédiction. Ils sont différents types de tâches.
Perceptron multi-couche et Support Vector Machine sont les architectures à savoir formes pour la fonction apprise dans les deux cas.
Il n'y a aucune raison de ne pas essayer différentes architectures différentes tâches.

Bien que non requis, il est extrêmement fréquent d'utiliser un certain schéma d'approximation une fois que vous commencez à travailler avec des problèmes plus importants.

Si vous envisagez de modèle sans basée sur la valeur RL, un problème typique est que l'état-espace si énorme. En utilisant un certain schéma d'approximation est nécessaire non seulement pour stocker mais aussi utile si vous pouvez généraliser et tirer profit une certaine structure dans vos données. Il est alors tout procédé d'approximation de fonction (régression, réseaux de neurones, etc.) peut être bénéfique.

Pour les approches basées sur des modèles quelque chose de différent se produit. Vous devez construire un modèle de l'environnement à partir des données. À partir des données échantillonnées, vous essayez de rapprocher vos fonctions de transition et de récompense afin que vous puissiez utiliser ultérieurement des méthodes de planification. Encore une fois, l'apprentissage supervisé est applicable.

Je ne pense pas que vous avez besoin de connaissances comme avant et MLP SVM. En fait, le renforcement est un autre type d'apprentissage de la machine à côté de l'apprentissage supervisé, qui comprenant SVM, et l'apprentissage non supervisé, qui comprend MLP. Apprentissage par renforcement est en fait très différente de ces deux derniers, car il apprend l'interaction (interaction agent environnement). Le compromis entre l'exploration et l'exploitation est le point clé.

processus de décision de Markov est le cadre de base pour l'apprentissage de renforcement, ce qui est très différent des deux autres types d'apprentissage. Je vous recommande vivement le manuel « Apprentissage par renforcement: Introduction » par Richard S. Sutton et Andrew G. Barto ». Voilà le livre que je suis en train de lire. la langue est très facile à suivre et le contenu est complet.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange