Est-ce que l'apprentissage par renforcement toujours du travail sur la grille monde?

https://datascience.stackexchange.com/questions/5264

16-10-2019
|

Question

Est-ce que l'apprentissage par renforcement toujours besoin d'un problème mondial de la grille à appliquer?

Quelqu'un peut-il me donner un autre exemple de la façon dont l'apprentissage de renforcement peut être appliqué à quelque chose qui ne dispose pas d'un scénario mondial de la grille?

La solution

La réponse est non! Apprentissage par renforcement ne se limite pas aux espaces discrets. Mais la plupart de la littérature d'introduction ne traite avec des espaces discrets.

Comme vous le savez peut-être maintenant qu'il ya trois éléments importants dans tout problème d'apprentissage Renforcement: récompenses, les États et les actions. La première est une quantité scalaire et théoriquement les deux derniers peuvent être soit discrètes ou continues. Les preuves de convergence et les analyses des différents algorithmes sont plus faciles à comprendre pour le cas discret et aussi les algorithmes correspondants sont plus faciles à coder. C'est l'une des raisons, met l'accent matériaux les plus d'introduction sur eux.

Cela dit, il devrait être intéressant de noter que les premières recherches sur l'apprentissage par renforcement en fait porté sur les représentations de l'Etat continue. Ce fut seulement dans les années 90 depuis la littérature a commencé à représenter tous les algorithmes standards pour les espaces discrets que nous avons eu beaucoup de preuves pour eux.

Enfin, si vous avez remarqué attentivement, j'ai dit que des états continus. La cartographie des états continus et des actions continues est difficile. Néanmoins, nous avons des solutions pour l'instant. Mais il est un domaine de recherche en RL.

papier par Sutton de '98 devrait être un bon départ pour votre exploration!

Autres conseils

Apprentissage par renforcement ne dépend pas d'un monde de la grille. Il peut être appliqué à tout espace de possibilités où il y a une « fonction de remise en forme » qui met en correspondance entre les points dans l'espace à une remise en forme métrique.

espaces topologiques ont un « quartiers » formellement définis, mais ne sont pas nécessairement conformes à une grille ou une représentation tridimensionnelle. Dans un espace topologique, la seule façon d'obtenir de « ici » à « il » est par certains « chemins » qui sont des ensembles de quartiers contigus. fonctions de conditionnement physique en continu peuvent être définis sur des espaces topologiques.

Pour ce qu'il vaut la peine, l'apprentissage de renforcement ne sont pas l'alpha-end-tout (famille) algorithmes d'apprentissage dans les paysages de fitness. Dans un paysage de remise en forme suffisamment robuste, d'autres algorithmes d'apprentissage peuvent mieux performer. En outre, s'il y a des régions de l'espace où il n'y a pas de fonction de remise en forme bien définie à à ce que les algorithmes d'apprentissage point donné dans le temps, il peut être indéterminé sont optimales, le cas échéant.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange