Question

Je suis en train d'étudier les problèmes d'été apprentissage de renforcement hierachial, et alors que beaucoup de documents proposent des moyens intéressants pour l'apprentissage d'une politique, ils semblent tous penser qu'ils savent à l'avance une structure graphique décrivant les actions dans le domaine. Par exemple, La méthode MAXQ pour l'apprentissage par renforcement Hierarchial par Dietterich décrit un graphique complexe d'actions et sous-tâches pour un simple domaine de taxi, mais pas comment ce graphique a été découvert. Comment voulez-vous apprendre la hiérarchie de ce graphique, et non pas seulement la politique?

Était-ce utile?

La solution

Dans le MAXQ de Dietterich, le graphique est réalisé manuellement. Il est considéré comme une tâche pour le concepteur du système, de la même manière que venir avec une fonction d'espace et de récompense sont la représentation.

En fonction de ce que vous essayez d'atteindre, vous pouvez décomposer automatiquement l'espace d'état, connaître les fonctions pertinentes, ou transférer l'expérience des tâches simples aux plus complexes.

Je vous suggère de commencer juste lecture des documents qui font référence à celui MAXQ vous lié. Sans savoir ce exactement ce que vous voulez atteindre, je ne peux pas être très prescriptive (et je ne suis pas vraiment au-dessus de toutes les recherches en cours RL), mais vous pourriez trouver des idées pertinentes dans le travail de Luo, Bell & McCollum ou les articles de Madden & Howley.

Autres conseils

Ce document décrit une approche qui est un bon point de départ:

N. Mehta, S. Ray, P. Tadepalli et T. Dietterich. Découverte automatique et le transfert de MaxQ Hiérarchies. Dans la Conférence internationale sur l'apprentissage machine, 2008.

http://web.engr.oregonstate.edu/~ mehtane / papiers / salut-mat.pdf

Dire qu'il ya cet agent se déplaçant là à faire les choses. Vous ne connaissez pas ses objectifs internes (graphique des tâches). Comment concluez-vous ses objectifs?

En chemin à sens unique, cela est impossible. Tout comme il est impossible pour moi de savoir quel est l'objectif que vous aviez l'esprit lorsque vous mettez cette boîte vers le bas: peut-être vous étiez fatigué, peut-être que vous avez vu une abeille tueuse, peut-être que vous aviez envie de faire pipi ....

Vous essayez de modéliser la structure interne d'objectif un agent. Pour ce faire, vous avez besoin d'une sorte d'orientation quant à ce qui sont l'ensemble des objectifs et la façon dont ceux-ci sont représentés par des actions possibles. Dans la littérature de recherche ce problème a été étudié sous les termes « la reconnaissance du régime » et aussi avec l'utilisation de POMDP (markov partiellement observable du processus de décision), mais ces deux techniques supposent que vous ne savez quelque chose sur les objectifs de l'autre agent.

Si vous ne savez pas quoi que ce soit au sujet de ses objectifs, tout ce que vous pouvez faire est soit en déduire un des modèles ci-dessus (C'est ce que nous les humains. Je suppose que d'autres ont les mêmes objectifs que je fais. Je ne pense jamais, « Oh , il a laissé tomber son ordinateur portable, il doit être prêt à pondre un œuf » cse, il est un être humain) ou d'un modèle comme une boîte noire:. une simple action à Etat fonction puis ajouter états internes au besoin (hmmmm, quelqu'un doit avoir écrit un article à ce sujet, mais je ne sais pas qui).

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top