Quelles sont les utilisations des réseaux de neurones récurrents lors de leur utilisation avec l'apprentissage par renforcement?

https://stackoverflow.com/questions/1783389

21-09-2019
|

Question

Je sais que les réseaux de neurones multicouches avec anticipatif backprop sont utilisés avec l'apprentissage par renforcement pour l'aider à généraliser les actions de notre agent ne. Ceci est, si nous avons un grand espace d'état, nous pouvons faire certaines actions, et ils vont aider à généraliser sur l'ensemble de l'espace d'état.

Qu'est-ce que les réseaux de neurones récurrents font, au lieu? Pour quelles tâches sont-elles utilisées pour, en général?

La solution

récurrents Neural Networks, RNN pour faire court (mais attention que RNN est souvent utilisé dans la littérature pour désigner Réseaux de neurones aléatoires , qui sont effectivement un cas particulier de récidive NN ), viennent en très différentes « saveurs » qui les amène à présenter divers comportements et caractéristiques. En général, cependant, ces nombreuses nuances de comportements et caractéristiques sont enraciné dans la disponibilité de [commentaires] entrée aux neurones individuels . Une telle rétroaction provient d'autres parties du réseau, que ce soit local ou distant, de la même couche (y compris dans certains cas, « soi »), ou même sur des couches différentes (*). Retour d'informations il traité comme entrée « normale » du neurone et peut alors l'influence, au moins en partie, sa sortie.

Contrairement à retour propagation qui est utilisé au cours de la phase d'apprentissage d'un réseau d'alimentation vers l'avant dans le but d'affiner les poids relatifs des différents [Feedfoward uniquement ] connexions, FeedBack en RNNs constituent une entrée vraie pour les neurones, ils se connectent à.

L'une des utilisations de retour est pour rendre le réseau plus résistant au bruit et d'autres imperfections dans l'entrée (à savoir entrée pour le réseau dans son ensemble). La raison en est que, en plus des entrées « directement » se rapportant à l'entrée du réseau (les types d'entrée qui aurait été présent dans un réseau anticipatrice), les neurones ont les informations sur ce que les autres neurones sont « penser ». Cette information supplémentaire conduit alors à Hebb apprentissage , à savoir l'idée que les neurones que [habituellement] le feu ensemble devrait « encourager » les uns les autres au feu. En pratique, cette entrée supplémentaire de « comme-feu » neurones voisins (ou pas-couça voisins) peuvent inciter un neurone à feu, même si ses entrées non-rétroaction peuvent avoir été telle qu'elle aurait pas tiré (ou tiré moins fortement, selon le type de réseau).

Un exemple de cette capacité de résistance aux imperfections d'entrée est avec mémoire associative , un emploi commun de RNNs. L'idée est d'utiliser les informations Feeback à « remplir les blancs ».

Une autre utilisation apparentée mais distincte de rétroaction est avec des signaux inhibiteurs , dans lequel un neurone donné peut apprendre que, bien que toutes les autres entrées seraient inciter à feu, une entrée de contre-réaction particulière d'une autre partie de la généralement le réseau indique que en quelque sorte les autres entrées ne sont pas à faire confiance (dans ce contexte particulier).

Une autre utilisation extrêmement important de commentaires, est que dans certaines architectures, il peut introduire un élément temporel au système . A [commentaires] intrant peut pas demander beaucoup le neurone de ce qu'il « pense » [maintenant], mais « rappeler » le neurone qui disent, il y a deux cycles (quel que soit les cycles peuvent représenter), l'état du réseau (ou l'un des ses une sous-états) était « X ». Une telle capacité à « se souvenir » du [généralement] passé récent est un autre facteur de résistance au bruit dans l'entrée, mais son intérêt principal est peut-être dans l'introduction de « prévision » dans le processus d'apprentissage. Ces entrées de temps différé peut être considéré comme des prédictions d'autres parties du réseau: « Je l'ai entendu des pas dans le couloir, attendez-vous à entendre la sonnette de la porte [ou brassage touches] ».

(*) BTW un large liberté dans les « règles » qui déterminent les connexions autorisées, que ce soit des commentaires ou des feed-forward, explique pourquoi il y a tant de différentes architectures RNN et des variations de ceux-ci). Une autre raison de ces nombreuses architectures différentes est que l'une des caractéristiques de RNN est qu'ils ne sont pas facilement comme tractable, mathématiquement ou autrement, par rapport au modèle d'alimentation vers l'avant. Par conséquent, grâce à un aperçu mathématique ou approche par essais et erreurs simple, de nombreuses possibilités sont jugés.

Cela ne veut pas dire que le réseau de rétroaction sont total boîtes noires, en fait quelques-unes des RNNs comme le Hopfield Networks sont assez bien compris. Il est juste que le calcul est généralement plus compliquée (au moins pour moi ;-))

Je pense que les questions ci-dessus, en général (trop général!), Les adresses de (OP) dévorés Elysium de " qu'est-ce RNN faire à la place ", et " tâches générales, ils sont utilisés pour ". Pour beaucoup compléter cette information, voici une enquête incomplète et informelle des applications de RNNs. Les difficultés à rassembler une telle liste sont multiples:

le chevauchement des applications entre les réseaux d'alimentation vers l'avant et RNNs (en raison de cette cache la spécificité de RNNs)
la nature souvent très spécialisée d'applications (nous restons soit avec des concepts trop borad tels que « classification » ou nous plonger dans « la prévision des changements de carbone en série de benzènes saturés » ;-))
le battage médiatique souvent associée à des réseaux de neurones, lorsque décrit dans les textes de vulgarisation

Quoi qu'il en soit, voici la liste

modélisation, en particulier la formation de systèmes dynamiques [oft » non-linéaire]
Classement (maintenant, FF net sont également utilisés pour cela ...)
l'optimisation combinatoire

En outre il y a beaucoup d'applications associées à la dimension temporelle des RNNs (une autre zone où les réseaux FF ne sont normalement pas trouvés)

Détection de mouvement
prévision de charge (comme les services publics ou services: prévoir la charge à court terme)
traitement de signal: le filtrage et le contrôle

Autres conseils

Il y a une hypothèse dans le cadre d'apprentissage de renforcement de base que votre séquence État / action / récompense est un processus de décision de Markov. Cela signifie essentiellement que vous n'avez pas besoin de se rappeler des informations sur les états précédents de cet épisode pour prendre des décisions.

Mais ce n'est évidemment pas vrai pour tous les problèmes. Parfois, vous avez besoin de se rappeler certaines choses récentes pour prendre des décisions éclairées. Parfois, vous pouvez construire explicitement les choses qui doivent se rappeler dans le signal d'état, mais en général nous aimerions que notre système pour savoir ce dont il a besoin de se rappeler. On appelle cela un processus de décision de Markov partiellement Observable (POMDP), et il existe une variété de méthodes utilisées pour y faire face. Une possible solution est d'utiliser un réseau de neurones récurrent, car ils intègrent les détails des étapes de temps précédentes dans la décision actuelle.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow