Was sind die Verwendungen von rekurrenten neuronalen Netzen, wenn Sie diese mit Reinforcement Learning?

https://stackoverflow.com/questions/1783389

21-09-2019
|

Frage

Ich weiß, dass die feedforward-multi-layer neural networks mit backprop verwendet werden, die mit Reinforcement Learning als zu helfen, Sie zu verallgemeinern und die Aktionen, unser agent wird.Dies ist, wenn wir einen großen Zustandsraum, wir können tun einige Aktionen, und Sie werden Ihnen helfen, verallgemeinern über den gesamten Zustandsraum.

Was tun rekurrenten neuronalen Netzen zu tun, statt?Für welche Aufgaben werden Sie bei uns verwendet, im Allgemeinen?

Lösung

Recurrent Neural Networks, RNN kurz (obwohl aufpassen, dass RNN in der Literatur häufig verwendet wird, zu bezeichnen Random Neuronale Netze , die effektiv sind ein Sonderfall von Recurrent NN ), kommt in sehr unterschiedlichen „Geschmacksrichtungen“, die sie verschiedene Verhaltensweisen und Eigenschaften aufweisen verursacht. Im Allgemeinen ist jedoch in vielen Schattierungen von Verhaltensweisen und Eigenschaften sind verwurzelt in der Verfügbarkeit von [Feedback] Eingabe an einzelnen Neuronen . Solche Rückmeldungen von anderen Teilen des Netzes kommen, sei es lokal oder entfernt, aus der gleichen Schicht (in einigen Fällen „Selbst“ einschließlich) oder sogar auf verschiedene Schichten (*). Feedback-Informationen als „normal“ -Eingang das Neuron behandelt und können dann beeinflussen, zumindest teilweise seinen Ausgang.

Im Gegensatz zu Ausbreitung zurück , das verwendet wird während der Lernphase eine Störgrößenaufschaltung Netz zum Zweck der Feinabstimmung der relativen Gewicht des verschiedenen [Feedfoward-only ] Verbindungen, FeedBack in RNNs bilden wahr eine Eingabe in den Neuronen zu verbinden sie.

Eine der Verwendungen von Feedback ist das Netzwerk belastbarer gegenüber Rauschen und andere Unvollkommenheiten in der Eingabe machen (d Eingabe an das Netzwerk als Ganzes). Der Grund dafür ist, dass „direkt“ neben Eingaben an den Netzeingang betreffen (die Art der Eingabe, die in einem Feedforward-Netz gewesen wäre), Neuronen, die Informationen über das, was andere Neuronen sind „Denken“. Diese zusätzlichen Informationen führen dann zu Hebbian Lernen , also die Idee, dass Neuronen dass [in der Regel] Feuer zusammen sollten einander Feuer „fördern“. In der Praxis diese zusätzliche Eingabe von „like-firing“ Nachbarn Neuronen (oder nicht-so Nachbarn) ein Neuron zu Feuer auffordern, obwohl seine nicht-Feedback-Eingänge so gewesen sein können, dass es nicht gefeuert hätte (oder gefeuert weniger stark, je nach Art des Netzwerks).

Ein Beispiel für diese Elastizität Eingang Unvollkommenheiten ist mit Assoziativspeichern , einer gemeinsamen Beschäftigung des RNNs. Die Idee ist es, die feeback Info "fill-in den freien Räumen" zu verwenden.

Ein andere verwandte, aber unterschiedliche Verwendung von Feedback ist mit hemmenden Signalen , wobei ein bestimmtes Neuron das lernen kann, während alle seine anderen Eingänge es zu Feuer auffordern würden, einen bestimmten Feedback-Eingang von einem anderen Teil der Netzwerk typischerweise anzeigt, dass irgendwie die anderen Eingänge (in diesem Kontext) nicht vertraut werden.

Eine weitere sehr wichtige Anwendung von Feedback ist, dass in einigen Architekturen kann es ein zeitliches Element in dem System einführen . Ein besonderer [Feedback] Eingang anweisen, das Neuron nicht so viel kann, was es „denkt“ [jetzt], sondern „erinnern“ das Neuron, dass etwa vor zwei Zyklen (was auch immer Zyklen darstellen können), Zustand des Netzwerks (oder einer der sein ein Unterzustand) war „X“. Ein solche Fähigkeit zu „erinnern“, die [typisch] jüngste Vergangenheit ist ein weiterer Faktor, der Widerstandsfähigkeit gegenüber Rauschen in dem Eingang, aber sein Hauptinteresse bei der Einführung von „Vorhersage“ in den Lernprozess sein kann. Dieser zeitlich verzögerten Eingang kann als die Prognosen aus anderen Teilen des Netzes zu sehen: „Ich habe gehört, Schritte auf dem Flur, erwartet die Türklingel [oder Tasten schlurfende] zu hören“.

(*) BTW so eine breite Freiheit in den „Regeln“, die die erlaubten Verbindungen diktieren, ob Feedback oder Feedforward, erklärt , warum gibt es so viele verschiedene RNN-Architekturen und Variationen davon). Ein weiterer Grund für diese vielen verschiedenen Architekturen ist, dass eines der Merkmale von RNN ist, dass sie nicht ohne weiteres als lenkbar sind, mathematisch oder auf andere Weise, verglichen mit dem Feed-Forward-Modell. Als Ergebnis angetrieben durch mathematische Einsicht oder einfache Trial-and-Error-Methode, versucht, viele verschiedene Möglichkeiten werden.

Dies ist nicht zu sagen, dass Feedback-Netzwerk tot istal schwarze Kästchen in der Tat einige der RNNs wie der Hopfieldnetze sind ziemlich gut verstanden. Es ist nur so, dass die Mathematik ist in der Regel mehr kompliziert (zumindest für mich ;-))

Ich denke, die oben, in der Regel (auch allgemein!), Adressen verschlungen elysium 's (die OP) Fragen von " was tun RNN tun, anstatt ", und die " allgemeine Aufgaben sind sie für verwendet". Für viele ergänzen diese Informationen, hier ist eine unvollständige und informelle Umfrage von Anwendungen von RNNs. Die Schwierigkeiten, in eine solche Liste zu sammeln sind vielfältig:

die Überlappung von Anwendungen zwischen-Feed-Forward-Netzen und RNNs (als Ergebnis dieser Haut der Spezifität der RNNs)
die oft hoch spezialisierte Art von Anwendungen (wir entweder Aufenthalt in mit zu borad Begriffen wie „Klassifizierung“ oder wir tauchen in „Vorhersage von Kohlenstoff-Verschiebungen in der Reihe von gesättigter Benzole“ ;-))
der Hype oft mit neuronalen Netzen verbunden sind, wenn beschrieben in Vulgarisierung Texte

Wie auch immer, hier ist die Liste

Modellierung, insbesondere das Erlernen von [oft‘nicht-linearer] dynamischen Systemen
Klassifikation (jetzt FF Net sind auch für die, die verwendet ...)
kombinatorische Optimierung

Auch gibt es eine Vielzahl von Anwendungen mit der zeitlichen Dimension des RNNs zugeordnet (ein weiterer Bereich, in dem FF-Netzwerke typischerweise nicht gefunden werden)

Bewegungserkennung
Lastprognose (wie bei Dienstprogramme oder Dienstleistungen: die Last auf kurze Sicht der Vorhersage)
Signalverarbeitung: Filterung und Kontrolle

Andere Tipps

Es ist eine Annahme, die in der basic Reinforcement Learning framework, das den Zustand/Aktion/Belohnung Sequenz ist ein Markov-Entscheidungsprozess.Das bedeutet im wesentlichen, dass Sie nicht brauchen, um zu erinnern, alle Informationen über frühere Zustände aus dieser episode, Entscheidungen zu treffen.

Aber das ist offensichtlich nicht wahr, für alle Probleme.Manchmal müssen Sie daran denken, einige der letzten Dinge, informierte Entscheidungen zu treffen.Manchmal kann man sich ausdrücklich bauen die Dinge, die müssen daran erinnert werden, in den Zustand signal, aber im Allgemeinen möchten wir, unser system zu lernen, was es braucht, sich zu erinnern.Dies nennt man eine Partiell Beobachtbaren Markov-Entscheidungsprozess (POMDP), und es gibt eine Vielzahl von Methoden, um deal mit es.Einer möglichen Lösung ist die Verwendung eines rekurrenten neuronalen Netzwerk, da Sie enthalten Einzelheiten von der letzten Schritte in der aktuellen Entscheidung.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow