是什么使用的神经网络使用它们时有加强学习？

https://stackoverflow.com/questions/1783389

21-09-2019
|

题

我不知道，前馈的多层神经网络与backprop的使用与增强学习，以帮助它概括的行动，我们的代理。这是，如果我们有一个很大的国家空间中，我们可以做一些行动，他们将帮助概括了整个国家的空间。

什么神经网络这样做，而不是？什么任务，他们使用的，在一般?

解决方案

神经网络，递归神经网络的短(虽然要小心 递归神经网络 是经常使用的文献中指定 随机的神经网络, ，其有效的是一种特殊情况的经常性NN)，都在非常不同的"口味"，导致他们表现出的各种行为和特点。在一般情况下，然而这些多色调的行为和特征 植根于性[反馈]输入到各个神经元.这种反馈，来自网络的其他部分，可以就地或遥远，从同一层(包括在某些情况下的"自我")，或者甚至在不同的层(*).反馈信息视为"正常"输入的神经元，然后可以影响，至少在部分，其输出。

不像 回传播 这是用 在学习阶段 饲料进网络为目的的细微调整中的相对权重的各种[Feedfoward只]连接，反馈RNNs构成真正的一个输入到他们的神经元。

一项使用的反馈 使网络更有弹性的噪音和其他缺陷，在输入 (即输入该网络作为一个整体).为此原因是，在外来投入"直接"有关的网络输入(种类型的输入，将已经存在一个前馈网络)，神经元的有关信息的其他什么神经元的"思维"。这一额外信息，然后导致 赫布学习, 即这个想法，神经元，[通常]火在一起应该"鼓励"每个其他开火。在实际中，这一额外的输入从"等-击"邻居神经元(或没有这样的邻居)可以迅速神经元火，即使其非反馈的投入可能已经这样，它不会解雇(或发射不强烈，根据种类型的网络)。

这样的一个例子弹输入不完善是 联想记忆, 一共同采用的RNNs.想法是使用反馈信息，以"填补空白".

另一个相关但又不同的使用反馈与 抑制信号, ，由此给予的神经元可以学习，而所有其他投入将促它开火，一个特别反馈意见输入从一些其他的一部分，该网络通常指以某种方式的其他投入是不可信任的(在这个特定的上下文)。

另一个极其重要的使用的反馈是，在一些结构可以 介绍时间因素的系统.一个特定的[反馈]输入可能没有那么多的指导的神经什么的它"认为"[在]，而是"提醒"神经元，说，前两个周期(无论周期，可能代表)，该网络的国家(或其中一个副国家)是"X"。这种能力"还记得"[通常]最近的过去是另一个因素的复原力，以噪音的输入，但其主要感兴趣的可能是引进"预测"到学习过程。这些时间-延迟输入可以被看作是预测从网络的其他部分:"我听到脚步声，在走廊里，期望听到门铃[或钥匙洗牌]".

(*)顺便说一句这样一个广泛的自由"规则"，规定所允许的连接，是否反馈或饲料，说明 为什么有这么多不同的递归神经网络的体系结构 和变化物)。另一个原因是这些多种不同的架构的一个特点的递归神经网络的是，他们不容易为容易处理，在数学上或其他方式，比前馈模型。因此，驱动通过数学见解或者纯试验和错误的做法，许多不同的可能性，正在尝试。

这并不是说，反馈，网络是总黑盒子，事实上一些RNNs如 型网络 是相当好的理解。这只是数学的通常更为复杂(至少对我来说;-))

我认为上述一般(太一般!), 地址 吞噬了极乐世界's(OP)的问题的"什么做，而不是递归神经网络"，并"一般任务，它们被用于".许多补充信息，这是一个不完整的和非正式调查应用程序的RNNs.困难在于收集这一清单是多个：

重叠的应用程序之间的饲料进网络和RNNs(如果这种隐藏的特殊性RNNs)
往往是高度专门性的应用程序(我们要么呆在太板概念，例如"分类"或者我们潜入"预测的碳转变系列的饱和苯";-))
炒作常常相关的神经网络，说明在普及文

无论如何，这里的名单

建模，特别是学习的[经常'的非线性]动态系统
分类(现在，FF网还被用于这...)
组合的优化

还有许多应用程序相关的时间尺度的RNNs(另一个领域FF网络通常不会被发现)

运动检测
载荷预报(作为与公用事业或服务：预测的负载在短期内)
信号处理：过滤和控制

其他提示

有在基本强化学习框架，您的状态/动作/回报序列是马尔可夫决策过程的假设。这基本上意味着你不需要记住以前的状态的任何信息，从这个情节作出决定。

但是，这显然不是解决所有问题属实。有时候，你需要记住最近的一些事情做出明智的决策。有时候，你可以明确地建立需要记住进入状态信号的事情，但一般我们希望我们的系统学习什么需要记住。这就是所谓的部分可观察马尔可夫决策过程（POMDP），并且有多种用来处理它的方法。一个可能的解决方案是使用递归神经网络，因为它们包含来自先前时间步骤的详细信息到当前的决定。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow