我不知道,前馈的多层神经网络与backprop的使用与增强学习,以帮助它概括的行动,我们的代理。这是,如果我们有一个很大的国家空间中,我们可以做一些行动,他们将帮助概括了整个国家的空间。

什么神经网络这样做,而不是?什么任务,他们使用的,在一般?

有帮助吗?

解决方案

神经网络,递归神经网络的短(虽然要小心 递归神经网络 是经常使用的文献中指定 随机的神经网络, ,其有效的是一种特殊情况的经常性NN),都在非常不同的"口味",导致他们表现出的各种行为和特点。在一般情况下,然而这些多色调的行为和特征 植根于性[反馈]输入到各个神经元.这种反馈,来自网络的其他部分,可以就地或遥远,从同一层(包括在某些情况下的"自我"),或者甚至在不同的层(*).反馈信息视为"正常"输入的神经元,然后可以影响,至少在部分,其输出。

不像 回传播 这是用 在学习阶段 饲料进网络为目的的细微调整中的相对权重的各种[Feedfoward只]连接,反馈RNNs构成真正的一个输入到他们的神经元。

一项使用的反馈 使网络更有弹性的噪音和其他缺陷,在输入 (即 输入 该网络作为一个整体).为此原因是,在外来投入"直接"有关的网络输入(种类型的输入,将已经存在一个前馈网络),神经元的有关信息的其他什么神经元的"思维"。这一额外信息,然后导致 赫布学习, 即这个想法,神经元,[通常]火在一起应该"鼓励"每个其他开火。在实际中,这一额外的输入从"等-击"邻居神经元(或没有这样的邻居)可以迅速神经元火,即使其非反馈的投入可能已经这样,它不会解雇(或发射不强烈,根据种类型的网络)。

这样的一个例子弹输入不完善是 联想记忆, 一共同采用的RNNs.想法是使用反馈信息,以"填补空白".

另一个相关但又不同的使用反馈与 抑制信号, ,由此给予的神经元可以学习,而所有其他投入将促它开火,一个特别反馈意见输入从一些其他的一部分,该网络通常指以某种方式的其他投入是不可信任的(在这个特定的上下文)。

另一个极其重要的使用的反馈是,在一些结构可以 介绍时间因素的系统.一个特定的[反馈]输入可能没有那么多的指导的神经什么的它"认为"[在],而是"提醒"神经元,说,前两个周期(无论周期,可能代表),该网络的国家(或其中一个副国家)是"X"。这种能力"还记得"[通常]最近的过去是另一个因素的复原力,以噪音的输入,但其主要感兴趣的可能是引进"预测"到学习过程。这些时间-延迟输入可以被看作是预测从网络的其他部分:"我听到脚步声,在走廊里,期望听到门铃[或钥匙洗牌]".

(*)顺便说一句这样一个广泛的自由"规则",规定所允许的连接,是否反馈或饲料,说明 为什么有这么多不同的递归神经网络的体系结构 和变化物)。另一个原因是这些多种不同的架构的一个特点的递归神经网络的是,他们不容易为容易处理,在数学上或其他方式,比前馈模型。因此,驱动通过数学见解或者纯试验和错误的做法,许多不同的可能性,正在尝试。

这并不是说,反馈,网络是总黑盒子,事实上一些RNNs如 型网络 是相当好的理解。这只是数学的通常更为复杂(至少对我来说;-))

我认为上述一般(太一般!), 地址 吞噬了极乐世界's(OP)的问题的"什么做,而不是递归神经网络",并"一般任务,它们被用于".许多补充信息,这是一个不完整的和非正式调查应用程序的RNNs.困难在于收集这一清单是多个:

  • 重叠的应用程序之间的饲料进网络和RNNs(如果这种隐藏的特殊性RNNs)
  • 往往是高度专门性的应用程序(我们要么呆在太板概念,例如"分类"或者我们潜入"预测的碳转变系列的饱和苯";-))
  • 炒作常常相关的神经网络,说明在普及文

无论如何,这里的名单

  • 建模,特别是学习的[经常'的非线性]动态系统
  • 分类(现在,FF网还被用于这...)
  • 组合的优化

还有许多应用程序相关的时间尺度的RNNs(另一个领域FF网络通常不会被发现)

  • 运动检测
  • 载荷预报(作为与公用事业或服务:预测的负载在短期内)
  • 信号处理:过滤和控制

其他提示

有在基本强化学习框架,您的状态/动作/回报序列是马尔可夫决策过程的假设。这基本上意味着你不需要记住以前的状态的任何信息,从这个情节作出决定。

但是,这显然不是解决所有问题属实。有时候,你需要记住最近的一些事情做出明智的决策。有时候,你可以明确地建立需要记住进入状态信号的事情,但一般我们希望我们的系统学习什么需要记住。这就是所谓的部分可观察马尔可夫决策过程(POMDP),并且有多种用来处理它的方法。一个可能的解决方案是使用递归神经网络,因为它们包含来自先前时间步骤的详细信息到当前的决定。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top