没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文基于主动神经生成编码的亚历山大·奥罗比亚ago@cs.rit.edu安库尔·马里aam35@ist.psu.edu罗切斯特理工学院Rochester Institute of Technology,Rochester,NY 14623宾夕法尼亚州立大学University Park,PA 16802摘要在人类中,感知觉有助于从感官输入中快速识别和提取信息。这种意识在很大程度上取决于人类主体如何在这项工作中,我们提出了主动神经生成编码,一个计算框架,用于学习动作驱动的生成模型,而不会在动态环境中产生错误的反向传播(backprop)。具体来说,我们开发了一个智能代理,即使在稀疏的奖励,从规划推理的认知理论中汲取灵感在在线学习环境中,我们展示了几个控制问题,我们提出的建模框架与深度Q学习模型具有竞争力。我们的代理的强大性能提供了有希望的证据,证明神经推理和学习的无反向传播方法可以驱动目标导向行为。1介绍操纵一个人在认知神经科学中,行为和神经生物学证据表明,在基于奖励的决策中,目标导向和习惯性行为选择之间存在差异。关于习惯性动作选择,或基于情境-反应关联采取的动作,存在大量证据支持强化学习的时间差异(TD)解释在这种情况下,神经递质多巴胺根据奖励预测产生错误信号,以驱动纹状体(基底神经节中的一个特定神经元区域,影响代理人的行动选择)中的(状态)更新。相比之下,目标导向的行动需要前瞻性规划,根据对未来潜在结果的预测采取行动[3,4]。规划即推理(PAI)[5]试图通过将其视为概率推理问题来解释目标导向行为,其中智能体操纵估计潜在行动-结果-奖励序列概率的内部模型PAI的一个重要的新兴理论框架是主动推理[6,7],它假定生物代理通过与他们的世界相互作用来学习概率生成模型,调整该模型的内部状态以解释他们从环境中获得的证据该方案通过将自适应系统中的感知、行动和学习框定为近似贝叶斯推理的结果,将它们统一起来,优雅地解决了生物体生存所固有的探索-利用这个框架的出现是及时的因此,一个关键的挑战是如何设计RL方法,成功地解决环境的不确定性和复杂性,给定有限的资源和数据。预印本。正在审查。arXiv:2107.07046v1 [cs.LG] 2021年7+v:mala2255获取更多论文2有人认为,开发逐步建立一个有用的代理人世界模型的方法世界[11]或动态模型[12],将大大减少困扰当前RL的样本效率低下,特别是因为大多数现代最先进的方法都是无模型的- 它们直接尝试从与环境的直接交互中学习策略,即,联想/习惯性学习。至关重要的是,生成模型将有助于更智能和更有效地探索大型和复杂的搜索空间,这在奖励信号稀疏,难以学习并且通常是特定于问题的情况下至关重要(这阻碍了更通用的代理的设计)。此外,世界模型将有助于设计促进长期规划的机制,例如Dyna-Q设置[12]。因此,主动推理框架为强大的基于模型的RL提供了一条有前途的道路[13]。尽管如此,学习世界模型并不容易因此,如果要实现任何好处,所采用的生成模型必须快速在线学习。虽然PAI和主动推理为生物系统行为和基于模型的RL框架提供了一个很好的故事,但大多数计算实现都是在考虑可解释性的情况下制定的(支持有意义的标记,尽管是低维,离散的状态/动作空间),但其形式是复杂的概率图形模型,不易扩展[14,15,16,17]。作为回应,已经努力通过使用由流行的错误反向传播(backprop)[20]训练的深度ANN [18,19]来扩展主动推理虽然人工神经网络代表了朝着正确方向迈出的有力一步,但对人工神经网络的一个常见批评是,在强化学习的规范性框架内使用它们的原因是,尽管它们具有概念价值,但它们几乎没有生物学相关性[21,22]。重要的是,从实践的角度来看,它们还遭受与其以后向支撑为中心的设计相关的实际问题[23]。这就提出了一个问题:一个生物动机的替代基于反向传播的人工神经网络也可以促进控制。外部世界otrt内部模型的t以可扩展的方式通过主动推理来学习?在本文中,动物和人类解决RL问题的事实,我们开发了结果,图1:ANGC直觉的示意图。智能体不断预测世界的状态,采取行动来操纵它,然后根据观察/奖励信号修正其内部模型。我们提出的神经代理代表了一个有前途的一步,朝着更好地模拟生物神经电路在面对现实世界的资源约束和限制时实现的近似,创造了发展新的理论见解的潜力 这样的见解将使我们能够设计更好地处理连续的,嘈杂的感觉模式的代理[3,24]。虽然最近提出了许多反向替代(无反向)算法[25,26,27,28,29,30,31,23],但很少有人在监督学习的背景下进行研究,在序列[32,33,34]和生成建模[35]中有一些值得注意的例外。在RL领域,除了神经进化方法[36,37]之外,工作的缺乏更有先见之明,我们的意图是通过提供一种无反向传播的推理和学习方法来缩小这一差距,我们称之为主动神经生成编码(ANGC),以驱动目标导向的代理。在我们的系统中,我们展示了一个可扩展的,生物学上合理的推理和学习过程,基于预测处理的神经生物学理论[38,39],可以导致自适应的,自我激励的行为,以平衡RL中的探索-开发权衡。需要考虑的一个关键因素是,ANGC在具有稀疏奖励的环境中提供了鲁棒性,而其他无反向传播的方法(如神经进化[36,37])则难以实现。1为了评估ANGC1很难确定一个强大的编码解决方案/方案,以及一个有效的育种策略的基础遗传算法。这样的设计选择在该方法的成功中起着很大的作用。+v:mala2255获取更多论文3······-你好E∗←W←←^∈R∈R我的 天算法1NGC模型输入:样本(xi,xo)(来自感觉流),β,βe,γv,γe,η,K,Θ,φAgA的选择,以及c=10−6函数P_R(xi,Θ)//通过模型直接投射<$zL=xi对于l=L−1to0,从Θ,<$z A=gA(WA+1<$φA+1(<$zA+1))得到WA+1返回0函数INFER(xi,xo,Θ)//在K步上模拟刺激呈现时间z0=xo,z1=0,,zA=0,,zL=xie0=z00,e1=0,,eA=0,,eL=0对于k= 1到K,//给定错误单元的当前值,纠正潜在状态对于l= 1到L,从Θ得到EA,zA←zA+β(−γvzA−eA+(EA<$eA−1)+<$(zA)d映射到方程n。2//计算逐层预测和误差神经元值对于l=L−1to0,一个+1一个+1一个+1A1AA A从Θ,<$z得到WA+1=gA(Wφ(z),e=2βe (φ(z)−<$z)d方程1Λ={z0,z1,···,zA,···,zL},E={e0,e1,···,eA,···,eL−1}返回Λ,E函数UPDATEWEIGHTS(Λ,,Θ)//在给定状态和错误神经元的情况下调整突触权重对于l= 1到L,(WA,EA)从ΘWA=eA(φA+1(zA))T,||2+ cе|| 2 +cе 、WA←EA=γ(e||El|| 2 +cеEWA←WA+η<$WA,EA←EA+ηEAd也可以使用Adam或RMSpropWA2Wl||2 + cе||2+cе ,EA2El||2 +cе||2+cеd(WA,EA)的电流值,单位为ΘΘ={W0,E0,W1,E1,···,WL,EL}返回rnθ^2主动神经生成编码为了指定我们提出的ANGC代理,其高级直观性如图1所示,我们首先定义用于构建它的构建块2.1神经生成编码电路神经生成编码(NGC)是最近开发的框架[35],它将预测处理[40,39]中的经典思想推广到构建可扩展的神经模型,该模型可以建模和预测静态和时间模式[33,35]。NGC模型由L层有状态神经元组成,其中每层l=0,1,.,L的活动值由向量zAJl×1(一层包含发出活动信号的JA神经元),它们处于一个无休止的猜测-然后-正确的过程中。一般来说,NGC模型然而,在这项工作中,我们设计了一个模型,将其最顶层和最底层都夹在特定的感官变量上,即,zL=xi和z0=xo,允许代理处理数据流(xi,xo),其中xi∈ RJL×1,xo∈ RJ0×1。具体地,在NGC模型中,层zA+1尝试猜测层z A +1的当前活动后值。通过使用前突触权重WA+1的矩阵生成预测向量WA,Jl×Jl+1。然后,通过相应的误差神经元集合eA将预测向量与目标活动进行比较,误差神经元集合eA简单地+v:mala2255获取更多论文4执行如下的直接失配计算+v:mala2255获取更多论文5βe∈R−∗τ. ¸x`x`x `−WEWW◦◦◦◦◦◦◦A=g.WA+1<$φA+1(zA+1)<$$>,eA=1(φA(zA)−<$zA)(1)2βA=0A=02βe2A=02βe21(φA(zA)− <$zA)。 2这个误差信号最终通过误差突触的互补矩阵EA+1 传 输 回 进 行 预 测 的 层Jl+1×Jl.鉴于以上描述,表征NGC神经电路及其关键计算的方程组为:一泄漏2βe自上而下+自下而上的压力横向项zA+1<$zA+1+β−γvzA+1−eA+1+(EA+1·eA)+(zA+1))(2)其中表示矩阵/向量乘法,φ A+1和g A是逐元素激活函数,例如,双曲正切tanh(v)=(exp(2v)1)/(exp(2v)+ 1)或线性整流器φA(v)=max(0,v)。在本文中,我们设置gA为单位元,即,gA(v)=v,对于所有层。在等式2中,对应用于状态层1 +1的校正进行加权的系数由公式β=1确定,其中τ是毫秒级的积分时间常数。 泄漏变量γ vzA使状态值随时间衰减(γ v是控制其强度的正系数)。 (zA)是侧向兴奋/抑制项,这是在层l内部的神经元之间创建竞争模式的函数[35]-在本文中,我们设置在遇到数据(xi,xo)时,模型zL=xi和z0=x0,并且等式1-2被运行K次,以便搜索内部活动值{z1,···,zL-1}(参见算法1中的INFER以了解该循环的实现)。在已经找到内部活动之后,可以使用从局部表示对准(LRA)调整的调制局部误差赫布规则来调整突触权重[23,41]:WA=eA<$(φ A(zA+1))T<$MA, 并且,ΔEA=γe(ΔWA)TΔMA其中,γe控制误差突触被调整的时间尺度(通常是范围为[0. 九,一。0)。动态调制因子MA和EA有助于模型在面对非平稳流的学习,并基于相关的非线性突触动力学的见解一旦计算出NGC权重矩阵的更新,就可以使用更新规则,如随机梯度上升,Adam [42]或RMSprop [43](参见算法1中的UPDATEWEIGHTS,以了解如何具体实现梯度上升)。NGC模型试图最小化的在线目标被称为总差异[44],从中可以导出误差神经元,状态更新表达式和局部突触调整[41,35]。 总差异目标,也可以解释为自由能[45]专用于利用任意前向和错误突触布线路径[41]的有状态神经模型的情况,可以以许多形式表示,包括局部密度函数的线性组合[35]或局部距离函数的总和[33]。在本研究中,我们用于推导上述表达式的总差异的形式是距离的线性组合函数:L(Θ)=<$L−1L(zA,<$zA)=<$L−11||(zA−<$zA)||2=L−11||eA||二、算法1将上面给出的所有方程和相关细节放在一起来描述推理以及在从数据流处理(xi,xo)的完整NGC模型下学习请注意,该算法将模型处理分解为三个例程INFER()简单地是先前描述的K步骤,以在给定箝位数据的情况下找到潜在状态活动的合理值,并且UPDATEWEIGHTS()是用于在使用INFER()之后一旦已经找到状态活动就调整突触权重参数的互补过程。P_ROCKS()是一个特殊的函数,它专门将数据x_i固定到最顶层,并通过NGC架构定义的底层有向图直接投射此信息-该例程本质上是[ 35 ]中定义的祖先采样过程的变体,但接受固定输入模式,而不是从先验分布中提取的图2a以图形方式描绘了每层具有2个神经元的三层NGC模型2.2推广到主动神经编码给出了上一节中NGC构建块的定义,我们现在将注意力转向包含操作的泛化ANGC是建立在一个代理适应其[2]可以用-1代替1,即,可学习的横向调制矩阵,e[35]以“以人为本”为原则,以“以人为本”为原则。 我们推迟使用精确的重量为未来的工作。+v:mala2255获取更多论文6不不联系我们∈Ree(a) NGC电路(b)ANGC代理架构。图2:NGC电路(左)和高级ANGC架构,同时具有控制器和发生器(右)。绿色菱形表示错误神经元,空心矩形表示状态神经元,实心箭头表示单个突触,点划线箭头表示直接复制信息,空心圆圈表示兴奋信号,实心正方形表示抑制信号。通过平衡(至少)两个关键量之间的权衡来这意味着我们的智能体不断地跟踪它在给定时间步(驱动探索)遇到的观察结果有多令人惊讶的度量,以及它朝着目标前进的度量实际上,最大化这两项的总和意味着智能体将寻求最“令人惊讶”的形式上,这意味着我们的ANGC代理将最大限度地提高以下方面:rt= αe re+ αi ri= rin+ rep(三)t t t t其是可以被分解成工具(或目标导向)信号r的奖励信号不以及认知(或探索/信息最大化)信号REPt.每个分量信号是由重要性因素控制,αe为认知项,αi为工具项,以及由生成模型(re驱动rep)或外部模型产生的原始内部信号。t t目标引导信号(ri以驱动r进入)。t t请注意,虽然我们选择将探索-开发权衡的主动推理视图解释和表示为(多巴胺)标量,但我们的目标(特别是仪器信号)并不限于此方案,并且可能包含更复杂函数的编码,例如(目标)状态上的(先验)分布函数[3]这种普遍性是由完全类定理[47,48,49]提供的,它说,对于任何一对奖励函数/偏好和选择行为,存在一个先验信念,使贝叶斯选择最优。理解完整类定理的理论支持意味着我们的ANGC框架,尽管它致力于一种特定形式的神经处理(为模拟提供具体的实现),可以根据贝叶斯决策过程来写,即使我们提出的形式没有明确这样做 在等式3中,我们注意到我们的主动推理公式与最近流行的外在/内在奖励的使用很好地结合起来,以促进“好奇心驱动的学习”[50,51]。如图2b中的架构图所示,本文中我们的ANGC代理的实现是两个NGC电路的耦合NGC发生器一旦发生器的最高潜在状态被箝位到当前D维观测值otD×1和控制器当前选择的动作at(A个可能动作中的一个)的A中取一编码,即,at0,1A×1,生成器尝试预测环境的下一个观测值ot+1。使用在算法1中定义的例程INFER,具有参数Θ g的生成器搜索潜在状态活动的良好集合以解释输出xi=[at,ot+1],其中[·,·]指示以下的向量级联:3如果奖励被视为对数先验,即,p(o)≠ exp(r(o))[46],则p(o)的其他选择是可能的。z2=xi1z1z1z00z0=x0发生器的tRi不Rt控制器tt的tRe不otot+1环境+v:mala2255获取更多论文7E{···}不2一^^不^ ^您的位置:∈RÆ2不Æ2ot和at。 一旦发现了潜在活动,生成器就通过算法1中的例程U PDATE W EIGHTS更新其突触。发电机在推动ANGC代理进行勘探方面发挥着重要作用。具体地,随着生成器逐渐学习如何合成未来的观测,嵌入在每一层的误差神经元的当前活动,即,=e0,e1,,eL,用于产生认知调制项。形式上,这意味着计算探测信号如re=A||eA||2,我们观察到v e是跨层求和的结果,也是跨层求和的结果,误差神经元向量的相应维度。[4]认知项rep=αe re与t t工具项rin=αi ri,即,外部产生的标量信号(由环境或由t t另一个神经系统),以根据等式3将智能体引导到目标状态。然后,最终值r t随后用于调整在以下子部分中描述的控制器。NGC控制器的最高潜在状态被箝位到第t个观测值,即,xi=ot,则具有参数Θc的控制器将生成完全回报信号rt的预测。具体地,在任何时间步,给定目标标量(由环境和发生器产生),控制器还将使用算法1中定义的INFER例程来推断一组合适的潜在活动。由于NGC控制器的输出层将为智能体可能采取的每个可能的离散动作估计潜在的奖励信号(这在许多现代Q学习设置中是典型的),因此一旦获得标量值r t,这是通过首先将动作编码为A中的1向量at(这是通过算法2中的TOONEHOT函数调用来完成的),计算未来折扣奖励的自举估计dt+1=PR0T(0t+1,Θc),并且最后检查下一个观察是否是终端。具体地,根据以下等式计算目标向量tt=ttat+(1-at)ΔPR0 T(ot,Θc)(4)其中目标标量tt根据以下逻辑表达式创建(ot是终末→ t t= r t)(ot不是终末→ t t= r t+ γ max PR0R(ot+1,Θc))。(五)一旦tt已经准备好,我们可以运行控制器以使用INFER来找到其针对〇t和t tt的潜在活动,并且经由UPDATE W EIGHTS例程(来自算法1)来计算局部权重更新。此外,观察到等式5中的第二子表达式涉及重新使用控制器来估计未来观测/状态的(奖励)值,即,γmax为PROOT(0t+1,Θc)项。然后,该特定项可以用代理项γmaxaPR0R(0t+1,Θc)替换,以实现[52]中提出的目标网络稳定性机制,其中Θc是“目标网络稳定性”的参数。在仿真开始时初始化为Θ c的值,并且每通过Polyak平均Θc= τ cΘc+(1 − τ c)Θc计算的C跃迁。ANGC代理:将其全部放在一起在高级别上,所提出的ANGC框架规定了上述控制器和生成器模块的联合交互在每个时间步,给定观察/状态tD×1(可以包含连续或离散变量),智能体将在t5执行离散动作,并从其环境接收其动作的结果观测值t+1以及可能的外部奖励信号rep。控制器负责决定下一步采取什么行动,而生成器主动尝试猜测代理环境的(下一个)状态。在采取行动时,生成器生成器无法准确预测t+1的传入感觉样本将用于引导代理以最终降低其(长期)可预测性的方式探索其环境,从而提高控制器完整的ANGC代理在算法26中指定,并在图2b中以图形方式描绘。注意,算法2在E -片段长流(其中每个片段最多为T步长-注意,T可以变化)上实现代理的推断和突触调整的完全模拟4观察到该项与发电机的总偏差成比例,即,re=0||e|| 10L(Θg)。在这项研究中,我们专注于离散的行动,并为未来的工作留下了连续行动的推广6请注意,E[l]表示“检索E”中的第l项。5+v:mala2255获取更多论文8M←不不.=--E ←EM我算法2在E集(最大长度T)的环境下的ANGC总差异过程输入:环境S、控制器Θc、发生器Θg、双端存储器、E、T、αe、αi、α衰变、γ和γ函数SIMULATEPROCESS(S,E,T,Θc,Θg,M,αe,αi,θ e,θ edecay)最大值= 1对于e= 1到E,otoo0from Sd从环境对于t= 1到T,//根据一个贪婪策略的示例动作at.dt=PROJECT(ot,Θc),pU. (0,1)p→atUd(1,A),at=TOONEHOT(at)∧p≥0 →at= arg maxadt//从环境计算组件奖励信号中(re,ot+1)←S(at),(A,E)=INFER([at,ot],ot+1,Θg)ri=0||E[l]||2,ri=max(ri,ri ),ri←ri,r=αre+αriRtA2Maxt maxtItMaxetit//将样本的转换和更新权重存储在内存将(ot,at,rt,ot+1)存储在M(oj,aj,rj,oj+1)Md从存储器采样小批量转换trjifoj is terminaljrj+γmaxaPROJECT(oj+1,Θc) 否则aj=TOONEHOT(aj),tj=tjaj+(1aj) PROJECT(oj,Θc)//更新控制器Θc(Λc,c)=INFER(oj,tj,Θc),ΘcUPDATEWEIGHTS(Λc,c,Θc)//更新生成器Θg(Λg,Eg)=INFER([aj,oj],oj+1,Θg),Θg←UPDATEWEIGHTS(Λg,Eg,Θg)最大值(0. 05、)如在剧集流的情况下那样具有时间除了在最后一小节中描述的目标控制器修改之外,我们还集成了一种简单形式的经验重放存储器[53,52](实现为环形缓冲区,其中用于训练的小批量通过随机均匀这通过消除ANGC代理遇到的观察序列中的相关性来稳定学习过程3实验我们提出的ANGC代理的性能进行评估,在强化学习(RL)中常用的三个控制问题和一个基本的机器人控制模拟。具体来说,我们将我们的ANGC与随机代理(其中每一步的行动都是随机的)和深度Q网络(DQN)的几个变体[52]进行了比较:1)倒立摆(cartpole)问题,2)山地车问题3)月球着陆器问题,以及4)机器人到达问题。附录中提供了与每个控制问题有关的具体细节3.1训练设置ANGC代理设置:对于所有试验中的所有ANGC代理,我们对每个控制任务使用固定的元参数配置。我们在附录中提供了为所有代理和基线的元参数选择的关键值(基于初步实验)。对于所有ANGC药物,α e=α i=1。0被用来设置认知信号和工具信号的重要性因子。控制器和生成模型都是使用单个共享经验重放缓冲器进行训练的,该缓冲器具有最大容量的N个批量转换,从该缓冲器中采样N个批量转换的小批量,以便在每个模拟的任何单个时间步处计算参数更新。每个代理都使用了一个贪婪策略,在每个情节结束时,根据以下规则衰减:05,衰减)(在每次试验开始时,起始衰减=1R+v:mala2255获取更多论文9√−−(a) 倒立摆。(b)山地车。(c)月球着陆器。图3:ANGC、DQN和随机的奖励曲线。绘制10次试验的平均值和标准差。水平(灰色)虚线表示问题解决方案的阈值。DQN、Dueling DQN和Entropy-DQN代理设置:对于DQN和Dueling DQN(Duel-DQN)代理,我们最初以90%的探索和10%的剥削(Entropy = 0)开始。9)并最终开始衰减,直到达到10%的勘探条件,即,90%的剥削率(= 0. ①的人。贴现因子γ= 0。99用于所有DQN,除了山地车,根据经验,γ= 0。001对于更深的模型产生了更好和稳定的结果。对于熵DQN(Ent-DQN),我们在损失函数中添加了熵奖金,以促进更好的探索,灵感来自[54]。采用线性校正器作为激活函数,Adam用于更新权重值,每个W_A根据由下式缩放的中心高斯来初始化:二、0/(JA1+JA)。 回放缓冲区大小,学习率,隐藏维度和层数都进行了调整-隐藏层大小从[32,256]的范围内选择,层数从[1,2,3]中选择。在附录中,我们提供了用于每个DQN的最佳配置3.2结果在图3和图4中,我们将累积奖励可视化为发作计数的函数,通过将移动平均奖励绘制为发作计数的函数来平滑曲线,即,µ t= 0。1r t+ 0. 9µt1.结果平均超过10次试验,图中显示了试验平均值(深色中心曲线)和标准偏差(浅色包络线)。在每一个情节中,水平点划线表示完全解决每个任务的阈值。从我们的奖励在所有三个控制基准中,ANGC代理不仅与基于反向传播的深度Q学习竞争,而且能够更早地从模拟事件中学习好的策略这突出了我们的ANGC框架设计代理的价值至关重要的是,观察到ANGC代理能够有效地解决涉及极其稀疏的奖励(或几乎不存在的奖励信号)的控制问题,如其(a) 机器人手臂到达任务。图4:机器人手臂到达问题的结果。+v:mala2255获取更多论文10不早期山地车表现强劲和机器人的问题,这可以说是最困难的问题,在这项研究中检查我们认为,ANGC换句话说,ANGC代理被驱动去探索最令它惊讶的状态,这意味着它对产生最高幅度总差异(或间接地,最大自由能)的状态最该功能为主动推理框架提供了一个清晰的神经生成编码实现,该框架是主动推理框架的关键[16],理论上旨在鼓励更有原则和更有效的环境探索形式。此外,这个术语与好奇心驱动模型中产生的内在奖励非常相似[55],允许代理在甚至不存在外部奖励的环境中操作请注意,本研究的目的不是参与表演比赛,因为大量复杂的基于神经的强化学习方法,在许多控制任务上获得最先进的性能。相反,其目的是提出一个有前途的替代backprop的方法,并证明ANGC是简单的,流行的DQN方法的竞争力虽然我们的ANGC代理结果很有希望,但集成深度RL中通常使用的其他机制将是富有成效的下一步。由于我们的代理框架已经被证明与常用的RL算法兼容,例如经验重放和目标网络稳定性,因此集成其他算法将有助于进一步提高性能。在附录中,我们对上述控制问题进行了进一步的分析。4限制尽管建议ANGC代理框架提供的承诺,目前的实现/设计,我们提出了几个缺点。首先,如果一个人在设计NGC/ANGC模型时没有在一开始就考虑到容量,即, 选择图层和图层大小通过考虑这导致的权重的总数,非常容易创建需要大量存储器的代理ANGC代理同时使用前向生成权重和纠错权重,这意味着向模型添加额外的潜在变量层或增加任何单层的大小可能会导致所需内存的显着增加(因为这样做不仅会增加前向突触的数量,而且还会增加错误突触的数量其次,虽然我们已经证明,与几个基于DQN的模型相比,ANGC代理更早地获得了良好的策略(在从环境中动态/在线学习时大大减少了所需的数据量迭代推理自然比简单的单次前馈传递更昂贵)。虽然我们的ANGC/NGC实现只需要相对较少的步骤(通常在K= 10和K= 20之间),但对于更高维度的更复杂模式,在更新智能体的突触权重之前,可能需要更大的K来解决有用的神经活动人们可以考虑为摊销推理设计算法预测稀疏分解[56]。解决这个计算问题的另一个重要方法是设计软件和硬件,充分利用NGC/ANGC的推理和学习计算所固有的逐层并行性虽然我们检查的问题难度不同,并且对于大多数强化学习模型来说确实具有挑战性(山地车,尽管它的维度很低,很简单,但事实上,即使对于现代强化学习系统来说也是一个非常具有挑战性的问题,因为它在其当前形式中,ANGC框架在没有首先设计解决以下问题的一些附加组件的情况下将不能很好地扩展:1)生成模型当前通过将t作为输入来然后预测t+1来操作,这意味着随着观察空间的维度增加(如将在大图像像素馈送的情况下发生的),生成模型的输入和输出大小也将增加(这些维度将相对于维度线性地扩展)-[13]-+v:mala2255获取更多论文11不并且在处理类似问题时省略编码器和解码器)。2)处理自然图像具有挑战性,并且通常需要超越完全连接的密集神经结构-ANGC很可能需要推广到局部连接权重结构和卷积运算符的情况。在这个方向上的工作[41]为卷积提供了一些潜在有用的局部更新规则,但考虑如何有效地集成卷积将是关键(以及快速决定合理数量的滤波器以获取有用的特征检测器的方法,这本身就是调整卷积神经网络的一个挑战部分)。5相关工作首先,我们的ANGC代理的构建模块与已经提出来解释大脑功能的过多预测处理计算模型相一致[40,38,57]。这为我们的模型在计算认知神经科学中提供了一个理想的基础,将其与著名的贝叶斯大脑理论以及神经生理学的既定一般原则相此外,我们的框架计算的突触调整是局部的,如果我们包括因子1/2βe(并理想地用[35]的可学习精度矩阵替换它),则对应于三因子(误差)赫布更新规则。虽然我们的NGC构建块中有许多元素阻止它作为实际神经电路的完整和适当的计算模型,例如,突触目前被允许是负的和正的,神经元用实值而不是尖峰进行通信[58],等等,它代表了朝着计算框架前进的一步,该计算框架促进了神经生物学上合理计算的可扩展模拟我们还注意到,我们的实现进一步做出了几个设计选择,为了计算速度,因此只代表一个可能的实现预测处理广义的动作驱动适应动态环境。然而,尽管有这些限制,我们的ANGC框架提供了一条通往可行的神经代理的有前途的道路,这些神经代理无需反向传播即可学习,不再受算法实际上,人们可以利用高性能计算提供的并行性来潜在地模拟非常大的不可微神经电路,因为我们的NGC模块提供自然的逐层并行计算,并且不会遭受困扰反向传播的前向和后向锁定问题[60]。此外,我们的ANGC有助于创建更多基于生物动机的模型,并基于强化学习[61,62,63]和运动控制更新规则其次,我们整体ANGC代理设计的关键是新颖性或惊喜的概念[64],这为我们的神经系统提供了一种探索均匀随机抽样方案之外的环境的方法这将我们的ANGC框架与RL模型家族联系起来,这些模型被设计用于生成内在的奖励信号[65,66,67,68],这些信号受到人类代理固有的好奇心心理概念的启发[69,70]。至关重要的是,好奇心为智能体提供了获得新技能的手段,这些技能可能对下游任务中的奖励最大化有用请注意,还有许多其他形式的内在奖励信号,例如基于策略熵[71,72],信息增益[73,74],预测误差[55,75],状态熵[76],状态不确定性[77]和授权[78,79]的信号由于我们的智能体采用并适应动态生成模型来产生必要的信号来驱动其好奇心,因此我们的智能体也有助于通过使用世界模型来改进基于模型的RL [11,80,81,82]。然而,现代基于模型的RL中的世界模型是通过反向传播学习的,而我们的ANGC代理使用相同的并行神经处理和无梯度权重更新作为控制器,进一步避免了学习整个系统的需要,或者使用进化来学习动作模型[11]。值得注意的是,生成世界模型在集成到强大的规划算法中时可能会很有用[83,84,85]。扩展和使用我们的ANGC最后,我们的ANGC代理框架提供了一个简单的预测处理解释主动推理和更一般的,理论规划推理。规划即推理(Planning-as-inference,PAI)[5]广泛地概括了这样一种观点,即决策代理利用内部认知模型,将代理的未来表示主动推理[16]是PAI的一个特定实例,表明代理人选择+v:mala2255获取更多论文12行动,使他们最大限度地提高内部模型的证据,也偏向代理人在等式3中,我们利用完全类定理[47]开发了两个信号的简单加权和,这两个信号对一般主动推理优化目标至关重要– 一个工具项(它驱使智能体朝着世界的目标或偏好状态前进)和一个认知项(它驱使智能体通过关注最令它惊讶的状态来搜索其环境)。虽然我们专注于标量信号,这可能是多巴胺神经元放电率中体现的误差函数的组成部分[86,87,88],但可以使用目标状态,先验或其他功能的编码,这些功能可以促进ANGC代理中更复杂的行为和长期规划神经过程理论也被开发用于主动推理[89,90],这可以用于进一步修改我们的框架,以实现更大的神经生物学可解释性。6结论在本文中,我们提出了主动神经生成编码(ANGC),一个框架,学习目标导向的代理没有反向传播的错误。我们在强化学习中的四个控制问题上证明了我们的代理框架对于学习模型的有效性,这些模型与流行的基于反向传播的模型(如深度Q网络)具有竞争力。值得注意的是,我们的框架证明了利用神经生成编码的神经生物学基础学习和推理机制来动态地适应生成模型的价值,该生成模型提供内在信号(基于总差异)以增加特定于问题的外在奖励。此外,由于其更好的样本效率,我们的实验表明,ANGC框架可以证明在更复杂的环境中是有用的,提供了一个重要的手段,实现规划推理。引用[1] C. D. Spielberger和L.M. Starr,221[2] D. E. Berlyne,153号不行第3731页25[3] Y. Niv,139[4] A. Solway和M.M. Botvinick,心理学评论,卷。119,不。1,p.120,2012年。[5] M. Botvinick和M.杜桑,号1610,pp.485[6] K. 弗里斯顿,J.Mattout和J.Kilner,137[7] A. Tschantz,A. K. Seth和C. L.巴克利,PLoS计算生物学,第16卷,第4期,第e1007805页,2020年。[8] 诉Mnih,K.Kavukcuoglu,D.Silver,A.格雷夫斯岛Antonoglou,D.Wierstra和M.Riedmiller,[9] D. 西尔弗,T。Hubert,J.施里特维泽岛Antonoglou,M.Lai,黑腹滨藜A.Guez,M.兰托特湖Sifre,D.库马兰,T. Graepel等人,1140[10] K. Arulsanaran,M.P. Deisenroth,M.Brundage和A.A. Bharath,[11] D. Ha和J. Schmidhuber,[12] R. S. Sutton,Elsevier,1990,pp. 216-224[13] A. 钱茨湾Millidge,A.K. Seth和C.L. Buckley,arXiv预印本arXiv:2002.12636,2020。[14] K.弗里斯顿,F. Rigoli,D.奥尼贝内角Mathys,T. Fitzgerald和G. Pezzulo,187+v:mala2255获取更多论文13[15] K. 弗里斯顿,T。FitzGerald,F.Rigoli,P.Schwartenbeck和G.Pezzulo,神经计算,第29卷,第1期,页。1[16] K. J. 弗里斯顿湾林角,澳-地D. Frith,G.Pezzulo,J.A. Hobson和S.Ondobaka,2633[17] K. J. 弗里斯顿河Rosch,T.帕尔角Price和H.Bowman,神经科学生物行为评论,卷。90,pp.486[18] K. Ueltzhöffer,112号不行第6页。547[19] A. Tschantz,M.Baltieri,A.K. Seth和C.L. Buckley,IEEE,2020年,第一比八[20] D. E. Rumelhart,G.E. Hinton和R.J. Williams,Nature,vol. 323,no. 6088,pp. 533[21] B. M. 湖,T。D. Ullman,J.B. Tenenbaum和S.J. Gershman,[22] A. M. Zador,自然通讯,卷。号101,pp.2019年1[23] A. G. Ororbia和A.马里,33,2019,pp.4651-4658[24] I. Rahwan,M. Cebrian,N. Obradovich,J. Bongard,J. F.博纳丰角Breazeal,J.W. Crandall,N. A.克里斯塔基斯岛D. Couzin,M. O. Jackson等人,477[25] J. R. Movellan,Elsevier,1991,pp. 10-17[26] R. C. O’Reilly, “Biologically plausible error-driven learning using local activation differences: Thegeneralized recirculation algorithm,” 895[27] D.- H.李,S。Zhang,中国古柏A. Fischer和Y. Bengio,施普林格,2015年,第498-515[28] T. P. Lillicrap,D.Cownden,D.B. Tweed和C.J. Akerman,[29] B. Scellier和Y.Bengio,[30] J. Guerguiev,T.P. Lillicrap和B.A. Richards,[31] J. C. Whittington和R.Bogacz,29岁不5,pp.1229[32] S. Wiseman,S.Chopra,M.Ranzato,A.斯拉姆河孙习Chintala和N.Vasilache,[33] A. Ororbia,A.马里角L. Giles和D.Kifer,[34] N. Manchev和M.W. Spratling,Journal of Machine Learning Research,vol. 21,no. 7,pp. 1[35] A. Ororbia和D. Kifer,[36] F. P. 这样,V。Madhavan,E.Conti,J.Lehman,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功