基于模型和无模型混合的强化学习用于视觉和语言导航任务

141 浏览量更新于2023-10-13 收藏 2.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

三思而后行：桥接无模型和基于模型强化学习用于规划的视觉和语言导航XinWang，WenhanXiong，Hongmin Wang，William Yang Wang加州大学圣巴巴拉{xwang，xwhan，hongminwang，william}@ cs.ucsb.edu抽象。现有关于机器人导航的视觉和语言基础的研究集中在改进合成环境中的无模型深度强化学习（DRL）模型。然而，无模型DRL模型不考虑真实世界环境中的动态，并且它们通常不能推广到新的场景。在本文中，我们采取了一种激进的方法来弥合综合研究和现实世界的实践之间的差距，我们提出了一种新的，计划提前混合强化学习模型，结合无模型和基于模型的强化学习来解决现实世界的视觉语言导航任务。我们的前瞻模块将前瞻策略模型与预测下一个状态和奖励的环境模型紧密集成。实验结果表明，我们提出的方法显着out-performs的基线，并实现了最好的现实世界的房间到房间的数据集。此外，我们的可扩展方法在转移到看不见的环境时更具有普遍性。关键词：视觉和语言导航，第一人称视角视频，基于模型的强化学习1介绍对于一个人来说，遵循“走在外面的门旁边，走在房间对面的椅子后面”的指示是相当琐碎的。向右转，走上楼梯……”，但教机器人用这样的指令导航是一项非常具有挑战性的任务。复杂性不仅来自指令的语言变化，而且来自具有丰富动态的真实世界环境的嘈杂视觉信号。通过视觉和语言基础的机器人导航也是计算机视觉和人工智能的基本目标，并且它也有利于许多实际应用，例如家用机器人，危险消除和个人助理。视觉与语言导航（VLN）是训练具有第一人称视角的具身智能体进行自然语言同等贡献2X. Wang等人（一）（二）（三）(4)（五）（六）走在外面的门旁边和椅子后面穿过房间。向右转，走上楼梯。停在第七步。图1：我们的任务的例子具体化的代理学习通过房间导航，并通过遵循自然语言指令到达目的地（绿色红色和蓝色箭头将图片中描绘的方向与相应的句子相匹配。在现实世界中的应用[3]。图1展示了VLN任务的示例，其中代理通过分析视觉场景并遵循自然语言指令来向目的地移动。这与其他一些视觉语言任务不同，在这些视觉语言任务中，视觉感知和自然语言输入通常是固定的（例如，视觉提问）。对于VLN，智能体可以与现实世界的环境进行交互，并且它感知到的像素随着它的移动而变化。因此，智能体必须学会根据其对世界的感知和对自然语言指令的理解将其视觉输入映射到正确的动作。虽然机器人的自然语言命令已经取得了稳步进展[5，16，41，21]，但它仍然远远不够完美。以前的方法主要采用无模型强化学习（RL），通过直接将原始观测映射到动作或状态动作值来训练智能代理。但无模型强化学习不考虑环境动态性，通常需要大量的训练数据。此外，它们中的大多数仅在合成而不是真实世界环境中进行评估，这显著简化了噪声视觉语言感知问题，以及随后的真实世界中的推理然而，值得注意的是，当人类按照指示行事时，他们并不仅仅依赖于当前的视觉感知，还可以想象环境会是什么样子，并在实际执行一系列行动之前在脑海中提前计划例如，在棒球比赛中，接球手和外场球员经常预测球将行进的方向和速度，因此他们可以提前计划并移动到球的预期目的地受此启发三思而后行3事实上，我们寻求基于模型的RL [22，36]的最新进展的帮助来完成这项任务。基于模型的强化学习试图学习一个可用于模拟环境的模型，并进行多步规划。通过内部环境模型来预测未来并提前计划，智能体可以从规划中受益，同时避免在真实环境中进行一些尝试和错误。因此，在本文中，我们提出了一种新的方法，提高了视觉和语言导航任务的性能，加强规划提前（我们称之为RPA）。更具体地说，我们的方法，第一次，赋予智能VLN代理与环境模型来模拟世界和预测未来的视觉感知。因此，代理可以实现直接映射从当前的实际观察和规划的未来观察在同一时间，然后执行一个动作的基础上。此外，我们选择真实世界的房间到房间（R2R）数据集作为我们的方法的测试床。我们的无模型RL模型显著优于R2R数据集中报告的基线方法。此外，由于配备了前瞻模块，我们的RPA模型进一步改善了结果，并在R2R上取得了最佳数据集。因此，我们的贡献有三个方面：– 我们是第一个将无模型和基于模型的DRL结合起来进行视觉和语言导航的公司。– 我们提出的RPA模型显著优于基线，并在现实世界的R2R数据集上达到最佳效果。– 我们的方法更具可扩展性，其强大的泛化能力使其能够比无模型RL方法更好地转移到看不见的环境中。2相关工作视觉、语言与导航近年来，视觉与语言的交叉研究引起了人们的广泛关注。许多工作[38，31，15，9，40，34，33，32]已经在视觉输入条件下的语言生成中完成还有另一种工作[14，4]试图从图像中回答问题视觉语言基础的任务[30，2，1]与我们的任务更相关，这需要将语言语义与环境的物理属性联系起来的能力。我们的任务需要同样的能力，但更多的是任务驱动。在我们的任务中的代理需要顺序地与环境交互，并完成由语言指令指定的导航任务。机器人导航的早期方法[17，6，7，23]通常需要事先的全局地图或需要在运行中构建环境地图。这些方法中的导航目标通常直接在地图中注释。与这些工作相比，VLN任务更具挑战性，因为不需要全局地图，并且目标不直接注释，而是通过自然语言描述。在这种情况下，最近已经提出了几种方法。Mei等人。 [20]提出了一种序列到序列模型，将语言映射到导航动作。Misra等人。 [21]将导航公式化为顺序决策过程，并建议使用奖励整形来有效地训练RL代理。在相同的环境下，Xiong et al. [37]提出有计划的培训机制4X. Wang等人这产生更有效的探索并实现更好的结果。然而，这些方法仍然在合成环境中操作，并且考虑简单的离散观察输入或不切实际的环境的自顶向下视图。基于模型的强化学习使用基于模型的强化学习进行规划是强化学习中一个长期存在的问题最近，神经网络的强大计算能力使得学习神经模型来模拟环境变得更加现实但是对于模拟器不暴露于代理的更复杂的环境，基于模型的RL通常会遭受学习和真实环境之间的不匹配[12，28]。为了解决这个问题，RL研究人员正在积极致力于结合无模型和基于模型的RL [27，39，29，26]。最近，Oh et al. [22]提出了一个价值预测网络，其抽象状态被训练来预测未来的值，而不是未来的观察结果，Weber等人[36]引入了一个想象增强的代理来构建隐含的计划和解释预测。我们的算法共享相同的精神，并来自这些方法。但是，我们不是在游戏上进行测试，而是第一次将基于模型和无模型的RL结合起来，用于现实世界的视觉和语言任务。Pathak等人的另一项相关工作。[24]也学会了在推出期间预测下一个状态。基于状态预测来计算内在奖励。而不是诱导额外的奖励，我们直接将状态预测纳入政策模块。换句话说，我们的智能体在做出行动决策时会考虑未来的预测。3方法3.1任务定义如图1所示，我们考虑一个具体的代理，学习遵循自然语言指令，并在现实的室内环境中导航具体地，给定年龄的初始位置p〇=（v〇，φ〇，θ〇），其中包括位置、航向和仰角，以及自然语言指令（单词序列）X={X1，X2，… xn}，则期望代理选择动作序列{a1，a2，… 并且到达由语言指令X指定的目标位置v_target。动作集合A由六个唯一动作组成，即左转、右转、摄像机朝上、摄像机朝下、向前移动并停止。在为了在每个时间步计算出期望的动作，代理需要有效地将语言语义与其关于环境的视觉观察相关联这里，观察点是由安装的相机捕获的原始RGB图像代理的性能通过成功率Psucc（代理正确遵循的测试指令的百分比）和最终导航误差Enav（与目标位置的平均最终距离）来评估三思而后行5(a)RPA体系结构(b)前瞻模块走在门外和椅子后面{wi}St阿CNNStrs{wi}a...rsCCCa无模型路径基于模型的路径rs的t前瞻轨迹r前瞻模块前瞻模块编码器动作预测器循环策略模型聚集前瞻模块语言编码器环境模型前瞻政策编码器环境模型前瞻政策编码器环境模型前瞻政策图2：我们的方法的概述。3.2概述考虑到VLN任务的顺序决策性质，我们将VLN制定为强化学习问题，其中代理顺序与环境交互并通过试错进行学习。一旦行动被采取，代理从环境接收标量奖励r（at，st）。年龄的影响由一个近似的概率函数π（θ）来确定训练目标是找到最大化折扣累积奖励的最佳参数θ最大Jπ=EΣΣTΣγt−1r（a，s）|π（o; θ）、（1）θt=1不t t其中γ∈（0，1）是反映未来奖励重要性的贴现因子。我们将策略函数建模为序列到序列神经网络，其编码语言序列X={x1，x2，...，xn}和图像帧O ={〇1，〇2，…〇T}，并解码动作序列{al，a2，…aT}。基本模型由一个语言编码器组成，它将指令X编码为单词特征{w1，w2，...， wn}，提取高级视觉特征的图像编码器，以及一个循环策略网络，解码动作并循环更新其内部状态，该网络应该对先前动作和观察的历史进行为了通过提前规划来加强代理并进一步提高模型的能力，我们使用了环境模型来考虑未来预测，从而在时间和时间两个方面都采用了合适的管理模型。如图2（a）所示，在每个时间步t，递归策略模型将单词特征{wi}和状态si作为输入，并产生用于最终决策的信息，其本身形成无模型路径在6X. Wang等人JJSt的t环境模型f跃迁f项目f报酬sr图3、环境模型。此外，基于模型的路径利用多个前瞻模块来实现前瞻规划，并想象可能的未来轨迹。动作预测器基于来自无模型路径和基于模型路径两者的信息来选择最终动作因此，我们的RPA方法无缝集成了无模型和基于模型的强化学习。3.3前瞻模块RPA方法的核心组件是前瞻模块，其用于设想从当前状态开始提前规划多个步骤的后果。为了增强智能体的想象力，我们引入了环境模型，该模型根据当前的状态对未来进行预测。由于直接预测原始RGB图像〇t+1是非常具有挑战性的，因此我们的环境模型反而尝试预测表示高级视觉特征的抽象状态表示st+1图2（b）展示了前瞻模块的内部过程，其由环境模型、前瞻策略和轨迹编码器组成。给定步骤t处的现实世界的抽象状态表示st，前瞻策略1首先将st作为输入并输出想象的动作a’。我们特环境模型接收状态st和动作at，并预测对应的奖励r’和下一个状态s’。那么前瞻政策将不采取进一步行动a't+1′基于预测状态S. 环境t+1′′电话+1模型将做出新的预测{rt+1，st+2}。这个前瞻性的计划m步，其中m为预设轨迹长度。我们使用LSTM沿着前瞻轨迹对所有预测的奖励和状态进行编码，并输出其表示τ’。如图2（a）所示，在每个时间步长t，我们的基于模型的路径操作J个前瞻过程，并且我们获得前瞻轨迹对于每个（j = 1，…J）。这些J前瞻轨迹是然后聚集（通过级联）在一起并作为基于模型的路径的信息传递给动作预测器。1在所有实验中，我们采用无模型路径中使用的循环策略作为前瞻三思而后行7t=1不不R=f{wi}*{αt，i}关注stst+1st+2st+3st+4st+5CtCt+1Ct+2Ct+3Ct+4Ct+5ht-1htLSTMLSTMht+1LSTMht+2LSTMht+3LSTMht+4LSTM关注模块at-1atat+1at+2at+3at+4停止图图4：展开的经常性政策模型示例（从t到t+5）。左侧黄色区域展示了时间步长t处的注意机制。3.4模型在这里，我们进一步讨论了我们的方法中的可学习模型的架构设计，包括环境模型，循环策略模型和动作预测器。环境模型给定当前状态st和代理，环境模型预测下一个状态s′和奖励r′。如图3所示，投影函数f_proj首先将st和a_t连接起来，然后将它们投影到相同的特征空间中。然后将其输出馈送到过渡函数ftransition和奖励函数freward中，以获得′t=1 和r′。在公式中，s′=f（f（s，a））（2）电话+1过渡projt t′t奖励（fproj（st，at））、（3）其中f_proj、f_transition和f_reward都是可学习的神经网络。具体地，f_proj是线性投影层，f_transition是具有S形输出的多层感知器，并且f_reward也是多层感知器，但直接输出标量奖励。我们的循环策略模型是一个基于注意力的LSTM解码器网络（见图4）。在每个时间步t，LSTM解码器通过考虑单词特征{wi}的上下文、环境状态st、前一个动作at−1及其内部隐藏状态ht−1来产生动作at。注意，可以直接将编码的单词特征{wi}作为LSTM解码器的输入。相反，我们采用了一种注意力机制，以更好地捕捉语言教学中的动态，并动态地将更多的注意力放在有利于当前动作选择的单词图4的左侧是LSTM解码器的演示注意模块。在每个时间步长t处，上下文向量Ct被计算为加权的S8X. Wang等人对编码的单词特征{wi}求和ΣCt=αt，iwi .（四）这些注意力权重{αt，i}通过在解码器的结果为us时给出更高的权重来充当对齐机制，并且α=Σexp（et，i），其中e=hw.（五）t我nk=1 exp（et，k）t我t−1iht-1是在prev i ou s t ep时的解码器隐藏的数据。一旦获得了上下文向量ct，就将[ct，st，at-1]的级联作为解码器的输入馈送，以产生用于预解码器使用的中间无模型特征。通常，ht= LSTM（ht−1，[ct，st，at−1]）。（六）输出向量是LS TM的输出向量和上下文向量Ct的一致性，其将被传递到动作预测器以用于做出决定。但是，如果循环策略模型被用作个体策略（例如，前瞻策略），则它基于[ht;ct]直接输出动作at请注意，在我们的模型中，我们将上下文向量ct馈送到LSTM和输出后验，这比单独将其馈送到输入中提高了性能。动作预测器动作预测器是一个多层感知器，最后一层是Soft- Max层给定来自无模型路径和基于模型路径两者的信息作为输入，动作预测器生成动作空间A上的概率分布。3.5学习整个系统的训练过程分为两步：首先学习环境模型，然后学习增强的值得注意的是，环境模型和策略模型都有自己的语言编码器，并分别进行训练。环境模型将在策略学习期间固定。环境模型学习理想情况下，前瞻模块预计将为智能体提供对未来观察和奖励的准确预测如果环境模型本身是嘈杂的，它实际上可以提供误导性的信息，并使训练更加不稳定。在这方面，在我们插入前瞻模块之前，我们使用随机教师策略预训练环境模型。在此策略下，智能体将决定是否采取人类示范动作或基于伯努利元策略的随机动作，三思而后行9电话+1t −tphuman=0. 95. 尽管年龄的概率在训练期间会关闭最优轨迹策略，但通过演示策略训练的环境模型将帮助其更好地预测接近最优轨迹的转变。在另一方面，对于随机学习方法，年龄的概率在训练期间通常是随机的。让智能体在1−p人类概率下采取随机行动，就是模拟随机训练过程。我们定义了两个损失来优化此环境模型：过渡=E[（s′=E[（r′— st+1— R）2]（7））2]。（八）奖励电话+1电话+1通过联合最小化这两个损失来更新参数。使用预训练的环境模型，我们可以将前瞻模块并入策略模型。我们首先讨论了训练RL代理的一般管道，然后描述如何训练所提出的RPA模型。在VLN任务中，可以使用两个不同的监督来训练策略模型。首先，我们可以使用模拟器提供的演示动作来进行纯监督学习。在这种情况下，训练目标是简单地最大化示范行动的对数似然：Jsl= E[log（π（αh|〇; 0））]、（9）其中h是示范动作。该代理可以快速学习在所看到的场景上执行相对良好的策略。然而，纯监督学习只能鼓励智能体模仿示范路径。这潜在地限制了年龄段在非同步环境中从您的活动中恢复的能力。为了也鼓励代理探索演示路径之外的状态-动作空间，我们利用第二监督，即。奖励功能。剩余函数依赖于变量和变量在α上的作用，并且由于VLN任务的目标是成功到达目标位置，因此我们基于距离度量定义了我们的奖励函数我们将状态s与目标位置v_target之间的距离表示为D_target（s）。那么在状态st处采取动作at之后的奖励被定义为：r（st，at）= Dtarget（st）-Dtarget（st+1）。（十）它指示动作是否减少代理与目标的距离。明显地，该奖励函数仅反映特定动作的即时效果，而不是该动作的后续效果。为了计算这些，我们以折扣累积形式来计算奖励函数：ΣTR（st，at）=t′=t′γr（st′，at′）.（十一）此外，整个轨迹的成功也可以作为额外的二进制奖励。关于奖励设置的进一步细节将在实验中讨论10X. Wang等人算法1提前规划的RL训练1：θp：要学习的策略参数，θe：环境模型参数2：初始化R2R环境3：不收敛时做4：展开轨迹（，，.，）5：使用g∝θe（l转换+l奖励）更新θ e6：结束while7：对于迭代=0，M-1做8：初始化监督损失的权重wSLloss←1 9：采样一批训练指令10：s0←初始状态11：对于t= 0，MAX EPISODE LEN-1 do12：使用环境模型执行深度有界（深度= 2）卷展13：使用卷展编码器对所有这些模拟的14：在现行政策下并行采取的行动15：保存即时奖励r（st，at）和执行的动作at16.如果一切都结束了，第17章：分手18：如果结束19：结束20：计算贴现累积奖励R（st，at）21：总损失l策略=−wSLloss*Jsl−（1−wSLloss）*Jrl22：降低wSLloss：wSLloss← 0。1 + 0。9θ exp（iteration/T）23：使用gθp策略更新θp24：结束科.利用奖励函数，RL目标然后变为：Jrl=Eaπ（θ）[ΣR（st，at）].（十二）不使用REINFORCE算法中的似然比估计器，Jrl的梯度可以被写为：nθJrl=Eanπ（θ）[nθlogπ（a|s;θ）R（s，a）].（十三）有了这两个训练目标，我们可以使用混合损失函数作为在[25]中训练整个模型，或者使用监督学习来热启动模型并使用RL进行微调。在我们的例子中，我们发现混合损失收敛速度更快，并取得更好的性能。为了联合训练策略模型和前瞻模块，我们首先冻结预训练的环境模型。然后，在每一步，我们使用环境模型执行模拟的深度有界转出由于除了停止操作之外，我们还有五个唯一的操作，因此我们执行相应的五个卷展。每个路径首先使用LSTM进行编码所有路径的最后隐藏状态被连接起来，然后被馈送到动作预测器。现在，可学习的参数来自三个组件：原始的无模型策略模式、转出编码器和动作预测器。算法的伪代码如算法1所示三思而后行114实验4.1实验设置R2R数据集房间到房间（R2R）数据集[3]是真实3D环境中视觉和语言导航任务的第一个数据集R2 R数据集建立在Matterport 3D数据集[8]的基础上，该数据集由10，800个全景视图组成，这些全景视图由90个建筑物规模场景的194，400个RGB-D图像构成（许多场景可以在Matterport 3D空间画廊2中查看）。R2R数据集还对捕获数据集中大部分视觉多样性的7，189条路径进行了采样，并收集了平均长度为29个单词的21，567条导航指令（每条路径与3条不同的指令配对如[3]所述，R2R数据集分为训练集（14，025条指令）、可见验证集（1，020）、不可见验证集（2，349）和测试集（4，173）。看不见的验证集和测试集都包含在训练集中看不见的环境，而看不见的验证集与训练集共享相同的环境。我们在Matterport3D模拟器3的开源代码上开发我们的算法。ResNet-152CNN特征[13]在没有微调的情况下为所有图像在基于模型的路径中，我们为环境中的每个可能的动作执行第j个前瞻规划对应于动作集合A的第j个，并且后续动作由共享前瞻策略执行在我们的实验中，我们使用相同的政策模型训练的无模型路径作为前瞻政策。所有其他超参数都在验证集上调整。更多培训详情请参见补充材料。评估指标遵循传统智慧，R2R数据集主要通过三个指标评估结果：导航错误、成功率和oracle成功率。我们还报告了轨迹长度，尽管它不是度量。导航误差被定义为在导航图中与年龄的最终位置v T和目标vt之间的最短路径距离。成功率计算导航误差小于3m的结果轨迹的百分比。还报告了oracle成功率：使用轨迹上的最近点与目的地之间的距离来计算误差，即使代理没有在那里停止。在R2R数据集中，对于从起始位置v 〇到目标位置v_target 的每个指令序列，存在真实最短路径轨迹（最短）。该最短路径轨迹可以进一步用于监督训练。Teacher-forcing[19]使用交叉熵损失在每个时间步长训练模型，以最大化给定先前地面实况动作的下一个地面实况动作的可能性。而不是提供地面真相2https://matterport.com/gallery/3https://github.com/peteanderson80/Matterport3DSimulator12X. Wang等人表1：根据四种标准，验证集和测试集的结果：轨迹长度（TL）、导航错误（NE）、成功率（SR）和Oracle成功率（OSR）。我们列出了[3]中报告的最佳结果，其中学生强迫表现最好。我们的RPA方法显着优于以前的最佳结果，也值得注意的是，我们获得了更大的改善，-ment上看不见的集合，这证明我们的RPA方法是更普遍的。瓦尔·西恩Val Unseen测试（看不见）模型TL NE SR OSR（m）（m）（%）（%）TL NE SR OSR（m）（m）（%）（%）TL NE SR OSR（m）（m）（%）（%）最短随机逼师学生强迫十点十九分100 1009.589.4515.9二十一点四10.95 8.0127.1三十六点七11.33 6.0138.6五十二点九9.480.00100 1009.779.2316.322.010.67 8.6119.629.18.397.8121.8二十八点四9.93零点100 1009.93九点七七13.2十八点三- -8.13 7.8520.4二十六点六我们XE无模型强化学习RPA11.51 5.79 40.2 54.110.88 5.8241.9五十三点五8.46 5.56 42.9 52.68.947.9721.3二十八点七分8.757.8821.5二十八点九分7.22 7.65 24.6 31.89.37七点八二22.130.18.83 7.7623.1三十二9.15 7.53 25.3 32.5通过将动作返回到递归模型，可以基于动作空间上的输出概率对动作进行采样（Student-forcing）。在我们的实验中，我们列出了[3]中报告的这两个模型的结果作为我们的基线。我们还包括随机代理（Random）的结果，它在每一步随机采取一个动作。4.2结果和分析表1显示了我们的模型和基线模型之间的结果比较我们首先实现了我们自己的循环策略模型，该模型使用交叉熵损失（XE）进行训练。请注意，我们的XE模型在测试集上的表现优于Student- forcing模型。通过切换到无模型RL，结果略有改善。然后，我们的RPA学习方法进一步提高了性能一致的指标，并取得了最好的结果，在R2R数据集，这验证了无模型和基于模型的RL相结合的VLN任务的有效性。这里揭示的一个重要事实是，我们的RPA方法在看不见的集合上带来了显着的改进，并且改进甚至大于在看不见的集合上的改进（相对成功率在Val Seen上提高了6.7%，在Val Unseen上提高了15.5%，在Test上提高了14.5%）。而无模型RL方法在看不见的集合上获得了非常小的性能提升。这证明了我们的主张，即以可扩展的方式收集和利用数据以结合前瞻模块进行决策是容易的。此外，我们的RPA方法被证明是更普遍的，可以更好地转移到看不见的环境。三思而后行13图5：环境模型的学习曲线4.3消融研究环境模型的学习曲线为了实现我们的RPA方法，我们首先需要训练一个环境模型来预测当前状态下的未来状态，然后将其插入前瞻模块。因此，保证预训练环境模型的有效性是非常重要的。在图5中，我们绘制了训练期间环境模型的转换损失和奖励损失。显然，在大约500次迭代之后，两种损失都收敛到一个稳定点。但同样值得注意的是，奖励损失的学习曲线比过渡损失的学习曲线要嘈杂得多这是因为奖励的稀疏性。与通常更连续的状态转换不同，轨迹样本内的奖励非常稀疏并且具有高方差，因此使用均方误差来预测确切的奖励是噪声较大的。不同奖励的影响我们在实验中测试了四种不同的奖励函数。结果示于表2中。全局距离奖励函数是通过将相同的奖励分配给沿着该路径的所有动作来为每条路径定义的该奖励衡量智能体通过完成路径接近目标的程度。成功奖励是一个二元奖励：如果路径是正确的，则所有动作将被分配以奖励1，否则奖励0。折扣奖励如等式11中所定义最后，我们的最终模型使用的贴现成功奖励，基本上是将成功二进制奖励添加到最终动作的即时奖励（见等式10）然后，使用等式11计算折扣的累积奖励。在实验中，前两个奖励的有效性远远低于折扣奖励函数，该函数为不同的行为分配不同的奖励。我们认为，在每个时间步计算的折扣奖励可以更好地反映每个动作的真实价值。由于最终评估不仅基于导航误差，而且基于成功率，因此我们还观察到，将成功信息纳入奖励可以进一步提高成功率方面的性能。案例研究为了更直观地了解VLN任务中的决策过程，我们展示了RPA代理在14X. Wang等人FRFR表2：具有不同奖励定义的无模型RL的结果瓦尔·西恩Val Unseen奖励导航成功Oracle错误（%）成功(m)（%）导航成功Oracle错误（%）成功(m)（%）全局距离6.1735.545.18.2019.025.6成功6.2137.843.28.1721.326.7贴现5.7940.552.87.7420.428.5折扣成功5.8241.953.57.8821.528.9(1)（二）（三）（四）RLFL(5)（六）（七）（八）行动：：转发：对：左：停(9)（十）（十一）离开卧室进入走廊。向右转，然后走到左边的门口停在浴室中间靠近浴室水槽的地方。图图6：RPA代理执行的示例轨迹给定指令和起始位置（1），智能体在每个时间步产生一个动作。在这个例子中，我们展示了这个轨迹的所有11个步骤。图6.智能体从位置（1）开始，按照自然语言指令采取一系列动作，直到到达目的地（11）并在那里停止我们观察到，虽然动作包括向前、向左、向右、向上、向下和停止，但是向上和向下动作在结果轨迹中非常罕见在大多数情况下，即使不上下移动相机，智能体仍然可以到达目的地，这表明R2R数据集在动作分布上有其限制。5结论通过实验，我们证明了我们提出的RPA方法的优越性能，这也解决了常见的泛化问题的无模型强化学习时，应用于看不见的场景。此外，配备了前瞻模块，我们的方法可以模拟环境，并纳入想象的轨迹，使模型更具可扩展性比无模型代理。在未来，我们计划探索基于模型的RL在不同任务之间转移的潜力，即视觉和语言导航，具体问题回答[10]等。LFSFRLS三思而后行15引用1. Alomari，M.，Duckworth，P. Hawasly，M.霍格特区Cohn，A.G.：机器人操作命令的自然语言基础和语法归纳。在：为R obot ic的Lan g u a g g Ground i ng准备FirtWorkshopong。pp. 352. Alomari，M.，Duckworth，P.霍格特区Cohn，A.G.：学习物体本身-关系，空间关系，以及来自语言和视觉的具体代理的行动。In：TheAAAI 2017 Spring Symposium on Interactive Multisensory Object Percep-tionforEmboddAgentsTechnicalReportSS-17-05.pp.444-448AAAIPress（2017）3. 另外，P.， Wu，Q.，你好，D。，Bruce，J.，约翰·森，M.， Sünderhauf，N.，ReidI.Gould，S.，van den Hengel，A.：视觉和语言导航：在真实环境中解释基于视觉的导航指令。IEEE计算机视觉和模式识别会议（CVPR）。第二卷（2018）4. Antol，S.，阿格拉瓦尔，A.，卢，J，Mitchell，M.Batra，D.，Lawrence Zitnick，C.帕里克D. ： Vqa ：可视化问答。 In ： Proceedings of the IEEE InternationalConferenceonComputerVision. pp. 242 55. 在此之前，C.， Leibo，J. Z.， Teplyasin，D. ，Ward，T.，现在，M. Küttler，H.，L efrancq，A.， Green，S.，你好，你好， Sadik，A.，是的。：Deepmindlab. arXiv：1612.03801（2016）6. Borenstein，J.，Koren，Y.：快速移动机器人的实时避障IEEETransacitionsOnsystems，Man，andCybernetics19（5），11797. Borenstein，J.，Koren，Y.：向量场直方图-移动机器人快速避障。IEEETransActionsac t i onsonR oboticsandautomati on7（3），2788. Chang，A.，Dai，A.，Funkhouser，T.，Halber，M.，Nießner，M.Savva，M.，Song，S.，Zeng，A.，张毅：Matterport3d：从室内环境中的rgb-d数据学习。arXiv预印本arXiv：1709.06158（2017）9. C hen，X.， Law re nceZitni ck，C. ：Min d图像字幕生成。在：Proceedings of the IEEE conference on computervisionandpa t eter nrecognition. pp. 242210. Das，A.，达塔，S.，Gkioxari，G.，Lee，S.，Parikh，D.Batra，D.：具体问题-回答。在：IEEE计算机视觉和模式识别会议（CVPR）（2018）的论文集11. Finn，C.，Levine，S.：规划机器人运动的深度视觉预见在：机器人andAutom a tion（ICRA），2017IEEEInte rna tion a lConfer enceon. pp.2786-2793 IEEE（2017）12. Gu，S.，Lillicrap，T.萨茨克弗岛Levine，S.：持续深度Q学习基于模型的加速。国际机器学习会议（International Conference on MachineLearning）pp. 282913. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习于：IEEE计算机视觉与模式识别会议论文集。pp. 77014. Huang，T.H.K.，Ferraro，F.，Mostafazadeh，N.，米斯拉岛阿格拉瓦尔，A.，德夫林，J.，格尔希克河他，X.，Kohli，P.，Batra，D.，等：视觉故事。In：Proceedings of the 2016 Conference of the North American Chapter of theAssociation forComputtatio nalLi ng uis： HumanLa ng uageTech nologies.pp.12 3315. Karpathy，A.，李菲菲：用于生成图像去重的深度视觉语义对准铭文在：IEEE计算机视觉和模式识别会议论文集中。pp. 312816X. Wang等人16. Kempka，M. 我是M. 运行c，G.， Toczek，J.，我知道了。：Vizdoom：一个基于 doom 的人工智能研究平台，用于视觉强化学习。在：Computa-tiontelli gencendGames（CIG），2016IEEEConferenceon。pp. 一比八IEEE（2016）17. Kim，D.，内华达河：带有通用地图的符号导航自主机器人6（1），6918. 伦茨岛Knepper，R.A.，Saxena，A.：DeepMPC：学习模型预测控制的深度潜在特征。在：机器人：科学与系统（2015）19. Luong，M.T.，Pham，H.，Manning，C.D.：基于注意力的神经机器翻译的有效方法。arXiv预印本arXiv：1508.04025（2015）20. Mei，H.，Bansal，M.，Walter，M.R.：听、听、走：导航指令到动作序列的神经映射。在：AAAI。卷1，p.2（2016）21. Misra，D.K.，Langford，J.Artzi，Y.：使用强化学习将指令和视觉观察映射到动作arXiv预印本arXiv：1704.08795（2017）22. 哦J辛格，S.，Lee，H.：价值预测网络。在：神经信息处理系统进展。pp.612023. Oriolo，G. Vendittelli，M.，Ulivi，G.：自主式移动机器人之线上地图建立与导航。机器人与自动化， 1995 年。诉讼程序 1995IEEEInternationalConferenceon. vol. 第3页。 2900 -2906 02The Dog（1995）24. Pathak，D.，阿格拉瓦尔，P.，埃夫罗斯，匿名戒酒会达雷尔，T.：通过自我监督预测的好奇心驱动的探索。国际机器学习会议（ICML）第2017期（2017年）25. Ranzato，M.，Chopra，S.，Auli，M.，Zaremba，W.：递归神经网络序列级训练。arXiv预印本arXiv：1511.06732（2015）26. Silver ， D. ， van Hasselt ， H. ， Hessel ， M. ， Schaul ， T. ， Guez ， A. ，Harley，T. Dulac-Arnold，G.，Reichert，D.，Rabinowitz，N. Barreto，A.等：预测器：端到端的学习和规划。 arXiv 预印本 arXiv ： 1612.08810（2016）27. Sutton，R.S.：用于学习、规划和响应的集成体系结构动态规划的近似。在：机器学习程序1990，pp。 216- 2 24. （1990）28. Talvitie，E.：蒙特卡洛规划的不可知系统辨识。在：AAAI。pp. 298629. Tamar，A.，吴，Y.，Thomas，G.，Levine，S.，Abbeel，P.：价值迭代网络。In：Ava ncesi nNe ur alI np roces ing S y s i n gPr ocesi ngS y s i n g P r oc e s i n g Sy si n g S i n g ipp. 215430. 杰森，Sinapov，J.，穆尼，R.：引导多模态接地语言学习的交互行为。In：Proceedings of the First Workshop on Lang-uageGroundingforRobotics. pp.2017年10月20日31. Vinyals，O.，Toshev，A. Bengio，S.，Erhan，D.：展示和讲述：神经图像字幕生成器。In：Computer Vision and Pattern Recognition（CVPR），2015IConferenceon. pp. 3156-3164 IEEE（201

下载后可阅读完整内容，剩余1页未读，立即下载