没有合适的资源?快使用搜索试试~ 我知道了~
6629用于视觉语言导航的王欣1黄秋媛2 阿斯利·切利基尔马兹2高剑峰2沈定汉3王元芳1王扬1张磊21加州大学圣巴巴拉分校2微软研究院雷德蒙德分校3杜克大学{xwang,yfwang,william}@ cs.ucsb.edu{qihua,aslicel,jfgao,leizhang}. microsoft.com,dinghan. duke.edu摘要视觉语言导航(VLN)是导航一个具体的代理执行自然语言指令在真实的3D环境中的任务。在本文中,我们研究如何解决这一任务的三个关键挑战:交叉模态接地、不适定反馈和泛化问题。首先,我们提出了一种新的加强跨模态匹配(RCM)方法,通过强化学习(RL)在局部和全局上强制跨模态接地。特别是,指令右转,朝厨房走。然后左转,经过一张 桌 子 , 进 入 走廊。沿着走廊走下去,拐进你右边的入口,没有门。停在厕所前面。初始位置目标位置局 部视 觉场景自顶向下视图中的全局轨迹评论家是用来提供一个内在的奖励,以鼓励示范路径A指令和轨迹之间的全局匹配,以及采用推理导航器来执行局部视觉场景中的跨模态接地。VLN基准数据集上的评估表明,我们的RCM模型显着优于以前的方法SPL的10%,并实现了新的国家的最先进的性能。为了提高学习策略的通用性,我们进一步引入了一种自监督模仿学习(SIL)方法,通过模仿自己过去的好决策来探索未知的环境。我们证明,SIL可以近似一个更好,更有效的政策,这极大地减少了成功率性能之间的差距,看到和看不见的环境(从30.7%到11.7%)。1. 介绍最近,基于视觉语言的具体代理已经受到越来越多的关注[36,22,7],因为它们在许多有趣的现实世界应用中很受欢迎,例如,家用机器人和个人助理。同时,这种智能体通过第一人称视觉将自己置于主动学习场景中,推进视觉和语言基础。特别是,视觉语言导航(VLN)[2]是通过遵循自然语言指令在真实环境中导航智能体的任务VLN执行路径B执行路径C图1:VLN任务的演示。示出了自顶向下视图中的指令、局部视觉场景和全局轨迹。代理无权访问自顶向下视图。路径A是指令之后的演示路径路径B和C是代理执行的两个不同路径。需要深刻理解语言语义学、视觉感知,最重要的是,两者的一致性。智能体必须对视觉语言动力学进行推理,以便向从指令推断的目标移动。VLN提出了一些独特的挑战。首先,对视觉图像和自然语言指令进行推理可能是困难的。如图1所示,为了到达目的地,智能体需要在本地视觉场景中执行指令,表示为一系列单词,并将指令与全局时间空间中的视觉轨迹相匹配。其次,除了严格遵循专家示范之外,反馈相当粗糙,因为图1中的路径A6630或者沿着随机路径到达目的地(例如,图1中的路径C)。即使是与指令匹配的图1中的路径B)。病态反馈可能潜在地偏离最优策略学习。第三,现有的工作受到泛化问题的困扰,导致可见和不可见环境之间存在巨大的在本文中,我们建议结合再强化学习(RL)和模仿学习(IL)的力量来解决上述挑战。首先,我们介绍了一种新的加强跨模态匹配(RCM)的方法,强制跨模态接地本地和全球通过RL。具体来说,我们设计了一个推理导航器,学习跨模态接地在文本指令和本地视觉场景,使代理可以推断出哪些子指令集中在哪里看。从全局的角度来看,我们配备了一个匹配的批评者,评估执行路径的概率重建原始指令,我们称之为循环重建奖励的代理。局部地,循环重构奖励提供细粒度的内在奖励信号以鼓励智能体更好地理解语言输入并惩罚与指令不匹配的投射。例如,使用建议的奖励,路径B被认为比路径C更好(参见图1)。在匹配评价器的内在奖励和环境的外在奖励的共同作用下,推理导航器学习将自然语言指令建立在局部空间视觉场景和全局时间视觉轨迹的基础上。我们的RCM 模 型 显 著 优 于 现 有 方 法 , 并 在 房 间 到 房 间(R2R)数据集上实现了新的最先进性能。我们的实验结果表明,看到和看不见的环境之间的性能差距很大。为了缩小差距,我们提出了一个有效的解决方案,探索看不见的自我监督的约束。这项技术是有价值的,因为它可以促进终身学习和适应新的环境。例如,家用机器人可以探索它到达的新家,并通过学习以前的经验来迭代改进导航策略出于这一事实,我们引入了一个自我监督的模仿学习(SIL)的方法,有利于探索上看不见的环境,没有标记的数据。代理人学会模仿自己的过去,良好的经验。具体而言,在我们的框架中,导航器执行多个推出,其中良好的轨迹(由匹配的批评者确定)存储在重放缓冲区,并稍后用于导航器模仿。通过这种方式,导航器可以接近其最佳行为,从而产生更好的策略。总而言之,我们的贡献主要有三个方面:• 我们提出了一种新的加强跨模态匹配-该框架利用外部和内部奖励进行强化学习,其中我们引入了一个循环重构奖励作为内部奖励,以加强语言指令和智能体轨迹之间的全局匹配• 实验表明,RCM在R2R数据集上实现了新的最先进的性能,并且在现有技术中,在2009年的VLN挑战赛中排名第一SPL是任务最可靠的指标。• 我们为VLN引入了一个新的评估设置,在测试之前探索看不见的环境是可行的。然后提出了一种自监督模仿学习(Self-SupervisedImitation Learning,SIL)方法,并在R2 R数据集上验证了该方法的有效性。2. 相关工作视觉和语言基础最近,计算机视觉和自然语言处理领域的研究人员正在努力将视觉和自然语言连接起来,以更深入地了解世界[51,45,20,6,27,17,41,19],例如,用自然语言为图像或视频加字幕[9,10,44,46,52,53,47]或在给定自然语言描述的图像内定位期望的对象[35,18,54,55]。此外,视觉问答[3]和视觉对话[8]旨在通过将其建立在视觉和文本模态上来生成单轮或多轮响应。然而,这些任务集中于被动视觉感知,因为视觉输入通常是在这项工作中,我们特别感兴趣的是解决动态多模态接地问题在时间和空间空间。因此,我们专注于视觉语言导航(VLN)的任务[2],这需要智能体与环境进行积极的交互。3D环境中的移动导航代理导航[56,28,29,14]是在物理世界中运行的移动智能系统的基本功能。在过去的两年中,提出了大量的任务和评估VLN [2]专注于真实3D环境中基于语言的导航。为了解决VLN任务,Andersonet al.[2]建立了基于注意力的序列到序列基线模型。然后Wanget al. [48]介绍了一种混合方法,该方法结合了无模型和基于模型的强化学习(RL),以提高模型的泛化能力。最近,Friedet al. [11]提出了一种说话人跟随模型,采用数据增强,全景动作空间和改进的波束搜索VLN,建立了当前最先进的性能1截至2018年11月16日。6631t=1j=1房间到房间数据集。扩展以前的工作,我们提出了一个加强的跨模态匹配(RCM)的方法VLN。RCM模型建立在[11]的基础上,但在许多重要方面有所不同:(1)我们将一种新的多奖励RL与VLN的模仿学习相结合,而Speaker- Follower模型[11]仅使用[2]中的监督学习。(2)我们的推理导航器执行跨模态接地,而不是单模态输入的时间注意机制(3)我们的匹配评论器在架构设计方面类似于Speaker,但前者用于为RL和SIL训练提供周期重建内在奖励,而后者用于增加监督学习的训练数据。此外,我们引入了一个自我监督的模仿学习方法的探索,以明确地解决泛化问题,这是一个问题,没有很好地研究在以前的工作。与我们的工作同时,[42,24,25,26]从各个方面研究了VLN任务,[30]介绍了VLN任务的一个变体,通过在需要时请求语言拒绝来查找对象。请注意,我们是第一个提出探索看不见的环境的VLN任务。探索在改进探索方面已经做了很多工作[4,12,16,32,40],因为探索和开发之间的权衡是RL的基本挑战之一智能体需要利用它所学到的知识电流或不确定性已被用作勘探信号[37,39,23,33]。最近,Ohet al.[31]提出了利用过去的好经验来更好地探索强化学习,并从理论上证明了其有效性。我们的自我监督模仿学习(SIL)方法具有相同的精神。但是,我们没有在游戏上进行测试,而是在VLN的更实际的任务上调整SIL并验证其有效性和效率3. 增强的跨模态匹配3.1. 概述在这里,我们考虑一个具体的代理,学习导航,igate在真实的室内环境中遵循自然语言的指示。RCM框架主要由两个模块组成(见图2):推理导航,torπθ和匹配的criticVβ。 给定初始状态s以及自然语言指令(单词序列)X=x1,x2,...,xn,推理导航器学习执行动作序列a1,a2,...,a T∈ A,其生成轨迹τ,以便到达由指令X指示的目标位置s。导航者与环境互动并感知新的视觉状态当它执行动作时。为了提高策略学习的可推广性和加强策略学习,我们引入了两个奖励函数:一个是由环境提供的外部奖励,另一个是由环境提供的外部奖励。外在奖励内在奖励图2:我们的RCM框架概述。测量每个动作的成功信号和导航误差,以及来自我们的匹配评论家的内在奖励,并测量语言指令X和导航器的轨迹τ之间的对齐3.2. 模型在这里,我们详细讨论了推理导航器和匹配评论器,两者都是端到端可训练的。3.2.1跨模态推理导航器导航器πθ是一个基于策略的代理,它将输入指令X映射到动作序列{at}T上。在每个时间步t,导航器从环境接收状态st,并且需要将文本指令置于本地视觉场景中。因此,我们设计了一个跨模态的原因-学习轨迹历史、文本指令的焦点和局部视觉注意力的导航器,其形成跨模态推理路径以在步骤t鼓励两种模态的局部动态。图3显示了导航器的展开版本在时间步t。与[11]类似,我们为导航器配备了全景视图,该全景视图被分割为m个不同视点的图像块,因此从视觉状态st中提取的全景特征可以表示为{v t,j}m,其中v t,j表示视点j处的图像块的预训练CNN特征。历史背景一旦导航器运行一个步骤,视觉场景就会相应地改变。轨迹τ1:t直到步骤t的历史由基于注意力的轨迹编码器LSTM编码为历史上下文向量ht[15]:ht=LSTM([vt,at−1],ht−1)(1)w其中at−1是前一步的动作tak en,vt=jα t,j v t,j,全景特征的加权和。αt,j是视觉特征vt,j的注意力权重,表示这一点与历史背景ht-1有关。请注意,我们在下文中采用点积注意力[43],我们将其表示为(注意标记的目标位置状态 行动导航器轨迹匹配批评者指令环境6632{ laugh,j}mj=1关注���A1-1���…轨迹编码器������加1关注中文(简体)不关注动作预测器语言编码器完全转身,直到你面对一扇敞开的门,左边有一扇窗户,右边有一个露台,向前走,穿过门,走进一间餐厅,i=1j=1不i=1不不不t tj=1全景功能导航器匹配评论家β轨迹编码器���β ���、=β(���|���)语言解码器{i}n图3:步骤t的跨模态推理导航器。以上面的视觉特征为例)vt=attention(ht−1,{vt,j}m)(2)Σ=softmax(ht−1Wh(vt,j Wv)T)vt,j(3)J其中Wh和Wv是可学习的投影矩阵。视觉条件化文本上下文对过去的描述可以使当前状态的识别成为可能,从而理解接下来要关注哪些单词或子指令。因此,我们进一步学习了以历史语境为条件的文本语境。我们让语言编码器LSTM将语言指令X编码成文本特征集{w i}n. 然后在每个时间步长,文本上下文计算为图4:提供循环重构内在奖励的跨模态匹配评论。方向)和4维方位特征向量[sin ω;cos ω;sinω;cosω],其中ω和ω分别是航向角和仰角。第3.3节介绍了培训导航员的学习目标。3.2.2跨模态匹配评论除了来自环境的外在奖励信号之外,我们还推导出由匹配评论Vβ提供的内在奖励Rintr,以鼓励全局匹配。在 语 言 指 令 X 和 导 航 器 π θ<< 的 轨 迹 τ = {s1 ,a1>,s2,a2>,.. }:Rintr=Vβ(X,τ)=Vβ(X,πθ(X))(7)实现这一目标的一种方法是测量周期重构回报p(X= X |π θ(X)),给定由导航器执行的轨迹τ = π θ(X),重构语言指令X的概率。概率越高,生成的轨迹对齐得越好与指令。ctext=attention(ht,{wi}n)(4)因此,如图4所示,我们采用了一种注意力-t i=1请注意,c文本对与轨迹历史和当前视觉状态更相关的单词更重要文本条件视觉上下文知道在哪里看需要对语言教学的动态理解;所以我们计算视觉上下文c visualbased基于序列到序列语言模型作为我们的匹配-用轨迹编码器对轨迹τ进行编码,用语言解码器产生生成指令X的每个字的概率分布。因此内在的奖励R intr= p β(X |π θ(X))= p β(X |τ)(8)关于文本上下文c文本:cvisual=attention(ctext,{vj}m)(5)其由指令长度N标准化。在我们的实验中,匹配评论家是预先训练的人类示范(地面实况预测轨迹最后,我们的动作预测器考虑了历史上下文ht,文本上下文ctext,对X1,X2)。<视觉t3.3. 学习视觉环境ct,并决定向哪个方向前进其次,基于他们。它计算出每一个的概率pk可导航方向使用双线性点积,如下所示:为了快速逼近一个相对较好的政策,我们采用示范行动进行监督p =softmax([h,ctext,cvisual]W(u W(6)最大似然估计(MLE)。的K tttC K U训练损失Lsl定义为其中uk是表示k的动作嵌入,该可导航方向是通过连接从该视角周围的图像块中获得的外观特征向量(CNN特征向量)而获得的,或者6633不slθ不不L =−E[log(π(a)|)](9)其中示范动作是由模拟器提供的示范动作。通过监督学习热启动代理6634可以确保对所看到的环境有一个比较好的政策。但它也限制了智能体为了学习一个更好的和更普遍的政策,我们然后切换到强化学习,并引入外部和内部奖励函数,从不同的角度来完善政策。外部奖励强化学习中的一个常见做法是直接优化评估指标。由于VLN任务的目标是成功地达到目标位置的目标,我们考虑两个指标的奖励设计。第一个度量是类似于[48]的相对导航距离。我们将st和starget之间的距离记为Dtarget(st)。”[10]后,又有一个“后”字,即“后”。在状态st(t T)处执行动作at变为:r(st,at)=Dtarget(st)− Dtarget(st+1),t T(10)这指示在采取动作a之后到目标位置的减小的距离。我们的第二个选择考虑“成功”作为一个额外的标准。如果代理到达由距目标的距离d(d在R2R数据集中被预设为3m)测量的阈值内的点,则其被计为特别地,在最后步骤T处的即时奖励函数被定义为:r(sT,aT)=d(D目标(sT)≤d) (11)其中,f()是一个指标函数。为了考虑行动at对未来的影响,并考虑局部贪婪搜索,我们使用折扣的累积奖励而不是立即奖励来训练策略:Tt′−t导航器“#模仿学习{1,(,匹配评论&家=$%argmax$%(3,&)缓冲重放指令3未标记图5:用于探索未标记数据的SIL。在REINFORCE算法[49]中,不可微的基于奖励的损失函数的梯度可以推导为:<$θL rl= −A t<$θlog π θ(a t|( 14)4. 自我监督模仿学习最后一节介绍了通用视觉语言导航任务的有效的RCM 方 法 , 其 标 准 设 置 是 在 可 见 的 环 境 中 训 练Agent,并在不可见的环境中测试它而无需探索。在本节中,我们将讨论一种不同的设置,允许智能体在没有地面实况演示的情况下探索看不见的环境。这是有实际好处的,因为它有助于终身学习和适应新的环境。为此,我们提出了一个自我监督模仿学习(SIL)的方法来模仿代理如图5所示,给定没有成对演示和地面实况目标位置的自然语言指令X,导航器产生一组可能的Ble轨迹,然后将通过匹配评论家Vβ确定的最佳轨迹τe存储到重放缓冲器中,在公式中,τ=arg maxVβ(X,τ)(15)Rextr(st,at)=r(st,at)` 联系我们即时奖励+γr(st′,at′)t′=t+1联系我们贴现未来报酬(十二)τ匹配评论家用3.2.2节中介绍的循环重建奖励来评估轨迹然后,通过利用重放缓冲区中的良好轨迹,其中γ是折扣因子(在我们的实验中为0.95)。内在奖励如第3.2.2节中所讨论的,我们预训练匹配评论器以计算循环重构内在奖励Rintr(参见等式8),从而促进语言指令X与tra_representation_r之间喷射τ它鼓励代理人尊重指示并且惩罚偏离指令所指示的路径。对于外部和内部奖励函数,RL损失可以写为Lrl=−Eat<$πθ[At]( 13)其中优势函数At=Rextr+δRintr。 δ是衡量内在奖励的超参数基于智能体确实在自我监督下优化了以下目标目标位置是未知的,因此没有来自环境的监督。L sil= −R intrlog π θ(a t|(16)注意,Lsil可以被视为策略梯度的损失,除了使用非策略蒙特卡罗返回Rintr而不是策略返回。Lsil也可以被解释为监督学习损失,τsil作为Lsil=−E[lo g(πθ(a)t|(17)其中,动作t是使用等式15存储在重放缓冲器中的动作与匹配评论器配对,SIL方法可以与各种学习方法结合,通过模仿以前的最佳策略来近似更好的策略。66355. 实验和分析5.1. 实验装置R2 R数据集我们评估了我们在真实3D环境中用于视觉语言导航的房间到房间(R2 R)数据集[2]上的方法,该数据集建立在Matter-port 3D数据集[5]上。R2R数据集有7,189条路径,捕获了大部分视觉多样性和21,567条人工注释的指令,平均长度为29个单词。R2R数据集分为训练集、可见验证集、不可见验证集和测试集。看到的验证集与训练集共享相同的环境而看不见的验证集和测试集都包含在其他集中没有出现的不同测试场景VLN任务的标准测试场景是在可见的环境中训练智能体,然后在以前不可见的环境中以零射击的方式对其进行测试在测试集上没有预先探索。这个设置是首选的,并且能够清楚地测量导航策略的通用性,因此我们在标准测试场景下评估我们的RCM方法。此外,在看不见的环境中进行探索在实践中具有一定的意义,期望家用机器人探索并适应新的环境。因此,我们引入了一个终身学习的场景,在这个场景中,智能体被鼓励从看不见的环境中的试验和错误中学习。在这种情况下,如何有效地探索未知的验证或测试集,没有专家的演示成为一个重要的任务来研究。评估我们报告了VLN挑战赛使用的五个评估指标:路径长度( PL)、导航错误(NE)、Oracle成功率(OSR)、成功率(SR)和按反向路径长度(SPL)加权的成功率。2在这些指标中,SPL是推荐的导航性能的主要指标[1],因为它同时考虑了其他指标也作为辅助措施报告。实施细节在之前的工作[2,48,11]之后,ResNet-152CNN特征[13]被提取用于所有图像,而无需微调。预训练的GloVe单词嵌入[34]用于初始化,然后在训练期间进行微调。我们用人类示范来训练匹配的评论家,然后在策略学习过程中修复它。然后测试集(VLN挑战排行榜)模型PL ↓NE ↓OSR↑SR ↑SPL↑随机9.899.7918.313.212seq2seq [2]8.137.8526.620.418RPA [48]9.157.5332.525.323[第11话]14.826.6244.035.028+波束搜索1257.384.8796.053.51我们RCM15.226.0150.843.135RCM + SIL(列车)11.976.1249.543.038RCM + SIL(不可见)39.484.2166.860.559表1:R2R测试集的比较[2]。我们的RCM模型显著优于SOTA方法,特别是在SPL(导航任务的主要指标[1])上。此外,使用SIL在训练集上进行自我模仿可以进一步提高其效率:路径长度缩短了3.25m。请注意,使用波束搜索,智能体在测试时执行K个轨迹,并选择最自信的一个作为终点,这会导致超长路径,并受到SPL的严重惩罚。我们通过SL以学习率1e热启动策略。4,然后切换到学习率为1 e-5的RL训练(SIL相同)。亚当优化器[21]用于优化所有参数。更多细节可在附录中找到。5.2. 测试集的结果与SOTA的比较我们在R2R数据集的测试集上比较了RCM与以前最先进的(SOTA)方法的性能,该测试集被称为VLN挑战。结果如表1所示,我们将RCM与一组基线进行了比较:(1)随机:每走一步随机选择一个方向向前移动,直到五步。(2)seq2seq:原始数据集论文[2]中报告的性能最好的序列到序列模型,它是用学生强迫方法训练的(3)RPA:一种强化的提前规划模型,结合了VLN的无模型和基于模型的强化学习[48]。(4)Speaker-Follower:一种组合Speaker-Follower方法,结合了数据增强,全景动作空间和VLN的波束搜索[11]。从表1中可以看出,RCM显著优于现有方法,将SPL评分从28%提高到35%4。在其他度量上也一致地观察到改进,成功率提高了8.1%。此外,使用SIL来模仿RCM代理在训练集上的先前最佳行为,2PL:执行路径的总长度。NE:最短路径的距离。特工的最终位置和目标之间的距离。OSR:智能体沿轨迹访问的目标最近点的成功率。SR:目标位置3m内的预测结束位置的百分比。SPL:SPL权衡成功率与路径长度,定义见[1]。3使用SIL探索未知环境的结果仅用于验证其终身学习的有效性,由于不同的学习场景,无法直接与其他模型进行比较。4请注意,我们的RCM模型还利用了[11]中的全景动作空间和增强数据进行公平比较。6636看得见的验证看不见的验证#模型PL↓NE ↓OSR↑SR↑PL↓NE ↓OSR↑SR↑0扬声器-跟随器(无波束搜索)[11]-3.3673.866.4-6.6245.035.51RCM + SIL(列车)10.653.5375.066.711.466.0950.142.82RCM11.923.3776.667.414.845.8851.942.53内在奖励12.083.2577.267.615.006.0250.540.64-外在奖励=纯SL11.993.2276.766.914.836.2946.537.75跨模态推理11.883.1873.966.414.516.4744.835.76RCM+ SIL(不可见)10.132.7879.773.09.124.1769.3161.3表2:可见和不可见确认集的消融研究我们报告的性能的扬声器跟随器模型没有波束搜索作为基线。第1-5行显示了通过从最终模型中连续删除每个单独组件所产生的影响。第6行说明了SIL在自我监督下探索未知环境的能力更多详细分析请参见第5.3更有效的策略,其平均路径长度从15.22 m减少到11.97m,在SPL上达到最好的效果(38%)。因此,我们将RCM + SIL(列车)的结果提交给VLN挑战赛,在SPL方面排名第一值得注意的是,波束搜索在现实中并不实用,因为它需要在做出决定之前执行非常长的所以我们主要是比较没有波束搜索的结果。自我监督模仿学习作为如上所述,对于标准VLN设置,我们在训练集上采用SIL来学习有效的策略。对于终身学习的情况下,我们测试SIL探索看不见的环境(验证和测试集)的有效性。 在表1中值得注意的是,SIL确实导致即使不知道目标位置也能制定更好的策略。SIL在SR上将RCM提高了17.5%,在SPL上提高了21%。类似地,代理还学习了一个更有效的策略,该策略需要更少的步骤(平均路径长度从15.22 m减少到9.48 m),但获得了更高的成功率。SIL和Beam Search的主要区别 SIL通过播放和模仿来优化策略本身,而波束搜索仅对现有策略的展开进行贪婪选择。但我们想指出的是,由于不同的学习场景,RCM+ SIL(看不见)的结果不能直接与VLN挑战标准设置下的其他方法进行比较。5.3. 消融研究单个组分的影响我们进行了一项消融研究,以说明每个组分对表2中可见和不可见验证集的影响比较第1行和第2行,我们通过模仿训练集上的最佳策略来观察学习策略的效率。然后我们从第二行的RCM模型开始,依次去除内在奖励、外在奖励和跨模态推理,以证明它们的重要性。去除内在奖励(第3行),我们注意到在看不见的环境中的成功率(SR)下降了1.9个百分点,而在可见的环境中几乎是固定的(0.2↑)。它评估指令和指令集之间的一致性,作为除因此,它更适合于由于缺乏探索而需要更多监督的看不见的环境。这也间接证实了探索未知环境的重要性。此外,第4行的结果(仅具有监督学习的RCM模型)验证了与VLN任务上的纯监督学习相比,再学习的优越性。同时,由于最终结果是基于成功率(SR)和路径长度(PL)进行评估的,因此直接优化外部奖励信号可以保证强化学习的稳定性,并带来很大的性能增益。然后,我们通过将跨模态推理导航器(第4行)与基于注意力的序列到序列模型(第5行)进行比较,验证了跨模态推理导航器的强度。基于注意力的序列到序列模型在解码时利用复杂的隐藏状态ht-1来兼顾视觉和文本特征其他的一切都是除了跨模态注意力设计之外,其他都是一样的。显然,我们的导航器通过考虑历史上下文、视觉条件文本上下文和用于决策的文本条件视觉上下文来改进基线。最后,我们证明了建议的SIL勘探方法的有效性在第6行。在可见和不可见的环境中都获得了相当大的性能提升,因为代理从自己以前的经验中学习如何更好地6637:指示:退出门,向左转向楼梯. 一路走上楼梯,在楼梯的顶端停下来。内在奖励:0.53 结果:成功(误差=0 m)步骤1全景视图步骤2全景视图步骤3全景视图步骤4全景视图步骤6全景视图说明:右转,下楼梯。向左拐然后一直走到洗衣房。在那等着内在奖励:0.54 结果:失败(误差=5.5m)步骤1全景视图步骤2全景视图步骤3全景视图步骤4全景视图以上步骤都是好的,但最后停在了一个错误的地方步骤5全景视图(a)一个成功的案例(b)一个失败的案例图6:来自未知验证集的定性示例。可推广性来自实验的另一个观察(例如,(见表2)是我们的RCM方法是更普遍的看不见的环境相比,基线。可见和不可见验证集的改进分别为0.3和7.1点。SIL方法也是如此,它明确地探索了不可见的环境,并极大地降低了可见和不可见环境之间的成功率差距,从30.7%(第5行)降至11.7%(第6行)。定性分析为了更直观地了解我们的模型如何用于VLN任务,我们在图6中可视化了两个定性示例。特别是,我们选择了两个例子,都具有很高的内在奖励。在(a)中,智能体成功地到达目标目的地,具有对自然语言指令的全面理解。而在(b)中,内在奖励也很高,这表明智能体的大部分6. 结论在本文中,我们提出了两种新的方法,RCM和SIL,结合了强化学习和自我监督模仿学习的优势,用于视觉语言导航任务。实验结果表明,在标准测试场景和终身学习场景下,该方法都是有效的。此外,我们的方法在未知环境中表现出很强的泛化能力。拟议的学习框架是模块化和模型不可知的,这使得组件可以单独改进。我们还相信,除了粗糙的外部信号之外,学习更多细粒度的内在奖励的想法通常适用于各种具身代理任务,并且SIL的想法通常可以用于探索其他看不见的环境。确认这项工作部分是在第一作者在微软研究院实习时完成的。作者感谢Peter Anderson和Pengchuan Zhang的有益讨论,以及Ronghang Hu的可视化代码。6638引用[1] P. Anderson,A. 张氏D. S. Chaplot,A. 多索维茨基S. 古普塔河谷Koltun,J.Kosecka,J.马利克河,巴西-地莫塔吉,M. Savva等人嵌入式导航代理的评价。arXiv预印本arXiv:1807.06757,2018。[2] P. Anderson,Q. Wu,D. 作者:J. 约翰逊先生,N. 松德豪夫岛Reid,S. Gould,和A. 在母鸡身上。视觉和语言导航:在真实环境中解释视觉导航指令。在IEEE计算机视觉和模式识别会议(CVPR)论文集,第2卷,2018年。[3] S. Antol,A.Agrawal,J.卢,M.米切尔,D。巴特拉角L.Zit-nick和D.帕里克VQA:可视化问答。2015年,国际计算机视觉会议(ICCV)[4] M. 贝勒马尔S. 斯里尼瓦桑G. 奥斯特洛夫斯基,T. 绍尔D. Saxton和R.穆诺斯将基于计数的探索和内在动机相统一。神经信息处理系统,第1471-1479页,2016年[5] A. Chang,A.戴氏T. Funkhouser M. Halber,M.尼斯纳M. Savva , S. Song , 中 国 黑 杨 A. Zeng 和 Y. 张 某Matterport3d:室内环境中rgb-d数据的学习。arXiv预印本arXiv:1709.06158,2017。[6] X. Chen和C.劳伦斯·齐尼克。心灵之眼:一种用于图像标题生成的重现视觉表示.在IEEE计算机视觉和模式识别会议论文集,第2422-2431页[7] A.达斯,S。达塔湾Gkioxari,S. Lee,D. Parikh和D.巴-特拉。具体化的问题回答。在IEEE计算机视觉和模式识别会议,2018年。[8] A. 达 斯 , S 。 科 图 尔 湾 古 普 塔 A 。 辛 格 山 , 加 - 地Yadav,J. M. Moura,D. Parikh和D.巴特拉可视对话框。在IEEE计算机视觉和模式识别会议(CVPR)上,2017年。[9] 多纳休湖A. Hendricks,S. Guadarrama,M. 罗尔巴赫S. Venugopalan湾Saenko和T.达雷尔。用于视觉识别和描述的长期CVPR,2015。[10] H. Fang,S.古普塔F.扬多拉河K.斯利瓦斯塔瓦湖邓小平说,P. 多尔,J。Gao、X. 他,M。米切尔,J。C. Platt,etal.从标题到视觉概念再到后面。在IEEE计算机视觉和模式识别会议论文集,第1473-1482页[11]D. 弗里德河Hu,V.Cirik,A.Rohrbach,J.安德烈亚斯湖P. Morency,T. Berg-Kirkpatrick,K. Saenko,D. Klein和T. 达雷尔。用于视觉和语言导航的说话者跟随者模型在神经信息处理系统(NIPS)的进展,2018年。[12] J. Gao,M. Galley和L.李对话式人工智能的神经方法。arXiv预印本arXiv:1809.08267,2018。[13] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残 差 学 习 。 在 Proceedings of the IEEE conference oncomputer vision and pattern recognition,pages 770[14]S. Hemachandra, F. 杜瓦莱, T. M. 霍华德 N. 罗伊A. Stentz和M. R. Walter.学习模型自然语言在未知环境中的应用arXiv预印本arXiv:1503.05079,2015年。[15] S. Hochreiter和J.施密特胡博长短期记忆。神经计算,9(8):1735[16] R. Houthooft,X. Chen,Y. Duan,J. Schulman,F. DeTurck,和P.阿比尔Vime:变分信息最大化探索。神经信息处理系统进展,第1109-1117页,2016年[17] R. Hu,M. Rohrbach和T.达雷尔。从自然语言表达式中分割。在欧洲计算机视觉会议上,第108-124页。施普林格,2016年。[18] R. Hu,H.Xu,M.Rohrbach,J.Feng,K.Saenko和T.达雷尔。自然语言对象检索。在IEEE计算机视觉和模式识别会议论文集,第4555-4564页[19] Q. Huang , P. Zhang , D. Wu 和 L. 张 某 captionbot 和drawingbot的涡轮学习在神经信息处理系统(NIPS)的进展,2018年。[20] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐。在Proceedings of the IEEE conference on computervision and pattern recognition,pages 3128[21] D. P. Kingma和J. BA. Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[22] E.科尔韦河Mottaghi,D. Gordon,Y. Zhu,中国茶青冈A.Gupta和A.法哈迪。ai 2-thor:一个交互式的3d环境,用于视觉人工智能。arXiv预印本arXiv:1712.05474,2017。[23] Z. C. Lipton,J. Gao,L.Li,X.Li,F.艾哈迈德和L.邓小平更基于bbq网络重放缓冲区尖峰的对话策略学习的有效探索。arXiv预印本arXiv:1608.05081,2016年。[24] Y. B. A. H. Z. G. J. L. J. G. Y. C. S. S.李一鸣,李喜军.战术倒带:视觉和语言导航中通过回溯的自我纠正。在IEEE计算机视觉和模式识别会议(CVPR)上,2019年。[25] C.- Y. Ma,J. Lu,Z. Wu,G. AlRegib,Z.基拉河Socher和C。雄通过辅助进度估计的自我监控导航代理arXiv预印本arXiv:1901.03035,2019。[26] C.- Y.妈Z。Wu,G.阿尔赖布角Xiong和Z.吉良后悔的代理人:通过进度估计的启发式辅助导航。arXiv预印本arXiv:1903.01602,2019。[27] J. 毛,J.Huang,黄背天蛾A.托舍夫岛Camburu,A.L. 尤尔,还有K. 墨菲无歧义对象描述的生成和理解在IEEE计算机视觉和模式识别会议论文集,第11-20页,2016年。[28] P. 米洛夫斯基河Pascanu,F.Viola,H.Soyer,A.J. 巴拉德A. 巴尼诺湾德尼尔河戈罗申湖Sifre,K.Kavukcuoglu等人学 会 在 复 杂 环 境 中 导 航 。 arXiv 预 印 本 arXiv :1611.03673,2016年。[29] A. Mousavian、A.托舍夫,M.Fiser,J.Kosecka和J.大卫-儿子。语义目标驱动导航的视觉表示。arXiv预印本arXiv:1805.06066,2018。[30] K.阮氏D.戴角,澳-地Brockett和B.多兰通过间接干预的模仿学习,在基于语言的辅助下进行基于视觉的导航。arXiv预印本arXiv:1812.04155,2018。6639[31] J. 哦,Y。Guo,S.Singh和H.李你自我模仿学习。arXiv预印本arXiv:1806.05635,2018。[32] G. 奥斯特罗夫斯基G. Bellemare,A.诉D. Oord和R.穆诺斯基于计数的神经密度模型探索。arXiv预印本arXiv:1703.01310,2017。[33] D. Pathak,P.Agrawal、A.A. Efros和T.达雷尔。通过自我监督预测的Curriculum- Driven Exploration在国际机器学习会议(ICML),2017年,2017年。[34] 彭宁顿河Socher和C。曼宁Glove:单词表示的全局向量。在2014年自然语言处理经验方法会议(EMNLP)的会议记录中,第1532-1543页[35] B. A.普卢默湖Wang,C. M.塞万提斯C. 凯塞多J. Hockenmaier和S. Lazebnik Flickr30k实体:收集区域到短语的对应关系,以获得更丰富的图像到句子模型。在 Proceedin
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功