没有合适的资源?快使用搜索试试~ 我知道了~
------()154180HOP: 基于历史和顺序的视觉语言导航预训练0Yanyuan Qiao 1 Yuankai Qi 1 Yicong Hong 2 Zheng Yu 1 Peng Wang 3 Qi Wu 1 *01 The University of Adelaide 2 The Australian NationalUniversity 3 Northwestern Polytechnical University0{yanyuan.qiao,qi.wu01}@adelaide.edu.au, {qykshr,william.zhengyu}@gmail.com0yicong.hong@anu.edu.au, peng.wang@nwpu.edu.cn0https://github.com/YanyuanQiao/HOP-VLN0摘要0最近的一些工作已经采用了预训练方法来进行视觉语言导航(VLN)。然而,以前的VLN预训练方法要么缺乏预测未来动作的能力,要么忽略了轨迹上下文,而这对于贪婪导航过程是至关重要的。在这项工作中,为了促进时空视觉-文本对应关系的学习以及代理的决策能力,我们提出了一种新颖的基于历史和顺序的预训练范式(HOP),其中包含了VLN特定的目标,利用过去的观察结果并支持未来动作的预测。具体而言,除了常用的掩码语言建模(MLM)和轨迹-指令匹配(TIM)之外,我们设计了两个代理任务来建模时间顺序信息:轨迹顺序建模(TOM)和组顺序建模(GOM)。此外,我们的导航动作预测还通过引入历史感知的动作预测任务(APH)进行增强。对于四个下游VLN任务(R2R、REVERIE、NDH、RxR)的大量实验结果表明,与几种最先进的代理相比,我们提出的方法的有效性。01. 引言0视觉语言导航(VLN)因其在计算机视觉、自然语言处理和机器人领域的重要性而受到广泛关注,对于家庭助手等实际应用具有重要意义[3, 5, 7, 17, 28, 29,38]。VLN要求代理根据给定的自然语言指令,在3D模拟环境中导航到目标位置。在过去的几年里,已经提出了各种各样的VLN任务,包括使用低级指令进行导航0*通讯作者0预0训练0微调0微调0离开浴室,去桌子那里。0HO0P0①0掩码0语言建模(MLM)0②0轨迹0指令匹配(TIM)0③0轨迹顺序建模(TOM)0④0组顺序建模(GOM)0⑤0带有历史的动作预测(APH)0L0ow0层次0微调0细粒度指令0H0高0级别指令0交际0e0指令0“走过厨房,停在餐厅门外”0“关上厨房窗户。”0l0R2R0l0RxR0l0REVERIE0“这边朝向浴缸吗?”0“不,穿过0–0轨迹0配对0图1.VLN的预训练和微调范式示意图。模型通过五个代理任务进行预训练,并在四个下游VLN任务(R2R、RxR、REVERIE和NDH)上进行微调(详见第3节)。0例如R2R [3]和RxR [18]等任务,如NDH[36]的交流和合作指令,以及用于远程对象定位的高级指令,如REVERIE [32]和SOON[40]。尽管它们之间存在差异,但代理的导航主要被构建为一个顺序的文本到图像对齐问题。也就是说,位于预定义连通图上的特定节点上,代理通过选择具有图像表示和指令之间最大对应关系的相邻节点来遍历环境。因此,视觉-文本匹配被认为是解决VLN任务的关键。受到Vision-LanguageBERT在几个视觉-文本匹配任务上的巨大成功的启发,已经提出了几种VLN的预训练方法[8, 9, 13,27]。这些方法能够取得更好的性能,但仍然存在一些局限性。VLN-BERT[27]通过预测一对指令和视觉轨迹的兼容性来对其模型进行预训练。在下游任务中,它将导航问题形式化为轨迹选择问题。AirBERT [8]则通过预测动作的方式进行预训练。154190另外,它采用了一个二分类任务来预测给定指令和视觉轨迹是否配对。VLN-BERT和AirBERT在预训练过程中都放弃了导航动作预测,削弱了学习表示和最终目标之间的关系:导航动作预测。相比之下,PREVALENT[9]引入了一个单步动作预测任务,旨在学习面向动作的通用视觉语言表示,可以应用于贪婪搜索VLN。然而,PREVALENT在预训练中很大程度上忽视了重要的历史上下文。它只将单个步骤的静态全景图像作为视觉输入,而未考虑历史轨迹信息。事实上,VLN是一个部分可观察的马尔可夫决策过程(POMDP),代理在做出未来动作决策时严重依赖过去的经验。此外,VLN是一个时空任务,对轨迹的顺序敏感。因此,时间顺序推理的能力对于动作决策也是有益的。然而,以上三种方法都没有明确地从指令或视觉观察中挖掘时间顺序信息。0为了解决上述问题,本文提出了一种新颖的历史和顺序感知预训练范式,以增强VLN任务中视觉-文本对应关系的学习。首先,我们为动作预测任务提供了历史视觉观察,称为具有历史的动作预测(APH),这有助于模型定位要执行的子指令,从而提高动作预测的准确性。其次,我们设计了两个顺序感知的代理任务,轨迹顺序建模(TOM)和组顺序建模(GOM)。给定一条指令,TOM要求模型从细粒度级别恢复被打乱的视觉轨迹的顺序,而GOM要求模型从粗粒度级别预测两组子轨迹的顺序。这两个任务明确赋予模型理解指令内部时间顺序的能力,除了视觉-文本匹配能力。所提出的预训练和微调任务的整体框架如图1所示。0为了全面评估我们提出的预训练方法,我们在四个下游任务上进行了实验:R2R [3],RxR [18],NDH [36],REVERIE[32]。每个任务都对评估代理提出了非常不同的挑战。R2R作为一个领域内任务,可以验证代理在未见环境中的泛化能力。其他三个任务是领域外的,用于研究对新任务的泛化能力。RxR以较长的指令而闻名。NDH具有对话指令。REVERIE以高级、简短的指令为特点。通过我们提出的预训练任务,微调后的下游模型在所有这些任务上表现出色:R2R的SPL为59%,RxR的sDTW为0.33,NDH的GP为3.31,REVERIE的结果为0在REVERIE上达到24.34%的SPL(14.34%的RGSPL)。02. 相关工作0在本节中,我们简要回顾了几个与VLN和视觉语言预训练密切相关的工作。0视觉与语言导航自从在房间到房间任务中提出以来,视觉与语言导航任务引起了很多关注[3]。这个任务最初被视为基于视觉的序列到序列的转码问题[3]。为了提高智能体对未见环境的泛化能力,演讲者-跟随者模型[7]合成了用于数据增强的新指令,并提出了一种“环境丢失”方法[35],用于在训练过程中模拟未见环境。Wang等人[38]提出了一种强化交叉模态匹配框架,结合了强化学习(RL)和模仿学习(IL)的优势,用于视觉语言导航任务。为了估计达到目标的进展,Ma等人[25]引入了一种自我监控方法,包括视觉-文本共同基础模块和进度监控器。Hong等人[11]提出了一种语言和视觉实体关系图,利用场景中的跨模态和内模态关系。最近,基于VLBERT的方法在VLN任务上显著提高了性能。Hong等人[12]开发了一个重复模型,重用[CLS]令牌来维护历史信息。Qi等人[30]提出了一种基于对象的顺序BERT,用于编码视觉感知和语言指令。0视觉语言预训练近年来,许多视觉语言预训练工作[6, 22,24,34]已被提出,用于学习用于各种视觉语言问题的跨模态表示,例如图像-文本检索[19],指代表达接地[39]和视觉问答[4]。与传统的视觉语言预训练不同,VLN任务还需要学习到的表示来促进动作决策。VLN-BERT[27]通过预测指令和轨迹的兼容性来执行路径选择。类似地,Air-BERT[8]通过收集大量室内图像-标题对来训练路径-指令匹配任务。然而,这些方法忽视了动态动作决策的重要性。虽然PREVALENT[9]添加了动作预测(AP)任务,但由于其输入是全局指令和当前位置的全景图像,因此无法考虑全局级别的路径信息,这丢弃了用于动作预测的时间视觉上下文。此外,所有这些方法都没有明确地从指令或视觉观察中挖掘时间顺序信息,而这对于智能体预测动作至关重要。相反,我们的预训练旨在通过引入一个具有历史意识的代理任务和两个具有顺序意识的代理任务来缓解上述限制。012345042351Group1Group2Group2Group1Group1Grouprand154200[CLS]右转并停止...楼层[SEP]0语言编码器0跨模态编码器0视觉编码器0掩码语言建模(MLM)0[CLS]右转并[MASK]...楼层[SEP]0多层Transformer0停止0具有历史的动作预测(APH)0全景0视图0轨迹-指令匹配(TIM)0匹配?0是0[CLS]右转并停止...楼层[SEP]0多层Transformer0[CLS]右转并停止...楼层[SEP][SEP]0下一个视图索引0轨迹顺序建模(TOM)组顺序建模(GOM)0重新排序0原始0[SEP]0[SEP]0[SEP]0“下一个”0“上一个”0“随机”0图2.预训练模型和五个代理任务的主要架构。0这些任务帮助代理理解历史上下文和时间顺序,促进最终的动作预测。我们注意到ALTR[13]引入了一个“下一个视觉场景”任务来捕捉时间上下文,但与其预测图像顺序不同,它直接预测未来步骤的视觉特征,这是一个更困难的任务。03.方法0在本节中,我们首先介绍VLN的基础知识,以便将我们的方法置于适当的背景下。然后,我们描述了所采用的模型架构。接下来,我们提供了我们提出的历史和顺序感知预训练范式中使用的五个预训练代理任务的详细信息。最后,我们介绍了用于预训练的数据集。在VLN中,机器人代理在3D模拟器中以初始状态xu0,α0,β0y随机定位,其中u0是预定义导航图上的起始视点,α0和β0是方位角和仰角。给定一个自然语言指令x“xx1,x2,...xLy,其中L是指令长度,代理需要根据全景感知来预测下一个导航动作。按照常规做法,通过从模拟器提供的候选集中选择一个可导航位置来预测动作。每个可导航位置由其RGB图像特征和方向特征表示。03.1.模型架构0模型架构如图2左上角所示,类似于LXMERT[34]。将指令-轨迹对作为输入,模型首先利用语言编码器和视觉编码器提取单模态表示。0从指令和图像序列中提取单模态表示,然后将这些表示输入到跨模态编码器中,实现两种模态之间的交互并生成最终的融合表示。0语言编码器首先使用WordPieces[15]对指令中的所有单词进行标记化,得到一个标记序列:[CLS],w1,w2,...,wL,[SEP],其中[CLS]和[SEP]是添加的特殊标记。然后,通过将标记嵌入和位置嵌入相加,然后进行层归一化(LN),获得每个标记的文本嵌入。最后,文本嵌入通过单模态语言编码器传递,其中每个层由一个自注意子层和一个前馈子层组成。语言编码器的输出用作语言特征。0视觉编码器轨迹τ“xv1,v2,...vTy表示机器人在遍历环境时观察到的图像序列,其中vi是第i步的环境观察的前视图图像,T是总步数。为了更好地捕捉轨迹中的顺序信息,我们使用代理在每个位置的前视图图像,而不是使用全景图像。这是因为同一房间中相邻观察点的全景图像相似,使得代理难以探索整个轨迹的动态和时间信息。我们首先使用在ImageNet [33]上预训练的ResNet-152[10]提取每个前视图图像vi的2048维图像特征向量vvis。然后,我们将其与方向特征一起组合。154210将方位角α和仰角β的方向特征表示为r sin α; cos α; sin β;cos βs,并重复32次,构成一个128维的方向特征向量vd,与[35]相同。轨迹中的每个图像vi最终由一个2176维的特征向量vi“rvvis;vd”表示,通过连接vvis和vd。最后,轨迹τ的图像特征通过单模态视觉编码器传递,其中每个层由一个自注意子层和一个前馈子层组成。视觉编码器的输出用作视觉特征。0跨模态编码器我们使用跨模态编码器来融合语言和视觉模态的特征。对于跨模态编码器,每个层包含两个自注意子层,一个双向交叉注意子层和两个前馈子层。跨模态编码器的输出用作预训练和下游任务的跨模态特征。根据[9]的设置,我们将文本编码器、视觉编码器和跨模态编码器的层数Ntext、Nimage和Ncross分别设置为9、1和3。03.2.预训练任务0掩码语言建模(MLM)MLM是基于BERT的预训练中最常用的代理任务。对于VLN的预训练,MLM的目标是通过对周围单词wzm和轨迹τ进行推理,恢复被屏蔽的单词wm。具体来说,MLM的输入是指令w“xw1,w2,...,wLy和相应的轨迹τ“xv1,v2,...,vT。我们以15%的概率随机屏蔽指令的输入标记,并用特殊标记[mask]替换屏蔽的标记wm。这个任务通过最小化负对数似然来优化:0其中θ表示可训练参数。每对pw,τq是从训练集D中采样的。0轨迹-指令匹配(TIM)TIM是一个全局匹配任务,旨在预测给定的图像轨迹和指令是否匹配。TIM的输入是指令-轨迹对pw,τq。在训练过程中,我们通过随机替换轨迹来生成负样本,替换概率为50%。具体来说,生成的负样本仅从相同的环境中选择,以便模型能够专注于区分路径而不是环境。我们使用[CLS]的输出表示作为指令-轨迹对的联合表示,然后将其输入到具有sigmoid函数的FC层中进行预测。0“随机组”0多层Transformer0“下一组”0“前一组”0组rand0[CLS]右转并停止...楼层[SEP]0[SEP]0组1 组20多层Transformer0组10多层Transformer0组10组20[CLS]右转并停止...楼层[SEP]0[CLS]右转并停止...楼层[SEP][SEP]0[SEP]0图3. Group Order Modeling(GOM)的示意图。0匹配得分sθpw,τq。我们通过二进制交叉熵损失来优化这个任务:0L TIM pθq表示通过对pw,0在TIM中,Pθ表示给定的图像轨迹和指令是否匹配。0轨迹顺序建模(TOM)VLN对轨迹的顺序敏感,因此我们设计了TOM任务,使模型能够学习指令内的时间顺序以及视觉-文本对应关系。TOM的输入是指令w和重新排序的轨迹τ1。具体来说,我们随机选择原始轨迹τ的50%图像进行洗牌。TOM的目标是根据给定的指令w重建原始轨迹τ的正确顺序r“xr1,r2,...,rNy,其中N是轨迹的步数。这个任务被形式化为一个N类的分类问题。我们将跨模态编码器的视觉输出输入到具有softmax函数的FC层中,通过最小化交叉熵损失来预测重新排序的轨迹τ1中每个图像k的顺序r1k:0L TOM p θ q “ ´ E p w,τ 1 q„ D0i “ 1 y i log P θ p r 1 k | w,τ 1 q , (3)0其中yi为1表示预测的顺序r 1k对于图像k是原始顺序i,否则yi为0。0Group OrderModeling(GOM)这个任务与TOM具有相同的动机,但是在子轨迹级别上。它预测两个子轨迹之间的前一个、下一个或随机关系。如图3所示,GOM的输入是指令w和图像序列组(G1,G2),该组由轨迹τ派生而来。具体而言,我们将轨迹分成两个部分(G1,G2),按顺序均匀地划分。此外,G2放在G1之后的概率为1/3,G2放在G1之前的概率为1/3,剩余的概率为1542201/3的概率G2将被来自其他轨迹的图像序列组的随机采样所替代。这个任务被视为一个三类分类问题。如果G1在G2之前发生,我们将其表示为c为1;如果G1在G2之后发生,我们将其表示为c为2;如果G2是从不同环境中随机采样的图像序列组,我们将其表示为c为3。特殊的标记[SEP]用于分隔这两个组。我们使用[CLS]标记的表示作为输入视觉和文本信息的联合嵌入。然后,我们应用一个带有softmax的FC层来进行三类预测的c 1。这个任务通过最小化交叉熵损失进行优化:0L GOM p θ q “ ´ E p w, p G 1 2 qq„ D ÿ0c y c log P θ p c 1 | w, p G0(4)其中yc P t 0,1 u表示预测的类别c1是否是期望的类别c。0Action Prediction withHistory(APH)这个任务的动机是使学到的表示对最终目标有益:预测导航动作。APH的输入包括指令w,历史轨迹τt´1“xv1,v2,...,vt´1y和当前步骤t的全景视图p“tp1,p2,...,p36u。全景视图由12个周围角度的36个图像组成,每个图像有3个相机姿态(上、下、水平)。与PREVALENT[9]一样,通过从候选视图(即全景观察vtp)中选择下一个视图图像v 1 t `1来实现动作决策,这可以表示为一个分类问题。特殊标记[CLS]上的输出表示两种模态的融合表示。我们对[CLS]的表示应用一个FC层来预测下一个视图v 1 t ` 1。我们通过交叉熵损失来优化这个任务:0L APH p θ q “ ´ E p w,τ,v panq„ D ÿ0p y p log P θ p v 1 t ` 1 | w, τt ´ 1 , v t p q ,0(5)其中p表示全景图像中的36个图像的标签,yp P t0,1 u表示预测的下一个视图图像v 1 t `1是否是标签p的期望下一个视图图像。03.3. 预训练数据集0我们根据现有数据集构建了我们的预训练数据集:PREVALENT [9]和BnB[8]。PREVALENT使用预训练的说话者模型生成更多的指令来增加R2R数据集。它包含104K个原始的R2R样本和6482K个合成样本。BnB数据集从Airbnb收集图像-标题对。我们使用BnB数据集中的原始图像和标题,并对其进行了重新处理。事实上,几乎一半的BnB图像没有标题(即没有标题的图像)。因此,为了更好地适应设计的预训练任务,如轨迹顺序建模,我们删除了这些没有标题的图像。为了构建路径-指令对,我们将图像连接起来,并连接相应的标题。每个0路径包含5-7张图像,与R2R数据集一致。对于图像特征,我们使用在ImageNet上预训练的Resnet-152网络提取平均池化特征向量,与Matterport3D中图像的编码方法相同。我们处理的BnB数据包含342K个图像序列-标题对。04. 实验0在本节中,我们对几个下游VLN任务进行全面的实验,并提供详细的消融研究来验证我们提出的方法的有效性。04.1. 下游任务0我们关注四个基于Matterport3D模拟器[3]的下游VLN任务:Room-to-Room(R2R)[3],Room-across-Room(RxR)[18],Navigation from DialogHistory(NDH)[36]和REVERIE[32]。R2R作为一个领域内任务,其他三个任务作为领域外任务。这些任务具有不同的特点,从不同的角度评估代理。0•R2R和RxR是具有低级、细粒度指令的VLN任务,旨在验证代理对未见环境的泛化能力。0•REVERIE是一个具有高级指令的VLN任务,重点是将远程目标对象与环境联系起来。0•NDH是一种使用间接指令(如对话历史)的VLN任务,可用于研究代理的对新任务的泛化能力。04.2. 实现细节0预训练我们使用4个Tesla V100GPU进行预训练。每个GPU的批量大小设置为128。采用AdamW[23]优化器,并将学习率设置为5×10^(-5)。模型训练15个epochs。我们对每个小批量进行任务采样训练。对于每个小批量,我们只选择其中一个五个代理任务来训练模型。0微调与PREVALENT [9]不同,我们使用类似于RecBERT[27]的架构作为微调的基线,其中图像和语言表示都可以用于下游任务。与RecBERT一样,我们使用一个循环函数来更新状态[CLS],并使用其对导航候选项的注意力分布来确定下一步动作。更多细节请参考[12]。对于R2R任务,我们将批量大小设置为16,学习率设置为1×10^(-5)。与之前的工作[12]一样,我们使用R2R的原始训练数据和PREVALENT[9]的增强数据来训练代理。对于NDH和REVERIE任务,我们将批量大小设置为8,学习率设置为1×10^(-5)。Seq2Seq [36]1.231.982.101.252.112.35CMN [41]2.682.282.972.692.262.95PREVALENT [9]2.582.993.151.672.392.44ORIST [30]3.303.293.552.783.173.15HOP (0)3.083.103.382.052.122.26HOP (1)3.963.994.372.923.203.31HOP (2)4.074.054.412.993.183.24154230方法 R2R 验证集已见 R2R 验证集未见 R2R 测试集未见 TL NE Ó SR Ò SPL Ò TL NE Ó SR Ò SPL Ò TLNE Ó SR Ò SPL Ò0SF [7] - 3.36 66 - - 6.62 35 - 14.82 6.62 35 28 RCM [38] 10.65 3.53 67 - 11.46 6.09 43 - 11.97 6.12 4338 Regretful [26] - 3.23 69 63 - 5.32 50 41 13.69 5.69 48 40 Fast-short [16] - - - - 21.17 4.97 56 4322.08 5.14 54 41 EnvDrop [35] 11.00 3.99 62 59 10.70 5.22 52 48 11.66 5.23 51 47 OAAM [31] 10.20 -65 62 9.95 - 54 50 10.40 5.30 53 50 EntityGraph [11] 10.13 3.47 67 65 9.99 4.73 57 53 10.29 4.75 5552 NvEM [1] 11.09 3.44 69 65 11.83 4.27 60 55 12.98 4.37 58 54 ActiveVLN [37] 19.70 3.20 70 52 20.64.36 58 40 21.6 4.33 60 410Press [21] 10.57 4.39 58 55 10.36 5.28 49 45 10.77 5.49 49 45 PREVALENT [9] 10.32 3.67 69 65 10.194.71 58 53 10.51 5.30 54 51 RecBERT [12] 11.13 2.90 72 68 12.01 3.93 63 57 12.35 4.09 63 57 AirBERT[8] 11.09 2.68 75 70 11.78 4.01 62 56 12.41 4.13 62 570HOP (0) 10.75 3.50 66 63 11.80 4.74 54 49 12.53 4.93 55 50 HOP (1) 11.51 2.46 76 70 12.52 3.79 6457 13.29 3.87 64 58 HOP (2) 11.26 2.72 75 70 12.27 3.80 64 57 12.68 3.83 64 590表1.在R2R上与最先进方法的比较。第一组是没有预训练的方法。第二组是现有的基于预训练的方法。第三组是我们的方法。HOP(0)表示我们的基线模型没有预训练。HOP(1)表示在与PREVALENT相同数据上进行微调的预训练模型。HOP(2)表示在PREVALENT和我们从BnB处理的数据上进行预训练的微调模型。蓝色和黑色分别表示最佳和亚军结果。0对于这四个下游的VLN任务,我们首先介绍任务所使用的评估指标,然后将我们的方法与SoTA方法进行比较。具体来说,我们报告了我们的方法在三个设置下的结果:(I) 没有预训练的基准结果,表示为HOP (0);(II)仅使用PREVALENT数据进行预训练的微调结果,表示为HOP (1);(III)使用PREVALENT数据和BnB处理后的数据进行预训练的微调结果,表示为HOP (2)。04.3. 结果0与SoTA的比较表1展示了R2R任务的结果。可以看出我们的模型优于其他方法。04.3.1 房间到房间 (R2R)评估指标采用了四个常用指标:轨迹长度(TL),用于衡量导航轨迹的平均长度;导航误差(NE),即代理停止位置与目标位置之间的最短路径距离的平均值;成功率(SR),衡量成功任务的比例,其中代理停止位置与目标位置之间的距离小于3米;路径长度加权的成功率 (SPL)[2],既衡量导航的准确性又衡量效率。SPL是R2R的关键指标。0Seq2Seq [ 36 ] 1.23 1.98 2.10 1.25 2.11 2.35 CMN [ 41 ] 2.68 2.28 2.97 2.692.26 2.95 PREVALENT [ 9 ] 2.58 2.99 3.15 1.67 2.39 2.44 ORIST [ 30 ] 3.303.29 3.55 2.78 3.17 3.150方法 NDH 验证集 未见NDH 测试集 未见 Oracle 导航器 混合 Oracle 导航器 混合0表2. 与最先进方法在NDH上的比较,以目标进展 (m) 为度量。0在所有数据集和指标上,我们的方法表现优于其他SoTA方法,如RecBERT和AirBERT。我们的方法在测试集未见分割上的主要指标SPL上比它们提高了2%的较大差距。需要注意的是,RecBERT是从PREVALENT的预训练模型初始化的,并且与我们的模型具有相同的架构。这表明我们的预训练能够有效提高代理的导航能力。如果去除我们的预训练,我们观察到在所有指标上都有显著的性能下降,如HOP(0)的结果所示。特别是在测试集未见分割上,成功率下降了9%,SPL下降了9%。04.3.2 对话历史的导航 (NDH)0评估指标NDH使用目标进展 (GP)来评估性能,以米为单位,衡量代理向目标位置的平均进展。0与SoTA方法的比较结果如表2所示。我们的模型优于SoTA方法ORIST。RCM [38]23.3329.4421.8210.7016.2315.369.2914.236.9711.984.893.897.8411.686.6710.603.673.14SMNA [25]41.2543.2939.617.5430.0728.988.1511.286.449.074.543.615.808.394.539.233.102.39FAST-Short [16]45.1249.6840.1813.2231.4128.1110.0820.486.1729.706.243.9714.1823.368.7430.697.074.52FAST-MATTN [32]50.5355.1745.5016.3531.9729.6614.4028.207.1945.287.844.6719.8830.6311.6139.0511.286.08ORIST [30]45.1949.1242.2110.7329.8727.7716.8425.0215.1410.908.527.5822.1929.2018.9711.3810.689.28RecBERT [12]51.7953.9047.9613.4438.2335.6130.6735.0224.9016.7818.7715.2729.6132.9123.9915.8616.5013.51AirBERT [8]47.0148.9842.3415.1632.7530.0127.8934.5121.8818.7118.2314.1830.2834.2023.6117.9116.8313.28HOP (0)43.7846.0340.1111.6728.9526.6924.1730.1620.0716.5212.3510.1823.1226.2718.516.1511.179.1HOP (1)54.8156.0848.0514.0540.5535.7930.3935.3025.1017.1618.2315.3129.1232.2623.3717.0517.1313.90HOP (2)53.7654.8847.1913.8038.6533.8531.7836.2426.1116.4618.8515.7330.1733.0624.3416.3817.6914.344.3.3REVERIE4.3.4Room-Across-Room (RxR)HOP (0)42.00.410.510.3436.30.310.480.29HOP (1)48.30.450.570.4042.10.360.510.33HOP (2)49.40.450.580.4042.30.360.520.33154240方法 REVERIE 验证集 已见 REVERIE 验证集 未见 REVERIE 测试集 未见0导航 RGS Ò RGSPL Ò 导航 RGS Ò RGSPL Ò 导航 RGS Ò RGSPL Ò SR Ò OSR Ò SPL Ò TL SR Ò OSR Ò SPL Ò TL SR Ò OSR Ò SPL Ò TL0人类 – – – – – – – – – – – – 81.51 86.83 53.66 21.18 77.84 51.440表3. 与REVERIE上最先进方法的比较。SPL是其导航子任务的主要指标,RGSPL是REVERIE任务的主要指标。0[30]在所有设置下验证集和测试集未见环境上的表现。特别是在混合设置下,我们的HOP(2)在验证集未见数据上比ORIST提高了1米。我们的方法在Oracle设置下在测试集上的表现也比预训练方法PREVALENT要好得多(约1.3米的提升)。这些结果证明了我们预训练模型的有效性和泛化能力。0评估指标REVERIE使用与R2R相同的指标来评估其导航子任务。此外,还采用了Oracle成功率(OSR)、远程定位成功率(RGS)和路径长度加权的RGS(RGSPL)。OSR衡量的是任务中其中一个轨迹视点可以在3米内观察到目标物体的比例。RGS衡量的是成功定位目标物体的任务比例。RGSPL是RGS加权的路径长度,是该任务的主要指标。0与SoTA的比较结果如表3所示。可以看出,我们的模型在导航子任务的主要指标SPL和整个REVERIE任务的主要指标RGSPL上优于之前的方法。此外,我们还注意到,在测试集上,尽管我们的方法在导航方面根据SR稍微(0.1)不如AirBERT,但我们的SPL和RGSPL结果比AirBERT显著好(1.1)。这表明我们的方法在导航和物体定位方面更有效。0评估指标除了上述的SR和SPL指标外,RxR还采用了归一化动态时间规整(nDTW)[14]和动态时间规整加权成功率(sDTW)来评估性能。这两个指标旨在衡量与地面真实路径的路径保真度。0方法 RxR 验证集已见 RxR 验证集未见 SR Ò SPL Ò nDTW Ò sDTW Ò SR Ò SPL Ò nDTW ÒsDTW Ò0基准线[18] 28.6 - 0.45 0.23 26.1 - 0.42 0.21 EnvDrop [35] 48.1 0.44 0.57 0.40 38.5 0.34 0.510.32 +Syntax [20] 48.1 0.44 0.58 0.40 39.2 0.35 0.52 0.320表4. 使用英文指令在RxR上与最先进方法的比较。0与SoTA方法的比较如表4所示,我们的模型在所有指标上表现优于SoTA方法。特别是在未见数据上,我们的模型在SR上比之前的SoTA提高了3.1%。04.4. 消融研究0预训练任务的效果为了评估不同预训练任务的有效性,我们在R2R、REVERIE和NDH验证集的未见数据上进行了消融研究。结果如表5所示。首先,我们评估了仅使用通用MLM任务的效果。模型1展示了在没有任何预训练的情况下直接在下游VLN任务上训练的基准模型的结果。模型2展示了仅应用MLM进行预训练时的结果。MLM在所有下游VLN任务上都带来了很大的改进,特别是在R2R任务上(6%的SR增益)。其次,我们评估了我们提出的专门为VLN设计的预训练任务的效果,通过将这些任务与MLM在预训练期间结合使用。模型3至模型6分别展示了将MLM与TIM、TOM、GOM和APH任务相结合的结果。结果表明,这四个代理任务都可以进一步提高导航性能。在这四个任务中,APH的贡献最大,其次是TOM、GOM和TIM。这表明,具有历史信息的动作预测确实有助于学习更好的表示。此外,我们发现这些代理任务是互补的。当我们将这些任务组合在一起时,综合效果更好。154250预训练数据 预训练任务 R2R REVERIE NDH SR SPL SR OSR SPL RGS RGSPL 目标进展0无 1 无 54.19 49.35 24.17 30.16 20.07 12.35 10.18 3.380PREVALENT02 MLM 60.75 54.81 27.18 31.84 21.83 15.31 12.48 3.76 3 MLM + TIM 61.52 55.31 28.06 34.76 22.84 16.30 13.293.86 4 MLM + TOM 61.81 54.96 28.57 31.27 22.67 17.98 14.49 3.88 5 MLM + GOM 61.98 55.22 27.83 35.08 22.5317.24 14.14 3.84 6 MLM + APH 62.01 56.13 29.37 34.88 23.76 17.52 14.16 3.88 7 MLM + AP 61.27 55.68 28.6933.20 23.25 16.76 13.64 3.83 8 MLM + TIM + TOM + GOM 63.09 56.61 29.99 35.13 24.66 18.03 15.06 4.04 9 MLM+ TIM + TOM + GOM + APH 63.86 57.07 30.39 35.30 25.10 18.35 15.31 4.370PREVALENT + BnB* 10 MLM + TIM + TOM + GOM + APH 63.52 57.22 31.78 36.24 26.11 18.85 15.73 4.410表5. 预训练任务和数据的消融研究。我们使用R2R、REVERIE和NDH作为基准。其中BnB*表示我们从BnB数据集中处理得到的数据。0图4. APH与AP在行动预测准确性方面的比较。0组合得分(模型8和模型9)比单独得分(模型3和模型6)要高得多。与没有预训练的基准模型相比,我们在R2R上观察到9%的SR增益,在REVERIE上观察到6%的SR增益,在NDH上观察到1米的增益。0预训练数据的影响如表5中的模型10所示,使用PREVALENT和BnB*(我们处理过的BnB数据)的数据进行预训练的模型实现了最佳性能。我们发现,与仅使用PREVALENT数据进行预训练相比,使用额外的BnB*数据进行预训练的模型在REVERIE任务上取得了显著的改进,同时在R2R和NDH任务上保持竞争力。这可能是因为BnB的标题主要描述房间和物体,与REVERIE的物体定位任务相匹配。0历史信息在APH中的影响我们还使用不带历史的行动预测任务对我们的模型进行预训练,以验证参考历史信息对决策的重要性。如图4中的行动预测验证曲线所示,我们的APH在预训练期间收敛速度比AP更快,并导致0更高的准确性。此外,如表5(模型6和模型7)所示,具有历史记录的行动预测在所有三个下游任务和所有指标上均比没有历史记录的行动预测表现更好。因此,对于视觉语言预训练的VLN任务,历史信息是有益的。04.5. 限制和未来工作0与大多数现有的预训练方法一样,我们模型的训练也需要大量的计算资源。在未来,我们将探索更高效的模型架构。此外,我们目前的工作集中在室内和基于导航图的环境中。未来我
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功