预训练学习的通用代理用于视觉与语言导航任务

189 浏览量更新于2023-10-23 收藏 15.29MB PDF 举报

自监督学习

泛化能力

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{weituo.hao, lcarin}@duke.edu{chunyl,xiul,jfgao}@microsoft.com1. Introduction∗Corresponding author†Equal Contribution‡Work performed dur-ing an internship at MSR1PRE-TRAINED VISION-AND-LANGUAGE BASED NAVIGATOR1131370通过预训练学习视觉与语言导航的通用代理0郝伟拓 1 †‡ ，李春源 2 †� ，李修军 2 ，Lawrence Carin 1 ，高建峰 201 杜克大学 2 微软研究院，雷德蒙德0摘要0学习根据自然语言指令在视觉环境中导航是一项具有挑战性的任务，因为代理的多模态输入具有高度的变异性，并且新任务的训练数据通常有限。我们提出了第一个用于视觉与语言导航（VLN）任务的预训练和微调范式。通过以自监督学习的方式对大量的图像-文本-动作三元组进行训练，预训练模型提供了视觉环境和语言指令的通用表示。它可以轻松地用作现有VLN框架的插件，从而导致提出的代理PREVALENT1。它在新任务中学习更有效，并且在以前未见过的环境中具有更好的泛化能力。在三个VLN任务上验证了性能。在Room-to-Room[3]基准测试中，我们的模型将成功率（按路径长度加权）从47％提高到51％，进一步，学到的表示可以迁移到其他VLN任务。在最近的两个任务中，即视觉和对话导航[30]和“Help, Anna!”[22]，提出的PREVALENT相对于现有方法取得了显著的改进，达到了新的最佳水平。0学习根据自然语言指令在逼真的家庭环境中导航已经引起了越来越多的研究兴趣[23, 14, 7, 3,6]，因为它为多模态表示提供了核心科学问题的洞察。它还迈出了向实际应用（如个人助理和家庭机器人）迈进的一步。视觉与语言导航（VLN）对代理来说是一个具有挑战性的推理问题，因为多模态输入具有高度的变异性，固有的模糊性，并且通常是不完全规定的。0大多数先前的方法都建立在序列到序列架构[26]上，其中指令被编码为一系列单词，导航轨迹被解码为一系列动作，增强了注意机制[3, 32,18]和波束搜索[9]。虽然已经提出了一些方法[20, 21,33]来改进语言理解，但所有现有工作的共同点是代理学习从头开始或独立地理解每个指令，而没有共同利用先前的视觉基础领域知识。然而，实际上每个指令只与所需导航路径部分对齐，使其对于从头开始学习理解指令的现有范式来说是不完美的。这是因为（i）每个指令只能部分描述轨迹。在没有基于视觉状态的基础上，解释指令可能是模糊的。（ii）视觉状态中的对象和语言指令可能共享各种常见的形式/关系，因此在下游任务中提前构建一个信息丰富的联合表示，并使用这种“共同知识”进行迁移学习是自然的。为了更有效地解决指令的这种自然模糊性，我们提出了预训练编码器以对齐语言指令和视觉状态以进行联合表示。每个时间步的图像-文本-动作三元组独立地输入模型，模型被训练以预测掩码词标记和下一个动作，从而形成自学习范式中的VLN预训练。然后，通过消除缺乏与视觉状态一致性的语言理解，可以减少VLN学习的复杂性。预训练模型起到提供通用图像-文本表示的作用，并适用于大多数现有的VLN方法，从而导致我们的代理PREVALENT。我们考虑了三个VLN场景作为下游任务：Room-to-room（R2R）[3]，合作视觉和对话导航（CVDN）[30]和“Help,Anna!”（HANNA）[22]。图1显示了整体的预训练和微调流程。全面的实验证明了P REVALENT的强大经验性能。AAAB/3icbVBNSwMxEM3Wr1q/VgUvXoJF8FR2RdBj0YvHCrYVukvJZtM2NMkuyaxY1h78K148KOLVv+HNf2Pa7kFbHww83ptJZl6UCm7A876d0tLyyupaeb2ysbm1vePu7rVMkmnKmjQRib6LiGGCK9YEDoLdpZoRGQnWjoZXE799z7ThibqFUcpCSfqK9zglYKWuexAAewDKNRUszgMjiRDYH3fdqlfzpsCLxC9IFRVodN2vIE5oJpkCKogxHd9LIcyJBm5fHleCzLCU0CHps46likhmwny6/xgfWyXGvUTbUoCn6u+JnEhjRjKynZLAwMx7E/E/r5NB7yLMuUozYIrOPuplAkOCJ2HgmGtGQYwsIVRzuyumA6IJBRtZxYbgz5+8SFqnNd+r+Tdn1fplEUcZHaIjdIJ8dI7q6Bo1UBNR9Iie0St6c56cF+fd+Zi1lpxiZh/9gfP5A0Pqljw=AAAB/3icbVBNSwMxEM3Wr1q/VgUvXoJF8FR2RdBj0YvHCrYVukvJZtM2NMkuyaxY1h78K148KOLVv+HNf2Pa7kFbHww83ptJZl6UCm7A876d0tLyyupaeb2ysbm1vePu7rVMkmnKmjQRib6LiGGCK9YEDoLdpZoRGQnWjoZXE799z7ThibqFUcpCSfqK9zglYKWuexAAewDKNRUszgMjiRDYH3fdqlfzpsCLxC9IFRVodN2vIE5oJpkCKogxHd9LIcyJBm5fHleCzLCU0CHps46likhmwny6/xgfWyXGvUTbUoCn6u+JnEhjRjKynZLAwMx7E/E/r5NB7yLMuUozYIrOPuplAkOCJ2HgmGtGQYwsIVRzuyumA6IJBRtZxYbgz5+8SFqnNd+r+Tdn1fplEUcZHaIjdIJ8dI7q6Bo1UBNR9Iie0St6c56cF+fd+Zi1lpxiZh/9gfP5A0Pqljw=AAAB/3icbVBNSwMxEM3Wr1q/VgUvXoJF8FR2RdBj0YvHCrYVukvJZtM2NMkuyaxY1h78K148KOLVv+HNf2Pa7kFbHww83ptJZl6UCm7A876d0tLyyupaeb2ysbm1vePu7rVMkmnKmjQRib6LiGGCK9YEDoLdpZoRGQnWjoZXE799z7ThibqFUcpCSfqK9zglYKWuexAAewDKNRUszgMjiRDYH3fdqlfzpsCLxC9IFRVodN2vIE5oJpkCKogxHd9LIcyJBm5fHleCzLCU0CHps46likhmwny6/xgfWyXGvUTbUoCn6u+JnEhjRjKynZLAwMx7E/E/r5NB7yLMuUozYIrOPuplAkOCJ2HgmGtGQYwsIVRzuyumA6IJBRtZxYbgz5+8SFqnNd+r+Tdn1fplEUcZHaIjdIJ8dI7q6Bo1UBNR9Iie0St6c56cF+fd+Zi1lpxiZh/9gfP5A0Pqljw=AAAB/3icbVBNSwMxEM3Wr1q/VgUvXoJF8FR2RdBj0YvHCrYVukvJZtM2NMkuyaxY1h78K148KOLVv+HNf2Pa7kFbHww83ptJZl6UCm7A876d0tLyyupaeb2ysbm1vePu7rVMkmnKmjQRib6LiGGCK9YEDoLdpZoRGQnWjoZXE799z7ThibqFUcpCSfqK9zglYKWuexAAewDKNRUszgMjiRDYH3fdqlfzpsCLxC9IFRVodN2vIE5oJpkCKogxHd9LIcyJBm5fHleCzLCU0CHps46likhmwny6/xgfWyXGvUTbUoCn6u+JnEhjRjKynZLAwMx7E/E/r5NB7yLMuUozYIrOPuplAkOCJ2HgmGtGQYwsIVRzuyumA6IJBRtZxYbgz5+8SFqnNd+r+Tdn1fplEUcZHaIjdIJ8dI7q6Bo1UBNR9Iie0St6c56cF+fd+Zi1lpxiZh/9gfP5A0Pqljw=AAAB/3icbVDLSsNAFJ3UV62vqODGzWARXJWkCLosunFZwT6gCWUymbRDZ5IwcyOW2IW/4saFIm79DXf+jdM2C209cOFwzr0z954gFVyD43xbpZXVtfWN8mZla3tnd8/eP2jrJFOUtWgiEtUNiGaCx6wFHATrpooRGQjWCUbXU79zz5TmSXwH45T5kgxiHnFKwEh9+8gD9gCUKypYmHtaEiFwfdK3q07NmQEvE7cgVVSg2be/vDChmWQxUEG07rlOCn5OFHDz8qTiZZqlhI7IgPUMjYlk2s9n+0/wqVFCHCXKVAx4pv6eyInUeiwD0ykJDPWiNxX/83oZRJd+zuM0AxbT+UdRJjAkeBoGDrliFMTYEEIVN7tiOiSKUDCRVUwI7uLJy6Rdr7lOzb09rzauijjK6BidoDPkogvUQDeoiVqIokf0jF7Rm/VkvVjv1se8tWQVM4foD6zPH0Vvlj0=AAAB/3icbVDLSsNAFJ3UV62vqODGzWARXJWkCLosunFZwT6gCWUymbRDZ5IwcyOW2IW/4saFIm79DXf+jdM2C209cOFwzr0z954gFVyD43xbpZXVtfWN8mZla3tnd8/eP2jrJFOUtWgiEtUNiGaCx6wFHATrpooRGQjWCUbXU79zz5TmSXwH45T5kgxiHnFKwEh9+8gD9gCUKypYmHtaEiFwfdK3q07NmQEvE7cgVVSg2be/vDChmWQxUEG07rlOCn5OFHDz8qTiZZqlhI7IgPUMjYlk2s9n+0/wqVFCHCXKVAx4pv6eyInUeiwD0ykJDPWiNxX/83oZRJd+zuM0AxbT+UdRJjAkeBoGDrliFMTYEEIVN7tiOiSKUDCRVUwI7uLJy6Rdr7lOzb09rzauijjK6BidoDPkogvUQDeoiVqIokf0jF7Rm/VkvVjv1se8tWQVM4foD6zPH0Vvlj0=AAAB/3icbVDLSsNAFJ3UV62vqODGzWARXJWkCLosunFZwT6gCWUymbRDZ5IwcyOW2IW/4saFIm79DXf+jdM2C209cOFwzr0z954gFVyD43xbpZXVtfWN8mZla3tnd8/eP2jrJFOUtWgiEtUNiGaCx6wFHATrpooRGQjWCUbXU79zz5TmSXwH45T5kgxiHnFKwEh9+8gD9gCUKypYmHtaEiFwfdK3q07NmQEvE7cgVVSg2be/vDChmWQxUEG07rlOCn5OFHDz8qTiZZqlhI7IgPUMjYlk2s9n+0/wqVFCHCXKVAx4pv6eyInUeiwD0ykJDPWiNxX/83oZRJd+zuM0AxbT+UdRJjAkeBoGDrliFMTYEEIVN7tiOiSKUDCRVUwI7uLJy6Rdr7lOzb09rzauijjK6BidoDPkogvUQDeoiVqIokf0jF7Rm/VkvVjv1se8tWQVM4foD6zPH0Vvlj0=AAAB/3icbVDLSsNAFJ3UV62vqODGzWARXJWkCLosunFZwT6gCWUymbRDZ5IwcyOW2IW/4saFIm79DXf+jdM2C209cOFwzr0z954gFVyD43xbpZXVtfWN8mZla3tnd8/eP2jrJFOUtWgiEtUNiGaCx6wFHATrpooRGQjWCUbXU79zz5TmSXwH45T5kgxiHnFKwEh9+8gD9gCUKypYmHtaEiFwfdK3q07NmQEvE7cgVVSg2be/vDChmWQxUEG07rlOCn5OFHDz8qTiZZqlhI7IgPUMjYlk2s9n+0/wqVFCHCXKVAx4pv6eyInUeiwD0ykJDPWiNxX/83oZRJd+zuM0AxbT+UdRJjAkeBoGDrliFMTYEEIVN7tiOiSKUDCRVUwI7uLJy6Rdr7lOzb09rzauijjK6BidoDPkogvUQDeoiVqIokf0jF7Rm/VkvVjv1se8tWQVM4foD6zPH0Vvlj0=“speaker” model were introduced for data augmentation. Anovel neural decoding scheme was proposed in [12] withsearch, to balance global and local information. To improvethe alignment of the instruction and visual scenes, a visual-textual co-grounding attention mechanism was proposedin [18], which is further improved with a progress moni-tor [19]. To improve the generalization of the learned policyto unseen environments, reinforcement learning has beenconsidered, including planning [33], and exploration of un-seen environments using a off-policy method [32]. An envi-ronment dropout was proposed [28] to generate more envi-ronments based on the limited data, so that it can generalizewell to unseen environments. These methods are speciﬁ-cally designed for particular tasks, and hard to generalizefor new tasks. In this paper, we propose the ﬁrst genericagent that is pre-trained to effectively understand vision-language inputs for a broad range of navigation tasks, andcan quickly adapt to new tasks. The most related agent toours is PRESS [16]. However, our work is different from[16] from two perspectives: (i) PRESS employs an off-the-shelf BERT [8] model for language instruction understand-ing, while we pre-train a vision-language encoder fromscratch, speciﬁcally for the navigation tasks. (ii) PRESSonly focuses on the R2R task, while we verify the effective-ness of our pre-trained model on three tasks, including twoout-of-domain navigation tasks.131380��0��0��0��0��0��0��0��0�0参加遮蔽LM。0�0�0�0向下走然后右转0图像-文本-行动三元组01 �02 0行动预测0图1：VLN的预训练和微调范式的示意图。图像-文本-行动三元组是从R2R数据集中收集的。该模型通过两个自监督学习目标进行预训练，并针对三个任务进行微调：R2R、CVND和HANNA。R2R是一个领域内任务，在开始时给出语言指令，描述完整的导航路径。CVND和HANNA是领域外任务；前者是基于对话历史进行导航，而后者是一个交互环境，在导航过程中给出中间指令。0PREVALENT在所有三个任务上都取得了最新的成果2。与现有方法相比，它适应更快，并且对未见环境和新任务具有更好的泛化能力。我们的代码和预训练模型已在GitHub上发布3。02. 相关工作0视觉语言预训练视觉语言预训练（VLP）是一个快速发展的研究领域。现有的方法采用类似BERT的目标[8]来学习各种视觉语言问题的跨模态表示，例如视觉问答、图像文本检索和图像字幕等[25, 27, 17, 34, 24,15]。然而，这些VLP工作只关注学习视觉语言领域的表示。本文提出了第一个预训练模型，在强化学习环境中通过行动来实现视觉语言理解。此外，现有的VLP方法需要更快的R-CNN特征作为视觉输入[10,2]，这对于VLN来说并不容易适用。最先进的VLN系统是基于全景视图的（例如，R2R每个视图有36张图像），因此对于所有视图提取区域特征并将其馈送给代理是计算上不可行的。02 在此提交时的所有公共结果。3https://github.com/weituo12321/PREVALENT03. 背景0VLN任务可以被定义为一个部分可观察的马尔可夫决策过程（POMDP）M = hS, A, Ps,ri，其中S是视觉状态空间，A是离散动作空间，Ps是未知的环境分布，从中我们抽取下一个状态，ri∈R是奖励函数。在每个时间步t，智能体首先观察到一个RGB图像st∈S，然后采取一个动作at∈A。这导致模拟器生成一个新的图像观察st+1�Ps(∙|st,at)作为下一个状态。智能体与环境顺序交互，并生成长度为T的轨迹。当智能体选择特殊的STOP动作或达到预定义的最大轨迹长度时，该回合结束。如果轨迹τ在预定的目标位置终止，则导航成功完成。0在典型的VLN设置中，指令被表示为一组X={xi}Mi=1，其中M是备选指令的数量，每个指令xi由Li个词标记组成，xi=[xi,1, xi,2, ..., xi,Li]。训练数据集DE={τ,x}由指令x及其对应的专家轨迹τ的配对组成。然后，智能体通过对策略π进行最大似然估计（MLE）来学习导航，基于A` = Softmax(>131390个体序列：0max θ Lθ(τ, x)=log θ(τ | x)=0t =1 log θ (at | st, x), (1)0其中θ是策略参数。策略通常被参数化为基于注意力的Seq2Seq模型[3,9]，以teacher-forcing的方式进行训练，即在训练的每一步都提供了真实的状态st。这允许将策略重新参数化为编码器-解码器架构，通过考虑函数分解πθ = fθE ◦ fθD：0• 视觉语言编码器fθE: {st, x} →zt，其中zt是在时间步t上对视觉状态st和语言指令x进行联合表示的学习结果。0• 动作解码器fθD: {st, zt} →at。对于每个联合表示st，我们通过神经注意力将其与st对齐，并解码为动作at。成功的导航在很大程度上取决于对自然语言指令和视觉状态的精确联合理解[29]。我们将编码器阶段隔离出来，专注于为各种导航任务预训练一个通用的视觉语言编码器。04. 预训练模型0我们的预训练模型旨在为VLN中的图像-文本输入提供联合表示。04.1. 输入嵌入0输入嵌入层将输入（即全景图和语言指令）转换为两个特征序列：图像级别的视觉嵌入和句子级别的词嵌入。0根据[9]的方法，我们使用全景图作为智能体的视觉输入。每个全景图总共由36张图片组成（每个角度12张图片，每个角度有3个相机姿态）：s=[s1, ...,s36]。每张图片表示为一个2176维的特征向量s=[sv,sp]，由两个向量的拼接得到：(i)图片的2048维视觉特征sv是由Residual Network(ResNet)提取的[11]；(ii)128维的方向特征向量sp重复32次，其中θ和φ分别是方位角和仰角[9]。每张图片的嵌入表示为：0h = Layer-Norm(We s + be)) (2)0在我们的实验中，W是一个权重矩阵，b是偏置项，d=768。我们在这个全连接层的输出上使用了层归一化（LN）[4]。图2（a）展示了视觉嵌入的示意图。0�0��0�0�0��0��0�0��0��0��0�0��0��0��0��0��0��0��0�0��0��0��0��0��0��0（a）视觉嵌入（b）文本嵌入0图2：（a）视觉嵌入的表示过程和（b）文本嵌入的表示过程示意图。FC是全连接层，LN是层归一化层。0文本嵌入语言指令的嵌入层遵循标准的Transformer，其中LN应用于令牌嵌入和位置嵌入的求和。文本嵌入的示意图如图2（b）所示。04.2. 编码器架构0我们的骨干网络有三个主要模块：两个单模态编码器（每个模态一个），然后是一个跨模态编码器。所有模块都基于多层Transformer[31]。对于第`个Transformer层，其输出为0H' = T(H'-1, H0, M)（3）0其中Hl-1∈RL×dh是前一层的特征（L是序列长度），H0∈RL0×dh是要关注的特征矩阵，M∈RL×L0是掩码矩阵，确定一对令牌是否可以相互关注。具体来说，在每个Transformer块中，输出向量是多个注意力头H`=[A`,1,∙∙∙,A`,h]（h是头的数量）的串联。一个注意力头A通过以下计算得到：0pdk + M)V，（4）0Mij = � 0，允许关注-1，不允许关注（5）0Q = WQ`H0，K = WK`Hl-1，V = WV`Hl-1（6）0其中Hl-1和H0通过参数矩阵WQ'，WK'，WV'进行线性投影，分别得到查询、键和值的三元组，其中dK是投影维度。接下来，我们使用不同的掩码进行处理。…………131400��0��0�0��0��0��0�0��0��0��0�0��0��0�0��0[CLS]向下走并转向[MASK][SEP]0��0��0��0��0��0��0��0��0��0�0输入0特征0嵌入0跨模态0单模态0多模态目标0图3：所提出的预训练模型的示意图。在这个例子中，考虑了两个学习目标：（i）对指令中的被屏蔽单词“right”进行图像-注意力掩码语言建模；（ii）进行动作预测，以决定向方向“180”导航。下游任务中只使用语言特征进行微调。0矩阵M和注意力特征矩阵H0用于构建每个模块的上下文表示。0单模态编码器使用了标准的自注意力层。所有的键、值和查询都来自编码器中前一层的输出。编码器中的每个位置可以关注前一层中属于自己模态的所有位置。具体而言，M是一个全零矩阵，H0 =Hl-1。类似于标准Transformer中的自注意力编码器模块，我们使用位置级前馈网络（FFN）。0跨模态编码器为了融合两种模态的特征，考虑了一个交叉注意力层。查询H0来自另一模态的前一层，而记忆键和值来自当前模态的输出Hl-1。它允许编码器中的每个位置关注不同模态中的所有位置。这模仿了Transformer中典型的编码器-解码器注意力机制，但这里考虑了两种不同的模态，而不是输入-输出序列。这个交叉注意力层后面是一个自注意力层和一个FFN层。整体模型架构如图3所示。根据[27]，Ltext= 9，Lvision = 1，Lcross =3。编码器的最后一层输出被表示为z =hLcross，用作下游任务中的特征。04.3. 预训练目标0我们引入了两个主要任务来预训练我们的模型：图像关注的遮蔽语言建模（MLM）和动作预测（AP）。对于来自训练数据集DE的指令-轨迹对{x, τ}，我们假设一个状态-0在预训练阶段，轨迹中的动作对(s t, at)在给定指令的情况下遵循独立相同分布：(s t, a t) iid �p(τ)。0关注的遮蔽语言建模我们随机屏蔽输入单词的概率为15%，并用特殊标记[MASK]替换被屏蔽的单词xi。目标是基于其周围单词x \i和所有图像s的观察来预测这些屏蔽单词，通过最小化负对数似然来实现：0L MLM = -E s � p(τ), (τ, x) �D E log p(xi | x \ i, s) (7)0这类似于BERT中的填空任务，其中通过周围单词恢复被屏蔽的单词，但额外提供了图像信息进行关注。它有助于学习的词嵌入在视觉状态的上下文中有所依据。这对于VLN任务尤为重要，因为代理需要通过理解视觉图像来监控完成指令的进度。0动作预测特殊标记[CLS]上的输出表示两种模态的融合表示。我们在[CLS]的编码器输出之上应用一个全连接层来预测动作。它评分了代理在当前视觉图像和指令的条件下能否做出正确决策的能力，而不需要参考轨迹历史。在训练过程中，我们在每一步从轨迹τ中采样一个状态-动作对(s,a)，然后应用交叉熵损失进行优化：0L AP = -E (a, s) � p(τ), (τ, x) �D E log p(a | x [CLS], s) (8)0完整的预训练目标是：0L Pre-training = L MLM + L AP (9)131410讨论可以考虑其他的预训练目标设计。我们在遮蔽图像建模方面的结果并没有显示出更好的结果，因此在实验中被排除了。04.4. 预训练数据集0我们基于Matterport3D模拟器构建了我们的预训练数据集，这是一个基于Matterport3D数据集[5]开发智能代理的照片级真实视觉强化学习（RL）模拟环境。具体而言，它由两个集合组成：（i）R2R的训练数据集，包含104K个图像-文本-动作三元组；（ii）我们使用[9]中的Speaker模型合成了1,020K条关于训练环境中最短路径轨迹的指令。这导致了6,482K个图像-文本-动作三元组。因此，预训练数据集的大小为6,582K。05. 适应新任务0我们专注于基于Matterport3D模拟器的三个下游VLN任务。每个任务对评估代理的能力提出了非常不同的挑战。（i）R2R任务用作域内任务；它可以验证代理对未见环境的泛化能力。（ii）CVDN和HANNA被视为域外任务，用于研究代理对新任务的泛化能力。具体而言，CVDN考虑间接指令（即对话历史），而HANNA是一个交互式强化学习任务。05.1. 从房间到房间0在R2R中，目标是根据语言指令从起始位置导航到目标位置，使轨迹长度最小化。为了在R2R中使用预训练模型进行微调，将注意力上下文化的词嵌入输入到LSTM编码器-解码器框架中，如[9,16]所示。在之前的工作中，[9]使用随机初始化，[16]使用BERT。相比之下，我们的词嵌入是从头开始使用VLN数据和任务进行预训练的。05.2. 合作式视觉和对话导航0在CVDN环境中，定义了基于对话历史的导航（NDH），其中代理根据由代理和其合作伙伴之间的多轮问答交互组成的对话历史，在环境中搜索目标位置。合作伙伴可以根据最短路径规划器提供的最佳下一步来指导代理应该采取的行动。CVDN比R2R更具挑战性，因为对话历史中的指令通常是模棱两可的、不充分的，并且与最终目标间接相关。CVDN的微调模型架构与R2R相同，只是CVND通常具有更长的文本输入。我们将序列长度限制为0300. 对话历史中超过300个字符的单词将被删除。05.3. HANNA: 交互式模仿学习0HANNA模拟了一个场景，其中一个人通过语言向代理提问，在室内环境中找到一个物体，而不指定如何完成任务的过程。代理在环境中唯一可以利用的帮助来源是助手，助手通过（i）自然语言指令引导代理到特定位置，和（ii）该位置的视图图像来帮助代理。当触发帮助模式时，我们使用预训练模型对语言指令进行编码，并将特征用于其余部分的系统。06. 实验结果06.1. 训练细节0预训练我们在八个V100GPU上对提出的模型进行预训练，每个GPU的批量大小为96. 使用AdamW优化器[13]，学习率为5 × 10^(-5).总的训练轮数为20.0微调在NVIDIA 1080TiGPU上进行微调。对于R2R任务，我们遵循与[28]相同的学习计划。在训练增强型侦听器时，我们使用批量大小20.我们继续对交叉注意力编码器进行20k次迭代的微调，批量大小为10，学习率为2 × 10^(-6).对于NDH任务，我们遵循[30]中的相同学习计划，批量大小为15，学习率为5 × 10^(-4).对于HANNA，训练计划与[22]相同。批量大小为32，学习率为1 × 10^(-4).06.2. 从房间到房间0数据集R2R数据集[3]包含10,800个全景视图（每个全景视图有36个图像）和7,189个轨迹。每个轨迹与三个自然语言指令配对。R2R数据集包括四个拆分：训练集、验证集（已见和未见）、测试集（未见）。R2R的挑战在于测试代理在未见环境中的泛化能力。0评估指标不同代理的性能使用以下指标进行评估：TLTrajectory Length 衡量导航轨迹的平均长度。NENavigation Error是代理的最终位置与目标位置之间的最短路径距离的平均值（以米为单位）。RANDOM9.589.4516-9.779.2316-9.939.771312SEQ2SEQ11.336.0139-8.397.8122-8.137.852018RPA-5.5643--7.6525-9.157.532523SPEAKER-FOLLOWER-3.3666--6.6235-14.826.623528SMNA--------18.045.674835RCM+SIL(TRAIN)10.653.5367-11.466.0943-11.976.124338REGRETFUL-3.236963-5.32504113.695.694840FAST----21.174.97564322.085.145441ENVDROP11.003.99625910.705.22524811.665.235147PRESS10.574.39585510.365.28494510.775.494945M PRESS10.353.09716710.064.31595510.524.535753PREVALENT10.313.3167639.984.12605710.214.525956Human--------11.851.618676131420验证已见环境验证未见环境测试未见环境代理 TL ↓ NE ↓ SR ↑ SPL ↑ TL ↓ NE ↓ SR ↑ SPL ↑ TL ↓ NE ↓ SR ↑ SPL ↑0贪婪, S0P REVALENT (我们的方法) 10.32 3.67 69 65 10.19 4.71 58 53 10.51 5.30 54 510表1：在R2R上与最先进方法的比较。蓝色表示给定设置中的最佳值。S表示单指令设置，M表示多指令设置。0SR Success Rate是代理的最终位置距离目标位置小于3米的百分比。SPLSuccess weighted by Path Length [ 1 ]在SR和TL之间进行权衡。更高的分数表示导航效率更高。在这些指标中，SPL是推荐的主要指标，其他指标被视为辅助指标。0基准我们将我们的方法与最近发表的九个系统进行比较： •R ANDOM：一个随机选择方向并向该方向移动五步的代理[ 3 ]。 •S2S-A NDERSON：使用有限的离散动作空间的序列到序列模型[ 3 ]。 • RPA[ 33]：结合无模型和基于模型的强化学习，使用一个前瞻模块进行规划。 • S PEAKER -F OLLOWER [ 9]：一个在全景动作空间上使用说话者模型进行数据增强训练的代理。 • S MNA [ 18]：一个在全景动作空间上使用视觉-文本共同基础模块和进度监视器进行训练的代理。 • RCM+SIL [ 32]：一个通过强化学习在局部和全局上进行跨模态基础训练的代理。 • R EGRETFUL [ 19]：一个具有训练的进度监视器启发式搜索的代理，可以进行回溯。 • F AST [ 12]：一个使用融合函数对不同长度的部分轨迹进行评分和比较的代理，使代理能够在出错后高效地回溯。0• E NV D ROP [ 28]：一个使用环境dropout进行训练的代理，可以基于有限的已见环境生成更多的环境。 • P RE SS [ 16]：一个使用预训练的语言模型和随机采样进行训练的代理，以在未见环境中具有良好的泛化能力。0与最先进方法的比较表1比较了我们的代理与现有发布的顶级系统的性能。4.我们的代理PREVALENT在SR和SPL上的表现大大优于现有模型。在验证已见和未见环境中，PREVALENT在几乎所有指标上都优于其他代理。在P RE SS [16 ]中，使用了多个引导。为了进行公平比较，我们遵循[16 ]，报告PREVALENT的结果。我们可以看到测试SPL得到了改善。此外，P REVALENT的已见和未见环境之间的差距比P RESS更小，这意味着图像关注的语言理解对帮助代理更好地泛化到未见环境更有效。06.3. 合作视觉和对话导航0数据集和评估指标CVDN数据集包含2050个人-人导航对话，涵盖了83个MatterPort房屋中的7K多个导航轨迹，其中穿插了问答交流。R2R的度量标准可以直接用于CVDN数据集。此外，还提出了一种新的度量标准用于NDH任务：GP（目标进展）衡量已完成距离与目标剩余距离之间的差异。0完整的排行榜可以在以下链接中公开查看：https://evalai.cloudcv.org/web/challenges/challenge-page/97/leaderboard/270131430验证集未见测试集未见 Agent Oracle Navigator Mixed Oracle Navigator Mixed0随机 1.09 1.09 1.09 0.83 0.83 0.83 顺序 2顺序 1.23 1.98 2.10 1.25 2.11

下载后可阅读完整内容，剩余1页未读，立即下载