视觉语言导航中的指令生成与跟随的相关性分析及模型改进

52 浏览量更新于2023-10-25 收藏 1018KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

115471视觉语言导航王汉青1，2，魏良1，沈建兵3，吕克·范古尔2，王文冠4，1北京理工大学2苏黎世联邦理工学院3澳门大学SKL-IOTSC4悉尼科技大学ReLER，AAIIhttps://github.com/HanqingWangAI/CCC-VLN摘要自视觉语言导航（VLN）兴起以来，指令跟随（在指令的指导下构建跟随者导航环境）取得了很大进展然而，很少有人注意到反向任务：指令生成现有的VLN方法独立地训练说话者，并且通常将其视为数据增强工具以加强跟随者，而忽略了丰富的跨任务关系。在这里，我们描述了一种同时学习这两个任务的方法，并利用它们的内在相关性来提高每个任务的训练：跟随者判断说话者创建的指令是否正确地解释了原始导航路线，反之亦然。在不需要对齐的指令-路径对的情况下，这种周期一致性学习方案是对在标记数据上定义的任务特定训练目标的补充另一个名为creator的agent被添加来生成反事实环境。它极大地改变了当前的场景，但保留了对执行原始指令至关重要的新项目从而合成了信息量更大的训练场景，三个智能体组成了一个功能强大的VLN学习系统。在标准基准上的大量实验表明，我们的方法提高了各种追随者模型的性能，并产生准确的导航指令。1. 介绍视觉语言导航（VLN）[7]，即，使智能体能够在给定人类指令的现实环境中导航，已经受到了极大的关注（图1）。1（a））。许多强大的寻路代理（即，跟随者）被开发来执行这种具体化指令跟随任务。不幸的是，反向任务--事实上，指令生成也是AI至关重要的能力* 通讯作者：王文冠。XAEE¯一X图1：（a）VLN [7]。(b)我们的反事实循环一致（CCC）学习系统由三个主体组成，即，用于指令生成的说话者S（）、用于指令跟随的跟随者F（）以及用于反事实环境创建的创建者C（剂. 在许多情况下，AI代理应该能够与人类进行有效的协作，而不仅仅是执行指令[76，29]。例如，当一个人-机器人小组正在进行搜索和救援[68，18，75]时，人类可能首先发出命令（例如，“explore along thisdirection until the end of the hallway”) that direct the robot在这个过程中，机器人被期望报告它的进度（例如，“I have inspected three rooms”) and explain its plan ( “Iwill continue to navigate this direction and stop at the endof the hallway”) [机器人识别因此，机器人甚至可以反过来帮助人类导航其探索区域（这是人类不熟悉的）[27]，例如，“go straight and you will pass through除了强调指令生成的重要性之外，我们还探讨了115472∈X∈A∈ E×XE ×X ›→A一EXE ×A ›→XE ×X ×A <$→E∈ E∈ E × X ×A∈ E ×AΔΔΔ···指令跟踪和生成，以获得强大的VLN学习框架。具体而言，给定视觉环境空间、语言指令空间和导航路径空间，指令跟随学习跟随者f：，其将视觉观察和可导航方向映射到动作序列，而指令生成学习说话者s：，其将观察和动作序列映射到可信指令。显然，在s和f的输入和输出空间之间存在很强的依赖性。令人惊讶的是，这种任务相关性长期被忽视;当前的VLN方法仅学习孤立的说话者作为用于数据增强的一次性插件[24，66]。相反，我们建议在一个紧凑的、周期一致的学习框架（图（b）款。在训练期间，（E，X）首先被映射到A，通过下面的f（），然后转换为指令X，通过speak ker（），i. 例如， s（E，A）.在示例E中，X和X之间的相异性被表示为E（X，X_∞）作为反馈信号，对训练进行再评价。类似地，giv en（E，A），E（A，A）可以估计并用于训练。作为比如“离开门”，代理构建一个反事实，比如“如果我走进门，指令应该是什么？”通过用人工指令增加采样路径。这使得智能体可以通过执行它实际上没有执行的替代动作来更有效地训练[25]。虽然我们的说话者-跟随者游戏自然支持这种基于路径采样的反事实思维，（即，如前所述，在训练过程中涉及未标记的数据（E，A′），我们的创建者可以构建另一种反事实，例如，“if I change current environment by, forexample, removing or putting in a lot of furniture that areirrelevant to the instruction, I will still execute the 具体地，给定环境-预防-路径元组（E，X，A），创建者c：，suchi）E′与E有很大的不同，ii）E′应该仍然与原始的搜索路径对（X，A）对齐。与i) 和ii），我们处理多样性和现实主义，在反事实思维中被证明是至关重要的[26，84]。因此，由于E和（X，A）组成一个新的有效训练样本，循环一致误差，即，Δ<$（A，A<$）和Δ<$（X ，X<$），可以Δ误差为E E估计超过仅关于（E，X）和（E，A）上的循环一致性，定义在标记三元组上的任何其它训练目标，即，（E，X，A）是相容的。因此，我们可以将这样的学习系统应用于采样a环境E中的路径A′没有相应的指令，第两种方法都有标记的路径样本和未标记的路径样本。可以在训练期间同时使用标记的路径。这比当前事实上的VLN训练协议[24，66]更优雅，该协议具有三个阶段：i）在对齐的重复路径样本上分别训练跟随者和说话者;ii) 使用扬声器为随机采样路径创建合成指令;以及iii）在伪跟踪路径样本上微调跟随器。此外，由于从伪并行数据学习不可避免地伴随着数据质量问题（即，伪指令路径样本的质量难以保证）[47]，我们的说话人-跟随者协作学习游戏更受青睐，即，错误可以被视为质量分数和发挥超级-增强f和s训练的信号。除了发言者和追随者，另一个名为creator（）的代理被放入我们的周期一致性学习游戏中。创建器作为一个即插即用的组件，用于虚拟环境合成，实现更强大的训练。思考过去或未来事件的替代可能性是人类思维的核心[62]。我们经常构建反事实（“与事实相反”）：会发生什么？反事实思维使我们能够灵活地通过心理模拟从过去有限的经验中学习。然而，这个问题很少在VLN中得到最近，[25]解释了当前流行的数据增强技术[24]-–（E，X，A）。通过这种方式，我们的演讲者，追随者和创造者形成了一个强大的学习系统，巧妙地利用了跨任务和跨模态连接，类似于反事实思维过程。我们的反事实循环一致性（CCC）框架通过策略梯度方法进行了优化，并与当前基于模仿学习（IL）和强化学习（RL）的VLN训练协议兼容。我们将CCC应用于几个VLN基线模型，并在黄金标准R2R数据集上进行测试[7]。实验结果验证了指令跟踪和生成任务上的CCC2. 相关工作视觉语言导航（指令遵循）。虽然VLN [7]在计算机视觉中是一个相对较新的任务，但其核心部分早期的研究通常将导航器构建在具有公式化路线描述的受控环境中[51，68，12，8，53，54]。Anderson等人因此，引入了R2R数据集[7]来研究具有人类创建的指令的照片般逼真的模拟环境[11]中的具体导航。不久之后，作出了许多努力，以便：i）提出更有效的学习范例，例如，IL [7]，无模型和基于模型的RL的混合[81]，以及IL和RL的集成 [79];ii）从合成样本[24，66，25]，辅助任务[79，37，49，90]，甚至是大量的网络图像-文本配对数据[52，30]中探索额外的监督信号iii) 开发更强大的感知语言嵌入方案[36，60，80，35];以及iv）通过自我校正[38，50]，主动探索[74]或地图构建[73，13，19]设计更智能的路径规划策略。一些其他的-115473Δt=1ER学习与环境无关的表示[80]，或者专注于细粒度的指令解析[34]。我们的工作与上面的工作有很大的不同。我们解决了指令跟随和生成的重要性，而不仅仅是导航任务。双重任务形成端到端联合训练的闭环我们特别感兴趣的是如何利用他们的内在联系，以更好地相互学习，在事实的环境以及反事实的替代品。指令生成。虽然在计算机视觉[2]中研究较少，但生成语言路线指令[16]引起了机器人[27]，语言学[65]，认知[40]和环境心理学[70]的广泛研究兴趣，并且可以追溯到Lynch在1960年的工作[ 48 ]。早期的实验研究了人类构建路线描述过程的基本原理[83，4，45]，“易于遵循”的指示的特点他们指出了涉及直观地标的重要性（例如，物理对象和位置）和简明的拓扑描述（例如，[2018 -10 - 18]关于《易经》的解读基于这些研究，使用手工制作的模板开发了一些用于指令创建的简单系统[44，27]，将内容插入预先构建的语言结构中。一些复杂的[17]使用语言学动机规则或成熟的语法，以更好地模仿人们编写指令的方式，并以更灵活和可扩展的方式产生输出[22]。最近的解决方案[15，57，18，23]依赖于端到端的数据驱动技术，而无需手动制作模板或规则。但它们通常在简单的网格或渲染环境中执行，因此在某种程度上排除了感知在指令创建中的作用在VLN中，指令创建得到的关注要少得多[2]。只有一些数据增强技术[24，66，25]使用对齐的导航路径和人类指令的训练对来学习指令生成器（扬声器）。然后，他们使用扬声器合成新采样路径的指令然而，他们只把指令创建作为一个辅助任务，并分别训练说话者和追随者因此，很难控制由说话者创建的伪指令的质量与这些方法不同，我们提出了一个统一的框架，同时学习扬声器和追随者，并明确使用它们的相关性作为鲁棒训练的正则化项周期一致的学习。循环一致性学习探索任务相关性以规范训练，并且可以以不同的形式实现，例如向前-向后对象跟踪 [77 ， 46] ， CycleGAN [91] 和双重学习[31]。以对偶学习为例，它的思想很直观：如果我们将一个x从一个域映射到另一个域，然后再映射回来，我们应该恢复原始的x [89]。它已成功应用于许多任务，如神经机器翻译[31]，情感分析[85]，图像到图像翻译[39]、问答[67、64、42]等。从更广泛的意义上说，我们的研究可以被视为第一次尝试，探讨二重性的指令生成和遵循体现导航任务。这两个任务都是在双任务学习框架中学习的，在该框架中，它们的对称结构被探索为信息反馈信号，用于增强每个任务，即使是未标记的样本。反事实思维。反事实思维[62]（即，对现实的心理替代物的构建）对于人们如何从经验中学习和预测未来至关重要，并且可以影响不同的认知行为，例如推理，决策和解决问题[86，21]。最近的研究证明，反事实思维可以提高训练模型的可解释性[33，28]，公平性[41]和鲁棒性[78]。在视觉问题回答[3，1，14]和开集识别[56，87]的背景下，也探索了反事实示例的使用Fu等人[25]从反事实思维的角度重新审视基于反向翻译的数据增强的想法：额外的路由被逆向选择，而不是随机采样[24]，并被转换为用于更智能的数据扩充的指令。除了在真实环境中采样路径外，我们还学习创作者生成新的视觉场景作为更有效的反事实。尽管在[59]中也讨论了反现实环境综合，但它是通过引入导致跟随者改变其输出的最小干预来实现的与此相反，我们寻求在保证原始指令仍然可以执行的前提下，最大限度地修改实际环境。多样性和现实主义的结合使得生成的环境作为训练示例非常有用。此外，我们还通过端到端的协作方式学习说话者和追随者3. 方法我们处理两个相关的任务，即，在R2R VLN设置下的指令跟随和生成[7]。对于指令跟随，跟随者f被学习以在3D环境E中找到到由指令X指定的目标位置的路线A。对于指令生成，说话者s被学习为E中的路线A创建描述X。这里，s和f是在端到端周期一致性框架中联合接受培训（参见§3.1），并且进一步引入创建器C来合成用于提升训练的反事实环境（cf. §3.2）。3.1. 用于教学流动和生成的周期一致性学习我们共同学习这两个任务（图。2（a）：发言人和跟随者F充当彼此的评估者。 s用于评估由f（E，X ）产生的A的质量并返回反馈信号E （X ，s（E，A））到f，反之亦然。追随者跟随者f被实例化为Seq 2Seq模型，其计算分布P（A|X; E）经路线A（即，一系列行动A={at}T）给出指令115474l=1l=1不不EEΔ∈E×AΔΔΔEΣ∈一i=1EEE|l=1ΔE=−logP（f）E（X）= A|X）P（s）E（A）=X|fE（X）= A）。EA∈A）的情况。另外-XP（·|A;E）ˆ|XAs（A）EΔ（X，s（A））ˆEEˆXLadv一V一Xf（X）E ˆΔ（A，f（X））E EˆVVrL2图2：（a）我们的周期一致性学习方案（参见§3.1）对于说话者s（）和跟随者f（），在事实和反事实环境中训练。(b)我们的创造者c（）用于反事实环境生成（参见§3.2）。X（即，一个词序列X ={x l}L）在环境下，最后，我们有P（X|A; E）= Ql pl（xl），其中pl（xl）=门特E.在每一步t，跟随者观察到E作为图像第五幕。以视觉和语言特征为条件-tures，即， Vt和X ={xl}L，以及先验动作嵌入P（x lx1：l−1，a1：T，V1：T）。为了公平比较，我们的这是一个与[24]中的一个相同但不特定的扬声器周期一致的训练。给定aligned（E，X）∈E×X，at-1，跟随器f首先产生当前隐藏状态hf：我们可以首先通过下面的公式得到一条n维路径A，hf=LSTMf（[Vt−1，X，at−1]，hft−1）的情况。（一）f（E，X）（简称f E（X））。然后，我们使用扬声器将A转换为基于视觉的指令s（E，A）（简短地文献中有两种基本的从动件设计，对行动空间的定义。第一类追随者[7]将动作空间简化为六种低级视觉运动行为，即，左、右、上、下、前进和停止。例如，左指左转，30o.动作嵌入是语言特征，前视图被感知为Vt。鉴于正在进行的诉讼sE（A）），其被期望为语义上类似于X，即，获得小的循环一致性误差E（X，sE（A））（短X）。同样，对于配对（E，A），我们有A. 则可以将误差指定为负对数-可能性，这是最小化的正规化训练：ΔA=−lo g<$P（sE（A）=X<$|A）P（fE（X）=A|sE（A）=X），a1：t−1、指示十和过去的意见五1：t−1，条件-X<$∈XX轴（六）ˆP（a|一，x，V）=softmax（Whf），（2）A∈At1：t−11：L1：t−1at1t为了便于参考，我们简单地表示Eq。6为：其中W1htR6给出了6个动作的得分向量.第二类追随者[24，79]首先ΔE=−log<$X<$∈XP（X）|A;E）P（A|XX;E），（七）并获得全景作为Vt。那么Vt除以36子视图，即，Vt={Vt，i}36形成了当前的行动空间。ΔX=−logΔP（A）|X;E）P（X|A）;E）。因此，每个动作at与子视图wVt，at，和AtVt，At。然后，t的lik k被公式化为：直接计算ΔA的梯度很难，因为到X的巨大空间。类似的问题也适用于ΔX。P（a|T（3）受[31，82]的启发，ΔA的梯度w.r.t.参数ta1：t−1，x1：L，V1：t−1）=softmaxat（atW2ht）。由于在我们所有的情况下，感知值V1：t-1完全由导航动作a1：t-1决定，我们可以进一步E以下内容和发言者，即：例如，θf和θs可以计算为（对于ΔX也类似）：指定P（A|XQ;E）根据概率链规则：不1：t−11：L1：t−1一−E[A/59/1996]|X（E）]简单来说，我们将概率分布P（a ta1：t−1，x1：L，V1：t−1）在步骤t的动作上为p t（a t）。为全面检视CCC架构的成效，我们ΔAE双对数P（A|X;E），θfP（X）的对数|A;E）（八）使用不同的跟随器架构进行实验[7，24，79]。θs|A;E）[logP（A|X;E）[θs]扬声器. 扬声器是一个循环神经网络-基于工作的编码器-解码器体系结构，其计算分布P（X|A;E）在可能的指令X（={x l}L）给定环境E中的路线A。E∂Δ≈−当前动作at的概率计算为：P（A|X;E）=P（at|一得双曲余切值.，Vθfθf115475θst=1t=11：TLM不m=1Mtt−不−（logP（A|X<$ ;E）−bf）loggP（X<$ |A;E），其中bf是减少训练方差的基线，用前一个logP（A）的平均值估计|X.E）. 请编码器首先嵌入动作序列{at}T和沿途的目视观测{Vt}T详情请参阅我们的补充资料因此，由于Δ误差的估计不会重新计算，并使用LSTM生成隐藏状态求出任何对准的轨迹-轨迹对（X，A），等式6os=LSTM编码器s（[Vt，at]，os1）的情况。（四）可以自然地应用于标记的和未标记的训练的道路记D ={（E，X，A）}N然后，解码器计算条件概率-nn nn=1每个目标词xl的ity给定其前面的词x以及输入嵌入Os：1：l−1作为由N个对齐的环境-指令-路径元组组成的标记数据集合。与约定[24，66，38]一样，我们也可以构建一个未标记的数据集合，U=P（x l|x1：l−1，a1：T，V1：T）=LSTM-解码器s（hs，xl−1，os）。（五）{（Em，A′）}M通过对路径A′进行采样，从115476§∈∈D∈CEΔ›→L−E×X×A ›→LLD§∈D12K（E、X、A）现有环境Em（但没有指令注释）。那么我们的周期一致性学习损失定义为：E¯，在上述约束下：i）dersity：尽可能多地将E中的元素替换为1ΣA X 1A'ii）现实主义：保持（X，A）仍然可行，L循环=N（ΔE+ΔE）+M（E，X，A）∈ DΔE。（九）（E，A'）∈U改变了E的概念。为了做到这一点，紧凑描述符u首先为（E，X，A）生成：其他学习目标的指导遵循和性别-u=hc，hc=LSTMc（[Vt，at，X]，hc1）。（十）在标记的三元组（E，X，A）上定义的运算也是Tt t−兼容并用于我们的培训阶段（参见3.3）。备注。我们的循环一致性设计由两个信念驱动。首先，一个理想的VLN代理应该能够接地导航动作和语言线索在视觉环境。因此，有必要探索导航规划和教学创作的统一学习计划，使代理更好地捕捉交叉，这里，u被期望编码使（E，X，A）有效的所有必要信息。如图2（b），给定观察到的场景VE及其参考VrE r，创建者c将它们融合在一起，在特征空间而不是像素空间中：qk=softmax（[vr，vr，···，vr]T·vk），gk=[vr，vr，···，vr]·qk，12K（十一）模态和跨任务连接。第二，假设生成的指令sE（A）是原始X的有效改写，鲁棒的跟随者应该使用与原始X相同的导航计划来执行该改写的sE（A）。同样的结论也适用于演讲者。λk=sigmoid（uTW3vk），v<$k=λkvk+（1−λk）gk，其中vk是视觉元素v k在场景V（i. 例如，V=max-pool（[v1，v2， ···，vK]）），qk指正常-vk和Vr之间的量化相关性得分向量={vr}k，3.2. 反事实环境的创造gk表示注意力汇总，λKk表示重要性，基于反向翻译的数据增强[24]已经成为VLN中的常见实践。其核心思想是将采样路径转换为人工指令，并使用这些合成的环境-指令-路径元组来扩充标记数据。除了孤立地学习说话者和追随者之外，它还涉及多个训练-阶段（cf.§1）。首先，我们的周期一致性学习，在标记的D和未标记的数据U上进行，具有为了成功执行（E，X，A），确定vk的值，并决定是否需要替换vk最后，我们有一个vk，即，在创建的计数器f实际场景V′中嵌入视觉区域v′kE′。培训目标。为了i）尽可能多地修改原始场景V和ii）保持关键信息/地标与搜索路径对（X，E）对准，创建者c的训练损失被设计为：统一的培训目标（比照当量第9段）。有趣的是，最近研究[25]表明这种路径采样L=L2+Ladv，（十二）反事实思维的策略[ 24 ]：a路径A′，采样在E中，与其人工指令X′构成一个反事实。虽然我们的周期一致性学习方案在计算方程中的A'期间为了充分探索反事实思维的潜力，我们进一步提出了一个环境创造者C，它通过极大地改变房屋布局而不干扰原始指令的执行来产生反事实观察克雷亚托河我们的目标是学习一个创造者c：（E，X，A）E¯其观察环境E、指令X、导航路径A并生成实际元素E'的计数器，使得i）E和E'之间的差异较大;以及ii）E'和（X，A）具有很高的相容性。这样的设计是基于先前的研究，该研究已经证明，i）人类喜欢大的修改（甚至引入不存在的为||λ||2+log g（1−d（V<$，X，A））.l2-范数损失A2激发λ=[λ k]k的稀疏性，因此解决了i）。对抗性损失adv试图“愚弄”一个通过最小化d（V<$，X，A）d（V，X，A），学习估计环境和预防-动作对之间的对齐。因此adv地址ii）. 注意d只使用几何动作嵌入。优化上述目标使得（E<$，X，A）成为一个有效的训练例子。因此，在我们的即使有实际的假设，我们仍然可以训练演讲者将导航路径E转换为X，并训练跟随者将指令X作为A来执行。备注。创建者是完全可区分的，并与发言者和追随者一起训练，从而形成三重智能体学习系统。在训练中，周期一致的呃-错误，即，ΔA和ΔX也可以被估计和最小化在现实经验中），在反事实思维中[26];鄂鄂即，¯，生成（2）想象的世界不应与现实完全分离（有适当的变化）[84]。为了便于优化，不是仅考虑对齐的三元组（E，X，A），创建者c另外使用其他真实场景Er（从其采样）作为参考。通过混合E和Er，它创造了一个反事实的环境在反事实样本上，115477创造者。此外，创建者还可以访问周期一致性学习的监督信号（参见当量9）和培训目标，指导以下和代学习（详见3.3）。因此，创造者可以不断地创造更多信息的反事实，反过来又促进了说话者和追随者的训练。115478×LDILRLL−|FfΣL−3.3. 实现细节网络架构。我们用不同的架构实现我们的跟随器f[7，24，79]。指令嵌入X通常来自基于LSTM的语言编码器。对于[7]，仅使用前视图，并且从预训练的ResNet- 152[32]中获得相应的嵌入V。动作嵌入 a 也来自语言 LSTM 。使用[24，79]，全景视图被感知并分为36个子视图模型瓦勒塞恩未见过的值测试不可见SR↑NE↓或↑SPL↑SR↑NE↓或↑SPL↑SR↑NE↓或↑SPL↑Seq2Seq[7]39.46.051.733.822.17.827.719.120.47.926.618.0+ 英国电信[24]43.75.358.137.222.67.728.919.921.07.826.218.8+ [25]第二十五话48.25.060.840.124.27.132.720.422.57.530.119.3+ CCC认证50.15.061.142.628.46.835.322.125.57.835.920.6[24]第二十四话51.75.061.644.429.96.940.721.030.97.041.224.0+ 英国电信[24]66.43.774.259.836.16.646.628.834.86.643.429.2+ [25]第二十五话68.23.374.962.538.86.146.732.136.16.544.228.8+ CCC认证68.43.374.561.443.55.852.038.141.45.951.036.6RCM[79]47.05.753.844.335.06.843.031.435.96.743.533.1+ 英国电信[24]61.94.166.958.645.65.752.441.844.55.952.440.8+ [25]第二十五话63.23.969.359.547.75.456.642.845.15.853.940.9+ CCC认证68.03.477.562.150.45.257.846.451.05.357.248.2表1：R2R数据集[7]上遵循说明的定量比较结果（§4.1）(12标题3个标高，30m间距）。每个子视图与几何特征相关联，即，（ cosφh ， sinφh ，cosφe，sinφe），其中φh和φe分别是航向角和仰角。视觉和几何特征被连接为子视图和相应动作的嵌入参见[7，24，79]了解更多网络详情。我们的扬声器的模型设计遵循[24]中的模型设计，它是建立在全景系统之上的对于创建者c，该对象仅使用基于几何信息的动作表示（以过滤掉轨迹中的视觉线索）。c和d都采用基于跨模态共同注意力的网络架构，如[66]。训练除了最小化周期一致的损耗周期（参见当量9），我们的CCC框架也学习了用于指令生成和跟随的训练目标，在标记数据和反事实样本上。对于指令遵循，IL[7]被用于偏离策略学习，其中损失在地面实况导航上定义门控动作顺序A：L=−logP（A|X）。 RL是（18个环境，4，173条指令）。没有过度-看不见的和训练集之间的重叠环境评估指标。在[7，24]之后，使用了四个用于指令跟随的标准度量：1）成功率（SR）计算距离目标位置小于3 m的最终位置的百分比。2）导航误差（NE）是指智能体的最终位置与目标位置之间的最短距离3)Oracle成功率（OR）是智能体在其轨迹上最接近目标的点停止的成功率4）通过路径长度（SPL）加权的成功率[5]是SR和导航长度之间的权衡。评价方案。如[24，25]所示，我们使用不同的架构，动作空间和学习范式使用几个代表性基线[7，24，79Seq2Seq[7]：基于注意力的Seq2Seq模型，在视觉动作空间下使用IL进行训练。Speaker-Follower[24]：在全景动作空间下使用IL训练的组合模型。• RCM[79]：一种经过训练的改进的多模态模型也适用于政策学习[79，66]，即， optimizing=tlogp t（a t）Λt，其中a tpt（a t）和Λt表示A2C中的优势[55]。对于指令生成，使用s= logP（X A）训练说话者，其中X指地面实况导航指令。为了稳定训练，我们将退火策略[66]应用于IL信号，使代理学习一个好的初始策略。推理。一旦接受训练，说话者和跟随者就可以独立地完成他们的特定任务。如在约定中，我们应用贪婪预测，i。例如，xl=argmax（pl（xl）），at=argmax（pt（at）），用于指令创建和后续操作。ing，作为X的近似值，=arg maxP（X|A;E）和A=arg max P（A|X; E）。4. 实验4.1. 执行指令数据集。我们在R2R [7]上进行实验，R2R最初是为指令跟随任务开发的。R2R有四组：train（61个环境，14，039条指令），val可见（61个环境，1，021条指令），val不可见（11种环境，2，349条指令），并且测试不可见··115479在全景动作空间下使用IL和RL基线是用R2R训练集中的标记的并行路径对训练的对于每个基线，我们进一步报告了我们的CCC和其他两种基于说话人的数据增强技术的性能，反向平移（BT）[24]和对抗路径采样（APS）[25]：CCC：我们的说话者与跟随者在真实和反事实环境中共同学习，并将随机采样的路径转换为指令作为额外的训练数据。BT [24]：扬声器仅在真实环境中与跟随者隔离训练，并将随机采样的路径转换为指令作为额外的训练数据。APS [25]：说话者仅在真实环境中与跟随者隔离训练，但将相反选择的路径转换为指令作为额外的训练数据。定量结果。表1总结了说明书的比较结果。我们发现CCC在不同的数据集分割和指标上优于其他学习范式对于三个基线跟随器[7，24，79]，CCC获得显著的SR改善（即，0.2-4.8，···115480§模型测试不可见SR↑NE↓或↑SPL↑自我监控[49]43.06.055.032.0遗憾[50]48.05.756.040.0OAAM [60]53.0-61.050.0[38]第三十八话54.05.164.041.0[90]第90话55.05.262.051.0电子辍学[66]48.05.658.044.0[66]第六十六话52.25.159.846.9主动感知[74]55.74.873.137.1[74]第74话60.64.371.441.3SSM [73]57.34.768.244.1SSM [73] + CCC62.24.372.349.2表2：R2R数据集[7]上指令遵循的基准测试结果（4.12.7-4.7和3.0-6.1）分别与val seen、val unseen和test unseen这验证了CCC在不同跟随器架构中的有效性此外，在不可见集合上的性能改善相对更显著，表明CCC增强了模型性能基准。为了进行全面评估，我们通过将CCC技术应用于[66，73，74]来进行性能基准测试，这些技术是当前具有公共实现的顶级指令追随者：E-Dropout[66]：一种多模态模型，使用主动感知[74]：一个强大的模型，能够主动探索周围环境，以进行更智能的规划。SSM[73]：一种图模型，配备了用于全局决策的地图构建模块。如表2所示，我们的CCC在所有指标上大大提高了当前三个性能最好的指令跟随器的性能[66，73，74例如，E-Dropout [66]的SR和SPL分别提高了4.2和2.9。对于主动感知[74]，它获得了显著的性能增益，例如，4.9 SR和4.2 SPL。基于SSM [73]，我们的CCC进一步将SR提高到62.2。4.2. 指令生成数据集。由于R2R [7]测试不可见集被保留用于基准测试指令跟踪方法，因此我们报告了在val可见集和val不可见集上的指令生成性能。请注意，在R2R中，每条路径都与三条地面实况导航指令相关联。评估指标。这里考虑了五种标准的文本评估方法[2]：1）BLEU [58]是指在引用和候选描述上计算的n-gram精度分数的几何平均值2)CIDEr [71]首先用1-4个gram的集合表示每个句子，并计算参考句子和候选句子中n3)METEOR [10]被定义为句子之间un-igram匹配的精确度和召回率的调和平均值4)ROUGE [43]是通过比较重叠的 n 元语法、单词序列和单词对来计算的。5)SPICE [6]基于候选句子和所有参考句子的场景图[63]元组这些指标的计算比较paring每个候选指令的三个参考指令，结构给定的导航路径。正如[ 88 ]所建议的，SPICE被采用作为主要度量。评价方案。当我们在不同的基线上实现我们的追随者时（即， Seq 2Seq[7] 、 Speaker-Follower[24] 和RCM[24]），我们报告了它们对应的扬声器的性能（即，我们的-Seq 2Seq、我们的-Speaker- Follower和我们的-RCM）。对于比较方法，我们考虑[24]中的说话者（即，BT Speaker）和指令生成模型（即，VLS）在[2]中。前者是目前VLN中广泛使用的数据扩充指令跟踪方法，而VLS是VLN中唯一专门为指令生成而设计的模型。定量结果。表3中报告了指令生成的比较结果。如图所示，我们的发言人在大多数指标上都取得了更好的表现。例如，我们的三个扬声器在val seen和valunseen集上都获得了前三名的SPICE此外，在我们的三个扬声器中，我们的-RCM表现最好。我们怀疑，一个更强大的追随者可以提供更好的反馈信号，扬声器在周期一致的学习。用户研究。我们组织了两次用户研究。在第一个用户研究中，我们对val中的500条路径进行了采样，并通过我们的三个扬声器（即， Ours-Seq2Seq ， Ours-Speaker-Follower，Ours-RCM）。 25名志愿者学生被要求从每条路径的比较中选择最有意义的指令。我们的-RCM比其他人获得更多的选票（我们的-RCM：40.5% vs我们的-Speaker- Follower：32.1% vs我们的-Seq 2Seq：27.4%）。在第二个用户研究中，我们让其他25名学生比较我们的输出-RCM，BT扬声器和VLS。我们的-RCM以68.6%的挑选率获胜（BT发言人：VLS：18.2%）。模型瓦勒塞恩未见过的值蓝-1 ↑蓝-4↑苹果酒↑流星↑胭脂↑SPICE↑蓝-1 ↑蓝-4↑苹果酒↑流星↑胭脂↑香料↑[24]第二十四话0.5370.1550.1210.2330.3500.2030.5220.1420.1140.2280.3460.188VLS [2]0.5490.1570.1370.2280.3520.2140.5480.1590.1320.2310.3570.197我们的-Seq 2Seq0.7200.2960.5290.2330.4870.2160.7040.2730.4750.2290.4730.202我们的-发言者-追随者0.7230.2990.5660.2350.4900.2290.7060.2750.4770.2290.4740.207我们的-RCM0.7280.2870.5430.2360.4930.2310.7080.2720.4610.2310.4770.214表3：R2R数据集上指令生成的定量比较结果（§4.2）[7]。···115481§UDΔEΔ§模型组件指令遵循指令生成SR↑NE↓或↑SPL↑蓝-1 ↑蓝-4↑苹果酒↑流星↑胭脂↑香料↑基线[24]-29.96.940.721.00.5220.1420.1140.2280.3460.188ΔA值EΔXEΔA+ΔXE EΔA+ ΔX+ ΔA'E E E33.26.744.723.70.6940.2690.4460.2280.4710.192循环-28.66.940.120.50.6990.2710.4560.2280.4720.195一致性35.16.744.525.40.7020.2720.4620.2290.4720.19637.76.645.926.70.7030.2720.4670.2290.4710.198反事实w/o参考环境Er29.96.940.721.00.5220.1420.1140.2280.3460.188环境参考环境Er41.75.950.735.60.7010.2710.4590.2290.4720.200完整模型ΔA+ ΔX+ ΔA'+ ΔA+ΔXE E E E¯E¯43.55.852.038.10.7060.2750.4770.2290.4740.207表4：对R2R数据集的不可见值的消融研究[7]。详见第4.3节。图3：指令跟随（左）和指令生成（右）的视觉比较结果详见第4.3节。4.3. 诊断实验为了全面检查我们的核心模型设计的有效性，对R2R [7]进行了一系列消融研究（表4）。我们的模式是建立在[24]。周期一致的学习。我们首先评估我们的周期一致性学习计划的贡献（参见第3.1节）。对于基线方法，跟随者和说话者是分开和独立训练的。然后我们建四个备用的-tives，即，ΔA、ΔX、ΔA+ΔX和ΔA+ΔX+ΔA'。的这两个关键组件分别，我们评估我们的完整模型设计的有效性。我们的完整模型通过综合使用标记和未标记的“真实”数据以及反事实示例来学习说话者、追随者和创建者如表4所示，CCC带来了更显着的性能改进，在每个单独的模块，在指令跟随和生成。目视比较结果。最后，图中提供3、比较直观。从E E E EE EEE E左边的子图我们可以观察到，追随者训练通过仅最小化标记数据集上的不同误差来训练前三个基线，而最后一个基线另外使用未标记数据，即，17K随机采样路径A′，如[24]中所示从表4中，我们可以得出结论：i) 利用跨任务关系确实可以提高绩效，mance的指令遵循和生成（而X极大地促进了指令生成与指令遵循的

下载后可阅读完整内容，剩余1页未读，立即下载