大规模域内视觉和语言导航多样性数据集的预训练模型

59 浏览量更新于2023-10-14 收藏 2.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1634Airbert：用于视觉和语言导航Pierre-Louis Guhur1，Makarand Tapaswi2，Shizhe Chen1，Ivan Laptev1，CordeliaSchmid11Inria，E´colenormalesue´ rieure，CNRS，PSLResearchUniv ersity，巴黎，法国2印度海得拉巴IIITinria.frhttps://airbert-vln.github.io摘要视觉和语言导航（VLN）的目的是使体现代理人在现实环境中使用自然语言指令导航。鉴于特定于领域的训练数据的稀缺性以及图像和语言输入的高度多样性，将VLN代理推广到看不见的环境仍然具有挑战性。最近的方法探索预训练以改进泛化，然而，使用通用图像字幕数据集或现有的小规模VLN环境是次优的并且导致有限的改进。在这项工作中，我们介绍了BnB1，一个大规模和多样化的域内VLN数据集。我们首先从来自在线租赁市场的数十万个列表中收集图像-标题（IC）对。使用IC对，我们接下来提出自动策略来生成数百万的VLN路径指令（PI）对。我们进一步提出了一个洗牌损失，提高了学习的时间顺序- der内PI对。我们使用BnB来预训练我们的Airbert2模型，该模型可以适应区分性和生成性设置，并表明它在房间到房间（R2R）导航和远程参考表达（REVERIE）基准测试中的表现优于最先进的水平此外，我们的域内预训练显著提高了挑战性的几次VLN评估的性能，其中我们仅在来自几个房子的VLN指令上训练模型1. 介绍在视觉和语言导航（VLN）中，智能体被要求按照自然语言指令在家庭环境中导航[3，5]。该任务对于许多现实世界的应用是有吸引力的，例如家用机器人和个人助理。然而，考虑到跨环境的VLN数据的高度多样性以及大规模地手动收集和注释VLN训练数据的困难，1旅馆2Airbert是一个古爱尔兰语单词，意思是实践，这里指的是类似于VLN的借口任务的模型预训练。问题如何在有新对象的环境中遵循导航说明溶液使用BnB列表中的导航指令构建大规模数据集设备齐全的厨房客厅空间与宽敞的休息在厨房里走走。走进了客厅右转停在壁炉旁边。图1：VLN任务在测试时在看不见的环境中进行评估。上图：没有一个培训房包含圣诞主题，这使得这个测试环境特别具有挑战性。底部：我们通过创建接近VLN设置的路径指令对来构建一个大规模的，视觉上多样化的域内数据集，并展示了自我监督预训练的好处。当前方法的性能仍然有限，特别是对于以前看不见的环境[48]。我们的工作是由视觉和语言预训练[2，9，23，24，25，38]的显着改进推动的，其中深度Transformer模型[42]通过使用大规模自动采集的图像-文本数据集[32，36]的自监督代理任务[10]进行训练这样的预训练使学习可转移的多模态表示在各种视觉和语言任务中实现最先进的性能。类似地，为了学习概括的具体代理，最近的工作[13，16，22，28]探索了VLN任务的不同预训练方法。在[13，16]中，注释的路径-指令对用生成用于随机未看见路径的指令的说话者模型来增强。然而，由于这些路径起源于训练期间使用的61个房屋的小集合，因此它们在视觉多样性方面受到限制。有限的预训练1635环境不装备代理与视觉理解能力，使泛化到看不见的房子，见图1。为了解决这个问题，VLN-BERT [28]提出在通用图像标题数据集上预训练智能体，这些数据集是丰富的，涵盖了各种视觉语言知识。然而，这些图像-字幕对与由VLN代理观察到的动态视觉流（路径）和可导航指令完全不同这种域外预训练虽然有希望，但仅为导航性能带来有限的增益。除了上述限制之外，现有的预训练方法在其代理任务中不太强调时间推理能力，例如一步动作预测[13]和路径指令配对[28]，而这种推理对于像VLN这样的顺序决策任务很重要。因此，即使下游任务的性能得到改善，预训练的模型仍然可能是脆弱的。例如，通过交换指令内的名词短语或用其他名词替换它们而对指令进行简单的损坏，会导致严重的混淆，因为模型无法选择正确的原始对。在本文中，我们探讨了不同的数据源和代理任务，以解决上述限制，在预训练一个通用的VLN代理。虽然在互联网上很少找到导航指令，但来自家庭环境的图像-标题对在在线市场中是丰富的（例如，来自家庭环境的图像-标题对）。Airbnb），其中包括租赁列表的图像和描述。我们收集BnB，这是一个新的大规模数据集，包含140万室内图像和070万字幕。首先，我们表明，当应用于通用Web数据时，域内图像-标题对为下游VLN任务带来了额外的好处[28]。为了进一步减少BnB预训练和VLN任务之间的域间隙，我们提出了一种将静态图像-字幕对转换为视觉路径和导航类指令的方法（图11）。1底部），导致大的额外的性能增益。我们还提出了一个洗牌的损失，提高了模型我们的预训练模型Airbert是一个通用的Transformer主干，可以很容易地集成在R2R导航[5]和REVERIE远程引用表达式[34]中的判别式VLN任务（如路径指令兼容性预测[28]和生成式VLN任务[15]）中。我们通过预训练模型在这些VLN任务上实现了最先进的性能。除了标准评估之外，我们的域内预训练还开辟了一个令人兴奋的新方向，即一个/几个VLN，其中代理仅在一个/几个环境中的示例上进行训练，并有望推广到其他看不见的环境。总之，这项工作的贡献是三方面的. (1)我们收集了一个新的大规模域内数据集BnB，以促进视觉和语言导航任务的预训练。（2）我们以不同的方式策展数据集以减少预训练和VLN之间的分布偏移，并提出了洗牌损失，以提高时间推理能力。 (3)我们的预训练Airbert可以插入到生成或判别架构中，并在R2R和REVERIE数据集上实现最先进的性能。此外，我们的模型在具有挑战性的一次/几次VLN评估下泛化良好，真正突出了我们的学习范式的能力。2. 相关工作视觉和语言导航。VLN [5]受到了极大的关注，近年来引入了大量随访任务[3，8，19，21，30，31，34，37，41]。VLN的早期使用序列到序列LSTM来预测全景动作空间中的低级动作[5]或高级方向[11]。提出了不同的注意力机制[26，33还探索了各种基于强化学习的训练算法[40，44，46，47]和参考文献[11，26，27]中的搜索算法以提高VLN性能。为了提高智能体对看不见的环境的泛化能力，通过使用扬声器模型[ 11 ]来执行数据增强，该扬声器模型[ 11 ]为可见环境中的虽然[16]采用了用于可转移表示的预训练LSTM，但最近，已经转向Transformer模型[13]来学习通用的多模态表示。这进一步扩展到一个循环模型，显着提高顺序动作预测[15]。然而，预训练中的有限环境[13，16]限制了对不可见场景的泛化能力。与这项工作最相关的是，VLN-BERT [28]从丰富但域外的图像-文本数据中传输知识，以改善路径指令匹配。在这项工作中，我们不仅创建了一个大规模的，在域BnB数据集，而且还提出了有效的预训练策略，以减轻网页抓取的图像-文本对和VLN数据之间的域转移。大规模视觉语言预训练。由于从网络自动收集的大规模图像-字幕对[29，32，35，36]，视觉语言预训练（ VLP ）近年来取得了很大的突破。已经基于Transformer架构[42]提出了几种VLP模型[9，23，24，39]。这些模型是用类似于BERT [10]中的自监督目标进行预训练的：掩蔽语言建模，掩蔽区域建模和视觉文本配对。在下游数据集上对其进行微调可以在各种VL任务上实现最先进的性能[6，18，45，43]。虽然这样的预训练集中在视觉和文本之间的学习相关性，它不是为顺序决策所需的体现VLN。这项工作的目标不是为了提高1636VLP架构，但目前在域的训练策略，导致性能改进的VLN任务。3. BnB数据集在网上市场上租房子的房东经常上传有吸引力的独特照片和描述。其中一个市场Airbnb拥有来自世界各地超过10万个城市的560万个房源[1]。我们建议使用这些丰富和精心策划的数据进行大规模的域内VLN预训练。在本节中，我们首先描述如何从Airbnb收集图像-标题对。然后，我们提出了将图像和字幕转换为类VLN的路径-指令对的方法，以减少web抓取的图像-字幕对和VLN任务之间的域间隙（参见图1）。2）的情况。3.1. 收集BnB图像-字幕对收集过程。我们将我们的数据集限制为来自美国的房源（约占Airbnb的10%），以确保高质量的英文字幕和与Matterport环境的视觉相似性[7]。数据收集过程如下：（1）从维基百科获得位置列表;（2）查找列表在这些位置通过查询Airbnb搜索引擎;(3)下载列表及其元数据;（4）移除由在Places 365上预训练的ResNet模型分类的户外图像3 [49];以及（5）移除无效的图像标题，诸如电子邮件、URL和重复。统计我们在第3步中下载了近15万个列表及其元数据（美国列表的1/4），产生了超过300万张图片和100万个标题。经过第4步和第5步的数据清理后，我们得到了713 K的图像-字幕对和676 K的无字幕图像。表1将我们的BnB数据集与用于VLN（预）训练的先前工作中使用的其他数据集进行比较。它比 R2R [5] ，REVERIE [34]更大，包括大量的房间和物体，而概念字幕[36]则不是这样我们假定，这种域内数据对于处理VLN环境中的数据稀缺性挑战至关重要，如图所示。1.一、我们使用95%的BnB数据集进行训练，剩下的5%用于验证。除了图片和说明之外，我们收集的列表还包含结构化数据，包括设施列表、一般描述、评论、位置和租金价格，这些数据可能会在未来提供其他应用有关数据集和示例的更多详细信息，请参见补充材料。3.2. 创建BnB路径-指令对BnB图像-字幕（IC）对是概念字幕（ConCaps）的补充，因为它们捕获不同的图像。数据集源#Envs #Imgs #Texts R2R [5] Matterport90 10.8K 21.7KREVERIE [34] Matterport 86 10.6K 10.6K扬声器[40] Matterport 60 7.8K 0.2MConCaps [36] Web images-3.3M 3.3MBnB（我们的）Airbnb 140K 1.4M 0.7M表 1 ：将 BnB 与其他现有 VLN 数据集进行比较。来自Matterport环境的#images [7]指的是#panora- mas。说话者模型[40]为随机选择的轨迹生成指令，但仅限于来自60个训练环境的全景。请注意，来自概念标题（Con- Caps）的数据可能以一些房屋为特色，但它不是主要类别。VLN环境。然而，他们仍然有很大的差异，从路径指令（PI）对VLN任务。例如，在导航期间，代理观察全景视图的序列而不是单个图像，并且指令可以包含多个句子。为了减轻这个域的差距，我们提出了策略，自动工艺路径指令对从BNB-IC对。3.2.1在BnB列表中连接图像和文本BnB列表中的图像通常描绘房屋中的不同位置，模仿智能体在房屋中导航时进行的顺序视觉观察。创建一个类VLN的路径指令对，我们随机选择并连接K4图像标题对从列表中。在每个标题之间，我们随机添加一个词，从或者不使连接的指令更加流畅和多样化。3.2.2使用视觉上下文扩充路径在上述连接路径中，每个位置仅包含一个BnB图像，并且可能具有有限的视角，因为主人可能专注于他们希望突出的对象或设施。因此，它缺乏代理在真实导航路径中接收的每个位置处的全景视觉上下文。此外，级联指令中的每个位置由唯一的句子描述，而相邻的位置通常在VLN指令中的一个句子中一起表达[14]。为了解决上述问题与concate-国家，我们提出了两种方法来组成路径，具有更多的视觉上下文，也可以利用丰富的图像没有标题（表示为无标题图像）。1. 图像合并通过对来自相似房间类别的图像进行分组来扩展位置的全景上下文（参见图1）。2）的情况。例如，如果图像描绘了厨房水槽，则很自然地期望附近的其他对象（诸如刀叉）的图像具体地说，我们首先聚类图像的相似类别（例如.厨房）使用由3虽然室外图像可能包含有趣的特征（例如天井），我们观察到去除它们提高了性能。4，通常为4 - 7，以匹配R2 R数据集中16371T11TK客厅开放到花园开放式厨房，可容纳4人卧室书桌(no标题）连接字幕指令改写指令生成图2：我们探索了几种策略来从图像-标题对自动创建类似导航的指令。预训练的Places365模型[49]。然后，我们从这组合并的图像中提取多个区域，并将它们用作全景视觉表示的近似。2. 无标题图像插入。表1示出了一半的BnB图像是无标题的。使用它们可以增加数据集的大小。当从串联方法创建路径-指令对时，插入无标题图像，就好像其标题是空字符串一样。因此，BnB PI对更好地近似R2R路径指令的分布：（1）路径中的一些图像未被描述并且（2）指令具有类似的编号与房间和对象的视觉线索，是BnB路径的一部分参考（见图2）。2）的情况。2.指令生成是一个视频字幕类似的模型，在一系列的图像，并产生一个instruc-灰对应于代理的路径，通过环境。为了训练这个模型，我们采用ViLBERT并训练它为单个BnB图像-字幕对生成字幕。此外，该模型在R2R数据集的轨迹上进行微调以生成指令。最后，我们使用这个模型来生成BnB PI对通过产生一个指令的级联图像序列从BnB（路径）。4. Airbert：一个预训练的VLN模型在本节中，我们介绍了Airbert，这是我们在BnB数据集上预训练的多模态Transformer，具有掩蔽和洗牌损失。首先介绍了Airbert的体系结构，然后描述了预训练中的数据集和任务最后，我们展示了如何Airbert可以适应下游VLN任务。4.1. 类ViLBERT架构ViLBERT [24] 是从 BERT [10] 扩展的多模态Transformer，用于从图像-字幕对学习联合视觉语言表示，如图所示。3 .第三章。给定图像-字幕对（V，C），该模型将图像编码为区域特征[v1，. . .，vV]，并将文本嵌入为一系列令牌：[[CLS]，w1，. . . ，w T，[SEP]]，其中[CLS]和[SEP]是添加到文本的特殊令牌。ViLBERT包含两个单独的转换器，分别对V和C进行编码，并通过共同注意学习跨模态交互[24]。我们遵循类似的策略来编码路径指令对（在第二节中创建）。3.2）包含多个图像和字幕{（V k，C k）}K. 这里，每个Vk表示为名词短语。视区kk=1Kvi和Ck作为单词标记wt。Airbert的视觉和文本输入分别为：3.2.3使用流畅的过渡制作说明1 1K K连接的字幕主要描述不同位置的房间或对象，但不包含导航指令中的任何可操作动词，例如我们建议两种策略来创建假指令，在句子之间有流畅的过渡。1.指令改写。我们使用填空方法将人类注释导航说明[5]中的名词短语替换为BnB标题中的名词短语（见图11）。2）的情况。具体来说，我们创建了超过10 K的指令模板，包含2-7个空格，并使用从BnB标题中提取的名词短语填充空格在选择期间，与来自 VisualGenome [20]数据集的对象类别匹配的名词短语是优选的。这允许我们创建类似于VLN的指令，其中穿插有可操作的动词XV=[[IMG]，v1，. . . ，vV1，. . . ，[IMG]，v1，. . . ，vVK]，（一）XC =[[CLS]， w1，. . . ， w1，. . . ，wK，. . . ，wK，[SEP]]，（2）其中[IMG]令牌用于分离在不同位置处拍摄的图像区域特征。请注意，虽然我们的方法不限于ViLBERT类架构，但我们选择ViLBERT是为了与以前的工作进行公平比较[28]。4.2. 预训练的数据集和预文本任务我们在随后的预训练步骤中使用概念字幕（ConCaps）[36]和BnB-PI（见图2）。3）减少下游VLN任务的域间隙。先前的多模态预训练工作[24，28，16]通常使用给定图像-标题（IC）对或路径-指令（PI）对的两个自监督损失：（1）面罩─1638k=1联系我们nL=−logΣ，n--1VL预培训概念说明2VLN预训练BnB路径-指令对生成任务走过壁炉然后去。。判别任务走过…什么是什么是屏蔽区？面具字？他们在配对？是什么屏蔽区？真站是什么面具字？卧室他们在洗牌？真一辆非常典型的公交车[面具]从起居室到花园的中间走，然后向右急转弯。走下[MASK]办公桌，停在开放式厨房，可容纳4人图3：我们的预训练方法概述。代替通常的VL预训练（面板1），我们采用域内数据并使用路径指令对来训练具有掩蔽和洗牌损失的Airbert（面板2）。我们微调Airbert下游VLN任务使用判别或生成模型（面板3）。ingloss：输入图像区域或单词被[MASK]令牌随机替换。该掩码标记的输出特征被训练以在给定其多模态上下文的情况下预测区域标签或单词。（2）配对损失：给定[IMG]和[CLS]令牌的输出特征，训练二元分类器来预测图像（路径）和字幕（指令）是否配对。以上两个任务主要是学习- 使用对象-词关联来代替对路径和指令的时间顺序例如，如果图像Vi出现在Vj之前，则来自其标题Ci的命令应该出现在Cj之前。为了促进这样一个temporal推理能力，我们提出了一个额外的洗牌损失，以加强PI对之间的对齐。给定对齐的PI对X+=（Vk，Ck）K，我们生成n例如在i个对Xn-=（Vk，Cl），k=l处，通过对合成图像或字幕进行混洗来生成图像。我们通过最小化交叉熵损失来训练我们的模型，以选择对齐的PI对，而不是洗牌的负数exp（f（X+））（3）exp（f（X+））+exp（f（X−））其中f（X）表示经由Airbert针对PI对X计算的相似性得分（logit）。4.3. 针对下游VLN任务我们考虑两个VLN任务：目标导向导航（R2R [5]）和对象导向导航（REVERIE [34]）。Airbert可以很容易地集成在上述VLN任务的判别和生成模型中。判别模型：导航作为路径选择[28]。R2R数据集上的导航问题被公式化为[28]中的路径选择任务。经由波束搜索从导航代理生成若干候选路径，诸如如[40]所述，并且训练判别模型以选择它们中的最佳路径。我们在R2R数据集上微调Airbert以进行路径选择。采用两级微调过程：在第一阶段中，我们使用掩蔽和混洗以类似于BnB PI对的方式在目标VLN数据集的PI对上的损失;在第二阶段中，我们选择到达目标3 m内的正候选路径，并将其与3个负候选路径进行对比。我们还比较了多种策略来挖掘额外的负面对（除了3个负面候选者），事实上，经验表明，使用洗牌创建的负面优于其他选项。生成模型：递归VLN-BERT [15]。Re_current VLN-BERT模型将递归添加到Transformer中的状态以顺序地预测动作，从而在R2 R和REVERIE任务上实现最先进的性能。我们使用我们的Airbert架构作为其骨干，并将其应用于以下两个任务。首先，语言Transformer通过自我注意对指令进行然后，指令中嵌入的[CLS]对嵌入式指令的自我注意和交叉注意被用来更新状态和视觉标记，并且从状态标记到视觉标记的注意分数被用来决定在每个步骤的动作。我们以与[15]相同的方式微调以Airbert作为主干的递归VLN-BERT模型有关模型及其实施的更多详细信息，请参阅补充材料5. 实验结果我们首先进行消融研究，评估在第二节中预训练Airbert的第5.1条然后，我们比较空气伯特与国家的最先进的方法上的R2R和REVERIE的任务。五点二。最后，在第5.3中，我们在一个更具挑战性的设置中评估模型：VLN少拍学习，其中代理在从一个/几个房屋中获取的示例上进行训练。R2R设置。我们的大部分实验都是在R2R数据集上进行的[5]，在那里我们采用了任务定义的标准分割和我们专注于成功率（SR），这是预测的路径停止在目标的3米之内的比率。请参考[5，28]以获得对所述方法的更详细的解释。163911Cat指令销售代表路径合并插入Sr看到关于ValUnseen1- ----71.2162.452✓----73.8462.713- ✓---72.6763.354- -✓--71.1963.115- --✓-70.5164.076- ---✓74.4366.057- ✓-✓✓73.5766.52表2：用于预训练的各种BnB PI对创建策略之间的比较第一行表示图像-字幕对的使用第二行的所有方法在预训练期间使用掩蔽和Cat：朴素串联; Rep：指令改写; Gen：指令生成;合并：图像合并;并插入：无标题图像插入。BnB面罩冲洗演讲者等级Shuf。R2r等级Shuf。Sr看到关于ValUnseen一----✓-70.2059.26二✓✓✓✓73.1265.503 ✓---✓-73.2464.214 ✓ ✓--✓-73.5766.525 ✓ ✓--✓✓74.6966.906 ✓-7 ✓ ✓✓✓-✓✓✓-✓70.21七十三点八三65.52六十八点六七表3：预训练和微调期间洗牌的影响。虽然额外的数据有所帮助，但我们看到使用洗牌损失（缩写为Shuf）。持续改进模型性能。行1对应于VLN-BERT [28]。模型替换-名词互换-名词方向看不见看不见看不见看不见VLN-BERT 60.3 58.7 53.4 52.3 46.2 45.3艾尔伯特68.3 66.6 66.6 61.1 47.3 49.8表5：试图从由简单corruptions（诸如替换或交换名词短语和切换方向（左与右））创建的正确+10否定池中挑选正确PI对的模型的准确性随机性能为1或9.1%。5.1. 使用BnB进行我们进行消融研究的各种方法创建路径指令对的影响。我们还提出了消融研究，强调使用shuf- fling损失在Airbert在整个本节中，我们的主要关注点是看不见的验证集上的SR，我们将我们的结果与VLN-BERT[28]进行比较，其实现了59.26%的SR1. 创建路径指令对的影响。表2呈现了在如图2所示的ConCaps预训练之后使用BnB数据集的多种方式的性能。3.第三章。在第1行中，我们示出了直接使用BnBIC对而没有任何策略来减少域间隙将VLN-BERT的性能提高了3.2%。即使我们跳过ConCaps预训练，我们也可以达到60.54%，优于VLN-BERT的59.26%。这证明了我们的BnB数据集比通用的ConCaps数据集更有利于VLN。朴素连接（第2行）仅比使用IC对（第1行）稍好，因为仍然存在关于过渡流畅性和缺乏视觉背景的域移位。行3-6示出了每种方法在一定程度上减轻了域移位。指令改写（第3行）在改进指令方面比指令更好表4：在R2R任务上微调ViLBERT模型的不同策略之间的比较。VLN-BERT [28]通过掩蔽和排名损失对ViLBERT进行微调。每一行（在文本中描述）是一个独立的数据扩充，可以直接与基线（第1行）进行比较。指标. 特别地，由于判别模型使用R2 R的路径选择，因此我们遵循VLN-BERT[28]采用的预先探索的环境设置REVERIE设置。我们还在REVERIE任务上采用标准分割和度量[34]。这里，成功率（SR）是代理在目标对象可见的视点处停止的路径的比率远程接地成功率（RGS）测量在停止视点中定位目标对象的准确性，并且每路径长度的RGS（RGSPL）是路径长度加权版本。域转移显著，并实现最高的个体性能。最后，指令改写，图像合并和无标题插入的组合提供了一个整体的3.8%的改善级联，并大大超过VLN-BERT的7.2%的改善。2.在预训练期间应用洗牌损失。表3表明，洗牌是训练模型推理时间顺序并强制PI对之间对齐行3-5示出了在利用BnB-PI数据的预训练期间或在利用R2 R数据的微调期间，混洗都是有益的，并且分别导致2.3%和0.4%的结合Speaker数据集（来自具有生成的指令的所见房屋的路径产生178K个附加PI对[40]），我们看到洗牌损失提供了3.1%的总体改善（第6行与第10行相比）。（七）. BnB-PI数据带来的改善比微调Val上的附加策略消极看不见的1 VLN-BERT [28] 0 70.20 59.262 (1)+错误轨迹3（1）+突出显示关键字071.8961.37生成（行4），可能是因为生成器无法4（1）+硬底片271.8961.63使用BNB字幕的多样词汇。填上─5（1）+洗牌（我们的）272.4661.98在随机位置（第6行）生成无标题图像可减少1640艾尔贝特VLN-BERT 扬声器跟随者确认已确认确认未确认表6：单个模型的性能以及将VLN-BERT或Airbert与扬声器和跟随器集成的方法Sr确认已见导航RGS RGSPLOSR SPL TLSr确认不可见导航RGS RGSPLOSR SPL TLSr未观察到的试验导航OSR SPL TLRGS RGSPLSeq2Seq-SF [5]29.59 35.70 24.01 12.88 18.9714.964.208.072.84 11.07 2.161.633.996.883.09 10.892.001.58RCM [46]23.33 29.44 21.82 10.70 16.2315.369.29 14.23 6.97 11.98 4.893.897.84 11.68 6.67 10.603.673.14SMNA [26]41.25 43.29 39.61 7.54 30.0728.988.15 11.28 6.449.074.543.615.808.394.539.233.102.39[34]第三十四话50.53 55.17 45.50 16.35 31.9729.6614.40 28.20 7.19 45.28 7.844.6719.88 30.63 11.61 39.05 11.286.08美国（OSCAR）39.85 41.32 35.86 12.85 24.4622.2825.53 27.66 21.06 14.35 14.2012.0024.62 26.67 19.48 14.88 12.6510.00记录（ViLBERT） 43.64 45.61 37.86 15.75 31.6927.5824.57 29.91 19.81 17.83 15.1412.1522.17 25.51 17.28 18.22 12.8710.00记录（VLN-BERT）41.11 42.87 35.55 15.62 28.3924.9925.53 29.42 20.51 16.94 16.4213.2923.57 26.83 18.73 17.63 14.2411.63Rec（Airbert）47.01 48.98 42.34 15.16 32.7530.0127.89 34.51 21.88 18.71 18.2314.1830.28 34.20 23.61 17.91 16.8313.28表7：REVERIE数据集上的导航和对象定位性能，包括未见过的测试集（排行榜）上的结果扬声器数据集（第2行与（五）。将BnB-PI数据、Speaker数据集和洗牌放在一起，我们用单个模型在R2R数据集上实现了68.67%的SR。3. 微调期间应用的混洗损失。在R2R上进行模型训练的最后阶段涉及微调，以对形成路径选择任务的多个候选路径进行排名。我们比较了各种方法来改进这种微调过程（结果见表4）。(1)在第2行中，我们探索了使用附加负路径的影响。毫不奇怪，这并没有提高性能。（2）受[12]的启发，我们使用词性标记器[17]突出显示指令中的关键字，并包含一个额外的损失项，鼓励模型关注它们的相似性得分（第3行）。(3)[12]建议的另一种替代方案涉及在指令中屏蔽关键字并使用VLP模型来建议替换，从而导致硬否定（第4行）。硬否定和突出显示关键字将性能提高了2.1- 2.3%，但代价是额外的解析器或VLP模型。相比之下，混洗视觉路径以产生两个额外的否定导致最高的改进（第5行，在val上未看到+2.7%），并且似乎是强制时间顺序推理的强策略，其既不需要外部解析器也不需要额外的VLP模型。4.误差分析我们通过分析对齐PI对的分数和涉及替换名词短语的简单腐败（例如，“AIR-Bert”）来研究Air-Bert带来重大改进的领域。沙发旁的卧室），交换出现在指令中的名词短语，或者切换左右方向（例如，向左/向右或最左边/最右边的椅子）。特别地，对于每个地面实况对齐的PI对，我们通过破坏指令来创建10个额外的否定模型测试未知表8：基准排行榜上所示的R2R看不见测试集的导航性能。测量，并测量选择正确对的模型的准确性。表5示出了具有域内训练和洗牌损失的Airbert对于涉及名词短语的替换或交换的损坏实现了大的改进（>另一方面，区分方向仍然是一个具有挑战性的问题;但在这里，我们也看到Airbert的表现优于VLN-BERT 4.5%。5.2. 与最新技术水平的R2R。我们首先评估R2R任务的判别模型。与VLN-BERT类似，我们将Airbert评估为通过多个模型输出的线性组合（通过网格搜索选择）创建的集成模型（参见表6）。首先，我们看到Airbert单独（第2行）在看不见的环境和说话者和跟随者模型的强大集成上优于VLN-BERT（第1行）9.4%[40][28日][第四十届][第四十届]PLNESPLOSRSrPLNESPLOSRSr1- ✓--10.283.730.6676.4770.209.604.100.5569.2259.262✓---10.593.210.6980.7173.8510.033.240.6378.4568.673- -✓✓10.692.720.7082.9474.2210.103.320.6376.6367.90- ✓✓✓PLNESPLOSR SR[第11话]1,257 4.870.0196五十三个PreSS [22]10.524.50.6357五十三个流行[13]10.21 4.520.5664五十九自我监控[26]3734.480.0297六十一个加强型CM [46]3584.030.0296六十三个EnvDrop [5]6873.260.0199六十九个1641#环境TrajVLN-BERT SRAirbert SR表9：R2R少数发射评估的性能。在训练过程中，只有Matterport [7]环境的一个子集是可访问的。在补充材料中报告标准偏差。(row（3）0.7%。集成Airbert导致VLN-BERT集成的1.4%的增益（第4行对第5行）。（五）。我们还通过将我们的最佳方法提交到R2R排行榜5来获得测试集上的结果。从表8中可以看出，我们的集成Airbert，扬声器和追随者的方法（类似于具有扬声器和追随者的VLN-BERT [10]）达到了77%的最高成功率，并且在提交截止日期前排名第一。VLN-BERT和Air-bert都使用通过EnvDrop [40]的波束搜索采样的30个候选轨迹，从而导致三种方法具有相同的路径长度（PL）。由于排行榜上的SPL度量考虑了30个轨迹上的总路径长度，因此SPL非常低并且在方法中相似Airbert还有利于R2R任务的生成模型。结果见补充材料。REVERIE。表7显示了REVERIE数据集的结果。表中的最后四行使用具有不同主干或参数初始化的RecurrentVLN- BERT [15]OSCAR和ViLBERT主干在域外图像-字幕对上进行预训练。与OSCAR相比，我们观察到使用ViL-BERT主干用于REVERIE任务的轻微改进。VLN-BERT与ViLBERT共享相同的架构，但在R2 R数据集上进行了预训练，从而提高了不可见环境的性能。我们的预训练Airbert实现了比VLN-BERT显著更好的性能，在未看到的环境中导航SR增益超过2.4%，RGS增益超过1.8%（val unseen）。在没有任何特殊调整的情况下，我们看到Airbert从BnB数据集的预训练中获益。我们还实现了国家的最先进的性能在REVERIE测试集的时间分任务，超过了以前的作品了很大的利润。5.3. 在几栋房子里训练一个导航特工我们假设域内预训练，特别是利用建议的PI对生成方法的预训练，可以在需要较少训练数据的情况下实现卓越的性能。为了评估这一点，我们提出了一个新的几杆评价范式VLN：模型允许微调5https://eval.ai/web/challenges/challenge-page/97/概述还示出了在78%的不可见测试集SR下集成Airbert、VLN-BERT、扬声器和跟随器从一个（或几个）环境中采样（PI对）。用于VLN的少镜头学习是特别有趣的，因为房屋的视觉外观可能在地理上有很大的不同，并且虽然训练数据难以获得，但是像BnB这样的预训练数据可能是容易获得的。一个/几个射击任务。我们考虑了两种类型的设置：（1）从单一环境中学习，我们称之为一次性学习;以及（ 2 ）从 6 个环境中学习（代表总训练大小的10%）。对于这两种情况，我们随机抽取5组环境，并报告平均结果（补充材料中的标准偏差）。由于环境中的路径数量可能会对性能产生很大影响，因此我们排除了61个路径少于80个的环境中的17个。结果我们采用在ConCaps上预训练的VLN-BERT作为少数任务的基线。回想一下，微调R2 R上的VLN-BERT和 Airbert 依赖于从现有模型中提取的候选路径（EnvDrop [40]）。然而，由于这将导致不公平的比较（EnvDrop是在完整数据集上训练的），因此候选路径被采样为两个随机位置之间的表9示出了Airbert在看不见的验证集上大大优于VLN-BERT：具有1个房屋的27.6%和具有6个房屋的22%。Airbert在6个房子上微调几乎和VLN-BERT在整个训练集上一样好。表的最后两行显示，使用随机路径不会导致两个模型的性能大幅下降，这证明了预训练网络的强大功能。6. 结论我们介绍了BnB，一个大规模的，在域中，图像-文本数据集，从网上租赁市场上列出的房屋，并显示了如何通过创建路径指令对BnB图像-标题对和VLN任务之间的域差距可以减轻。我们还提出了洗牌，作为一种手段，以提高代理的推理时间或- DER。我们的预训练模型Airbert通过判别式路径选择设置在R2R上实现了最先进的技术，并且通过生成设置实现了REVERIE。我们还展示了大的性能改进时，我们的模型应用到一个具有挑战性的一个/几个镜头VLN设置，突出了良好的预训练VLN任务的影响。致谢。根据GENCI的分配101002，本工作获得了IDRIS HPC资源的访问权限该项目部分由法国政府资助，由法国国家研究机构管理，作为“未来研究”计划的一部分看到看不见看到看不见1兰德45.7122.4347.8850.006兰德52.7535.9954.4857.9761兰德67.6857.1564.2465.6061[第四十届]七十点二59.2673.8368.481642引用[1] Airbnb 快速事实。访问时间： 2021-03-13 ，网址：https：news.airbnb.com/fast-facts/。三个[2] Chris Alberti，Jeffrey Ling，Michael Collins，and DavidReitter.融合文本中检测到的对象以用于视觉问答。在EMNLP，2019年。一个[3] PeterAnderson ， AngelChang ， DevendraSinghChaplot，Alexey Dosovitskiy，Saurabh Gupta，VladlenKoltun ， Jana Kosecka

下载后可阅读完整内容，剩余1页未读，立即下载