模态对齐动作提示的视觉语言导航

40 浏览量更新于2023-10-25 收藏 24.12MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Bingqian Lin1*, Yi Zhu2, Zicong Chen1, Xiwen Liang1, Jianzhuang Liu2, Xiaodan Liang1†{linbq6@mail2,chenzc7@mail2,liangxw29@mail2, liangxd9@mail}.sysu.edu.cn,{zhuyi36, liu.jianzhuang}@huawei.comVision-Language Navigation (VLN) is a challenging taskthat requires an embodied agent to perform action-levelmodality alignment, i.e., make instruction-asked actions se-quentially in complex visual environments. Most existingVLN agents learn the instruction-path data directly andcannot sufficiently explore action-level alignment knowl-edge inside the multi-modal inputs. In this paper, we pro-pose modAlity-aligneD Action PrompTs (ADAPT), whichprovides the VLN agent with action prompts to enable theexplicit learning of action-level modality alignment to pur-sue successful navigation. Specifically, an action prompt isdefined as a modality-aligned pair of an image sub-promptand a text sub-prompt, where the former is a single-viewobservation and the latter is a phrase like “walk past thechair”. When starting navigation, the instruction-relatedaction prompt set is retrieved from a pre-built action promptbase and passed through a prompt encoder to obtain theprompt feature. Then the prompt feature is concatenatedwith the original instruction feature and fed to a multi-layertransformer for action prediction. To collect high-qualityaction prompts into the prompt base, we use the ContrastiveLanguage-Image Pretraining (CLIP) model which has pow-erful cross-modality alignment ability. A modality align-ment loss and a sequential consistency loss are further in-troduced to enhance the alignment of the action prompt andenforce the agent to focus on the related prompt sequen-tially. Experimental results on both R2R and RxR show thesuperiority of ADAPT over state-of-the-art methods....,...153960ADAPT：具有模态对齐动作提示的视觉语言导航01中山大学深圳校区 2华为诺亚方舟实验室0摘要01. 引言0* 本工作的部分内容是在华为诺亚方舟实验室实习期间完成的。† 通讯作者0走到楼梯，上楼，右转，下楼梯，然后在底部等待。0去楼梯0走到0楼梯0走向0楼梯0动作提示0指令0基线ADAPT0观察0动作0图1.基线[14]和我们的ADAPT之间的动作决策比较。在指令中与“走向楼梯”相关的动作提示的帮助下，我们的ADAPT成功地从当前观察中做出了正确的动作。0在给定指令和视觉观察的情况下，无论是对象级别还是动作级别的模态对齐都能够准确地实现。例如，给定“离开卧室”的指令，智能体不仅应该在其观察中找到“卧室”，还应该找到卧室的门以执行“离开”的动作。在家庭机器人和个人助理等应用中具有巨大潜力的视觉语言导航（VLN）已经在机器人视觉应用中得到广泛关注。0早期的VLN方法探索了多样化的数据增强策略[8,9,27,38]，高效的学习范式[15,24,40,46,47]和有用的模型架构[7,13,29,40]，以提高智能体的性能。受到大规模跨模态预训练模型在视觉语言任务中取得的显著进展的启发[6,21,23,25,37]，越来越多的研究尝试将预训练范式和模型引入VLN任务。PREVALENT[11]通过自监督学习方式在大量的图像-文本-动作三元组上对模型进行预训练。VLN � BERT[14]将循环函数引入预训练模型，使VLN智能体具有时间感知能力。尽管通过预训练模型可以显著增强对象级别的对齐能力，但是动作级别的对齐能力仍然有待提高。153970在预训练过程中，这些VLN代理仍然以隐式方式学习动作级别的模态对齐，这在不同场景下很大程度上限制了鲁棒的动作决策。最近，提示工程范式已经显示出潜力，通过简单地提供由专家设计或根据任务特定目标进行优化的提示，为预训练模型赋予多样化的能力。受此启发，我们提出将提示引入VLN任务，以提高预训练VLN代理的动作级别模态对齐能力。为此，我们提出了模态对齐动作提示（ADAPT），其中代理被提供明确的动作提示以进行动作决策。动作提示包含一对多模态子提示，其中图像子提示是指示显著视觉对象或位置的单视图观察，而配对的文本子提示是类似于“去楼梯”的与对象相关的动作短语。在导航之前，从预构建的动作提示库中检索与指令相关的动作提示。然后，将动作提示通过提示编码器，并将输出特征与原始指令特征连接起来。基于提示的指令特征与视觉特征一起输入到多层变压器中进行动作决策。请注意，与引入提示改变下游任务的输出预测形式的常见提示工程方法不同，在本文中，我们保持与基线模型相同的动作预测形式，重点关注提示的设计。通过这些提供的动作提示，代理可以明确地学习动作级别的模态对齐，并在不同场景中进行鲁棒的动作。为了增强动作提示的区分能力，并强制代理在每个时间步骤上关注相关的动作提示，进一步引入了模态对齐损失和顺序一致性损失进行训练。图1展示了基线代理[14]和我们的ADAPT之间的动作决策比较。如图1所示，在与“走到楼梯”相关的动作提示的帮助下，我们的ADAPT可以在给定的观察中选择正确的动作以成功导航。为了将高质量的动作提示收集到动作提示库中，我们借助最近开发的对比语言-图像预训练（CLIP）[32]模型，该模型具有强大的跨模态对象/位置级别对齐能力。具体而言，通过使用CLIP从包含动作信息的动作图像序列中检索与对象/位置相关的图像来获取图像子提示。文本子提示通过简单的最近动词搜索方案派生而来。在Room-to-Room（R2R）[1]和Room-across-Room（RxR）[19]基准测试上的实验结果显示了我们提出的ADAPT相对于最先进方法的优越性，证明了引入显式动作提示对于改善代理导航性能的潜力。0提示对于提高代理导航性能是有希望的。我们的消融研究表明了每种方法组件的有效性以及ADAPT的良好泛化能力。可视化分析还显示了其良好的可解释性。总结起来，本文的主要贡献包括：1）我们提出了模态对齐的动作提示（ADAPT），以明确强制VLN代理学习跨模态动作知识，以改善导航过程中的动作决策。据我们所知，这是在VLN任务中开发基于提示的代理的首次尝试。2）我们开发了模态对齐损失和顺序一致性损失，以实现高效学习动作提示。采用对比语言-图像预训练（CLIP）模型来确保动作提示的质量。3）ADAPT在R2R和RxR上建立了新的最先进结果。它还表现出良好的可解释性和泛化能力。02. 相关工作0视觉语言导航。给定语言指令，VLN代理需要按照指令到达预定义的目标位置。早期的方法通常采用序列到序列的模型架构[8, 38, 46]。Speaker-follower[8]引入了合成指令来减轻指令注释的负担。EnvDrop[38]通过模拟未见环境来开发环境丢失策略，生成增强数据。最近，大规模的视觉语言预训练模型[6, 21, 23, 25,37]在多个视觉语言理解任务上显示出显著的优势，如视觉常识推理[42]和视觉问答[2]。受此启发，越来越多的工作将视觉语言预训练模型引入VLN领域[11, 14,31]。PREVALENT[11]收集了大量的图像-文本-动作三元组，通过自监督任务（如注意力掩码语言建模和动作预测）对代理进行预训练。VLN � BERT[14]添加了一个循环函数来帮助代理识别时间相关的输入。然而，在这些预训练的VLN方法中，代理隐式地学习动作决策和多模态信息之间的关系，导致训练效率低下和泛化能力有限。本文首次开发了一种基于提示的VLN代理，它接收明确的动作提示，指示导航过程中的跨模态动作知识，以辅助动作决策。提示工程。最近的研究表明，提示在提高预训练语言模型在许多下游NLP任务中的性能方面起着重要作用[3,20, 26, 28, 33,43]。Jiang等人[18]应用文本挖掘和释义技术生成候选提示，并选择准确性最高的提示。为了促进提示学习，Shin等人[36]提出了自动生成连续提示的方法，而不是手工制作的文本提示。........................153980多层变压器0转身走出浴室。走进衣柜并在那里等待。0指令观察0动作提示集0走出0浴室0走进0衣柜0多层变压器0离开0浴室0走进0衣柜0文本编码0提示编码视觉编码0动作0预测0连接0走进0衣柜0走进0衣柜0走进0衣柜0提示编码器0文本子提示0动作提示0基础0图像子提示多模态提示0视觉编码器0编码器编码器0吸引真实数据0选择的动作0图2.ADAPT的概述。在时间步t，代理接收指令、视觉观察和检索到的动作提示。动作提示通过提示编码器，并将输出特征与指令编码X连接起来，以获得基于提示的指令特征Xp。基于Xp和视觉编码Vt进行动作决策。导航损失Ln、顺序一致性损失Lc和模态对齐损失La被应用于优化ADAPT。（最佳观看颜色）0最近，一些工作[20, 26,43]提出了生成连续提示的方法，而不是手工制作的文本提示。通过基于梯度的搜索，这些工作提出了自动生成连续提示的方法。0受到NLP中快速学习取得的进展的启发，一些工作尝试将其引入最近的预训练视觉语言模型中[39, 41, 45]。CoOp[45]使用连续表示模型化提示中的上下文，并保持预训练模型参数固定以进行端到端学习。CPT[41]将视觉定位任务重新定义为基于颜色的跨模态提示的填空问题。Frozen[39]将图像编码为连续嵌入的序列，作为前缀来实现多模态少样本学习。在提示工程范式的指导下，我们在导航过程中引入了模态对齐的动作提示，以使VLN代理能够明确地学习跨模态动作知识。通过这些动作提示，代理可以有效地学习动作级别的模态对齐，以实现成功的导航。0对比语言-图像预训练（CLIP）。CLIP[32]是一个依赖于自然语言监督来学习视觉表示的大规模预训练模型。对于图像-文本对，使用视觉编码器和文本编码器分别对输入表示进行编码。两个编码器的输出之间的点积作为图像-文本对的对齐分数。通过在400M个噪声图像-文本对上进行训练，CLIP在ImageNet分类等基准上展现出强大的零样本能力。最近，一些工作提出了0为了提高下游模型的泛化能力，包括目标检测[10]、图像处理[30]和视觉语言任务[35]，我们利用CLIP中学到的知识来改进。在本文中，我们使用CLIP来检索包含指令所指的视觉对象/位置的图像，以构建动作提示。借助CLIP强大的跨模态对齐能力，可以有效地检索到指令所指的视觉对象/位置图像，以确保动作提示的质量。03.方法0我们的ADAPT概述如图2所示。在导航之前，代理从动作提示库中检索与指令相关的动作提示。然后，代理根据给定的指令、视觉观察和检索到的动作提示在每个时间步进行动作决策。导航通过导航损失Ln、顺序一致性损失Lc和模态对齐损失La进行优化。03.1.VLN问题设置0给定语言指令I ={w0，...，wL}，其中L是单词数，VLN代理需要从起始视点c0找到到目标视点cT的路径。在每个时间步t，代理观察到一个全景视图，其中包含36个图像视图{ot,i}36i=1。每个图像视图ot,i包括一个RGB图像bt,i以及其方向（θ1t,i，θ2t,i），其中θ1t,i和θ2t,i分别是水平和俯仰角度，˜Kt, αt = CrossAttn(Kt, X; θc),(3)βt = SelfAttn( ˜Kt; θ2s),(4)153990对于指令和当前视觉观察，代理从导航连通图G=(V，E)中当前节点的J个邻居和一个停止动作组成的候选动作列表中推断出每个步骤t的动作。V和E分别表示导航连通图中的节点和边。03.2.带有动作提示的VLN代理03.2.1基线代理0我们的基线代理遵循VLN � BERT[14]的架构，它是一个由自注意力模块和跨模态注意力模块组成的多层变换器模型。在每个时间步，模型接收用于动作预测的跨模态输入。视觉输入。对于时间步t中候选视图ot,i，预训练的卷积神经网络（CNN）[14]或变换器[35]被提前应用于提取图像特征vt,i。然后，vt,i通过视觉编码器Fv[14]投影得到视觉编码Vt,i：0Vt,i = Fv(vt,i;θv)，(1)0其中，θv表示Fv的参数。Vt ={Vt,i}36i=1表示时间步t的候选视觉编码。语言输入。在初始化时，通过将指令序列I与[CLS]和[SEP]标记一起输入到自注意力模块中的变换器，可以获得指令编码X和初始化状态特征s0：s0，X =SelfAttn(Concat([CLS]，I，[SEP]);θ1s)，(2)0其中，Concat(∙)表示连接操作，θ1s表示自注意力模块的参数。s0将在每个时间步t更新以获得st。动作决策。在时间步t的动作决策中，状态特征st与视觉特征Vt连接以获得状态-视觉特征Kt。然后计算Kt与指令特征X之间的跨模态注意力αt以更新Kt：0其中 θ c 表示跨模态注意力模块的参数。通过将指令特征X 加权得到注意力特征 ˜ X t ，通过将状态特征 s t加权得到更新后的状态-视觉特征 ˜ K t，然后将其输入到另一个自注意力模块 SelfAttn( ∙ )中，以获得状态特征 s t 对视觉特征 V t 的注意力得分 βt ，这也被视为动作预测概率：0其中 θ 2 s 表示模块参数。通过将视觉特征 V t加权得到注意力特征 ˜ V t 。0走出卧室0通过壁炉0向右走0桌子上0进入0厨房0图3. 动作提示的示例。0通过将视觉特征 V t 加权得到注意力特征 ˜ V t 。然后使用 ˜ X t 和 ˜ V t更新状态特征 s t，用于下一个时间步的动作预测。有关更多模型细节，请参考[14]。03.2.2 动作提示0在描述基于提示的VLN代理之前，首先定义动作提示。动作提示是图像子提示和文本子提示的模态对齐对，其中前者是单视角观察，后者是动作短语。观察指示一个显著的视觉对象或位置。动作短语包含两个主要元素，即表示动作的词/短语（如“退出”或“走进”）和表示对象/位置的词（如“椅子”或“卧室”）。图3显示了一些动作提示的示例。从图3中可以看出，动作提示不仅在两种模态中都包含对齐的视觉对象或位置，还指示了模态对齐的动作知识。例如，文本子提示“走出卧室”的配对图像子提示包含了卧室的外观和门，通过这些，代理可以完成“走出”卧室的动作。因此，通过在训练中明确提供动作提示，代理能够更好地探索跨模态的动作知识，这对于指导正确的动作决策非常重要。动作提示库的构建在第3.3节中描述。03.2.3 带有动作提示的动作决策0在导航开始时，代理从动作提示库中检索与指令相关的动作提示。具体而言，根据获取文本子提示的策略（见第3.3节），得到给定指令中与对象/位置相关的动作短语。然后计算每个对象/位置相关的动作短语与动作提示库中的文本子提示之间的句子相似度，以检索与指令相关的动作提示集合{ p n } N n =1 ，其中 N 是集合的大小。通过 { p n } N n=1 ，我们通过提示编码器（见图2）获得提示编码 { P i,u n} N n =1。提示编码器由两个单模态子提示编码器和一个多模态提示编码器组成。将动作提示 p n中的图像子提示和文本子提示表示为 p i n 和 p u n ，即 pn = { p i n , p u n } 。首先将 p i n 和 p u n通过单模态子提示编码器传递。......3.3. Construction of the Action Prompt Base154000进入建筑物房，进入浴室，在水槽处等待。0图像子提示0一张{厨房}的照片0似度0CLIP0厨房0演示0厨房0文本子提示演示0厨房0与模态对齐的0动作提示... ...0动作序列：0一个指令路径实例0查找关键词0进入建筑物，向右转并穿过厨房，进入浴室，在水槽0厨房0找到最近的动词0之前的厨房0指令：0动作提示0基础0视觉测试0词汇表对象/位置0词汇0图4.构建动作提示基础的动作提示收集示意图。给定一个训练指令路径实例，首先通过CLIP和最近的动词搜索获取图像和文本子提示。然后将与同一视觉对象/位置和动作相关的多模态子提示对齐，形成一个动作提示。这里以“kitchen”一词为例。0编码器用于获取子提示特征Pin和Pun：0Pin = Ei(pin; θi), (5)0Pun = Eu(pun; θu), (6)0其中Ei(∙)和Eu(∙)分别表示图像子提示编码器和文本子提示编码器的参数。然后，Pin和Pun被馈送到多模态提示编码器Ep(∙)中，以获得提示编码Pin,un：0Pin,un = Ep(Concat(Pin, Pun); θp), (7)0其中θp表示Ep(∙)的参数，Concat(∙)是连接操作。在我们的ADAPT中，编码器Ei(∙)、Eu(∙)和Ep(∙)由一个线性层和一个dropout操作组成，以减少过拟合。通过提示编码{Pin,un}和指令编码X，我们通过简单地连接X和{Pin,un}来获得基于提示的指令特征Xp。然后，基于交叉模态注意力αpt，更新状态-视觉特征Kt和Xp之间的关系：0˜Kpt, αpt = CrossAttn(Kt, Xp; θc), (8)0然后，将αpt分为αp1t和αp2t以获得不同的注意特征。具体而言，通过αp1t对X进行加权，得到注意力指导的指令特征˜Xt。通过αp2t对Pin和Pun进行加权，得到注意力指导的图像子提示特征˜Pit和文本子提示特征˜Put。˜Pit和˜Put用于计算顺序一致性损失Lc。˜Xt用于更新状态特征，就像基线代理一样。最后，通过将˜Kpt馈送到自注意力模块中，得到基于提示的动作预测概率βpt，就像公式4中那样。0尽管通过物体识别可以轻松为图像分配一个对象类别标签，但将图像与动作短语关联起来并不简单。为了更好地对齐图像和动作短语以形成动作提示，我们设计了一个双分支方案来收集图像和文本子提示，如图4所示。首先，对于训练数据集中的一个指令路径实例，我们使用预构建的视觉对象/位置词汇表来找到指令中所指的视觉对象/位置。然后对于每个视觉对象/位置，我们分别获取相关的图像和文本子提示，具体如下所述。请注意，地面真实路径序列包含一组单视图图像，每个图像指示在特定时间步骤上需要执行的动作。因此，为了得到动作提示中的图像子提示，我们只需要从地面真实路径序列中检索与对象/位置相关的图像，地面真实路径序列本身包含动作信息。我们不使用在固定类别集上训练的现有对象分类器或检测器（例如[12,34]），而是使用CLIP[32]，它显示出出色的零样本跨模态对齐能力，以定位与对象/位置相关的图像。为了适应CLIP的推理过程，我们将短语“a photo of { CLASS }”中的{ CLASS}令牌替换为其类别标签为c的视觉对象/位置。图像B在动作序列中属于类别c的概率计算如下：0p(y = c | B) = exp(sim(b, wi)/τ1) /ΣMi=1(exp(sim(b, wi))/τ1), (9)0其中τ1是温度参数，sim表示余弦相似度，b和wc分别是由CLIP生成的图像和短语特征，M是词汇表的大小。然后选择与短语具有最大相似度的图像作为图像子提示。La = −log(sim(Pi ,Pu)/τ154010为了获得文本子提示，我们使用了一个简单的最近动词搜索方案，即在特定的对象/位置词之前找到最近的动词（它在预先构建的动词词汇表中），如图4所示，对于单词“kitchen”，找到了动词“walk”，然后提取了短语“walkthrough thekitchen”作为文本子提示。最后，具有相同视觉对象/位置和动作的图像和文本子提示形成一个对齐的动作提示。03.4. 训练和推理0模态对齐损失。虽然一个动作提示具有匹配的图像和文本子提示，但它们可能在特征空间中不对齐。为了解决这个问题，我们使用CLIP中使用的对比学习范式，强制配对的图像和文本特征相似，非配对的特征相距较远，使用infoNCE损失[5]来鼓励图像和文本子提示的特征对齐：0esim(Pin, Pun)/τ+ �0Pune sim(Pin, Pun)/τ2),(10)0其中τ2是温度参数，Pin和Pun表示动作提示pn的配对图像和文本子提示的特征，Pin和Pun表示非配对子提示。通过模态对齐损失，动作提示可以更具区分性，以指导动作级模态对齐的学习。顺序一致性损失。由于指令通常按顺序引用不同的视觉地标，检索到的动作提示集合{pn}也与不同的对象/位置相关。为了鼓励智能体根据其视觉观察按顺序关注检索到的提示集合中的相关动作提示，我们开发了一个顺序一致性损失，它是两个单模态一致性损失的总和。以文本模态为例，每个时间步t，强制执行关注的文本子提示特征˜Put和关注的指令特征˜Xt之间的接近性：0Luc = ||˜Put−˜Xt||2. (11)0同样，定义Lic =||˜Pit−˜Vt||2，用于促进关注的图像子提示特征˜Pit和关注的视觉特征˜Vt之间的相似性。然后，顺序一致性损失Lc通过以下方式获得：0Lc = Lic + Luc. (12)0总目标。根据大多数现有工作[13, 14,38]，我们也使用导航损失Ln，它是模仿损失LIL和强化学习损失LRL的总和。因此，我们ADAPT的总训练目标是：0L = LRL + λ1LIL + λ2Lc + λ3La, (13)0其中λ1，λ2和λ3是用于平衡损失项的损失权重。推理。在推理过程中，智能体从训练阶段构建的动作提示库中检索与指令相关的动作提示。04. 实验04.1. 实验设置0数据集。我们在两个公共基准数据集R2R [1]和RxR[19]上评估ADAPT。R2R[1]包括10,800个全景视图和7,189条轨迹。由于基线[14]是在英语语言数据上预训练的，我们在RxR的英语子集（en-IN和en-US）上测试我们的ADAPT，该子集包括26,464个路径指令对用于训练和4,551个对用于val-unseen拆分。评估指标。我们使用四个流行的指标[1]对R2R进行性能评估：1）轨迹长度（TL）计算轨迹的平均长度，2）导航误差（NE）是目标视点与智能体停止位置之间的距离，3）成功率（SR）计算达到目标的成功率，4）路径长度加权的成功率（SPL）在SR和TL之间进行权衡。根据其他工作[19,22]，RxR使用了另外三个指标：覆盖率加权长度得分（CLS）[17]，归一化动态时间规整（nDTW）[16]和加权归一化动态时间规整的成功率（SDTW）[16]。实施细节。所有实验都在NVIDIA V100GPU上进行。使用了两种图像特征，即在Places365[44]上预训练的ResNet-152[12]提取的特征和通过CLIP的视觉编码器提取的特征[35]。模型分别进行了300K和100K次迭代的R2R和RxR训练。R2R和RxR的最大动作提示集大小分别为60和100。检索到的动作提示数少于最大大小的实例将被填充。λ1，λ2和λ3的值分别为0.2，0.01和0.0001。为了公平比较，R2R使用了[14]中的相同增强数据。04.2. 定量结果0与现有方法的比较。表1和表2给出了现有方法与我们的ADAPT的比较。表1显示，使用ResNet-152特征的ADAPT在RxR上优于先前的SOTA方法。此外，ADAPT在RxR的ValSeen和ValUnseen设置中，与不同视觉特征的基线[14]相比，显著提高了性能，表明引入明确的行动提示可以有效提升代理导航能力。从表2中我们可以看到WSDTW↑SPL ↑VLNBERT(CLIP)11.373.17706612.033.81655812.734.266155ADAPT (CLIP)11.392.70746912.333.66665913.164.116357et-T-1:ithithAllSPL154020表1. 与RxR上的SOTA方法的比较。�表示结果是通过我们重新实现的模型获得的。0方法模型 RxR Val Seen RxR Val Unseen048.1 44 61 57 40 38.5 34 54 51 32 Syntax [22] 48.1 44 61 58 40 39.2 35 56 52 32 VLN � BERT � [14] 50.9 45.4 60.3 56.9 41.3 45.5 39.3 56.6 52.9 36.3ADAPT (ours) 52.7 47.0 61.3 58.5 42.9 46.7 40.3 56.6 53.6 37.30VLN � BERT � [14] CLIP 48.6 43.4 58.8 55.7 39.8 45.7 39.5 56.0 52.8 36.7 ADAPT (我们的) 50.3 44.6 59.6 56.3 40.6 46.9 40.2 57.2 54.1 37.70表2. 与R2R上的SOTA方法的比较。�表示结果是通过我们重新实现的模型获得的。0方法 Val Seen Val Unseen Test Unseen0Seq2Seq [1] 11.33 6.01 39 - 8.39 7.81 22 - 8.13 7.85 20 18 Speaker-Follower [8] - 3.36 66 - - 6.62 35 - 14.82 6.62 35 28 EnvDropout [38] 11.003.99 62 59 10.70 5.22 52 48 11.66 5.23 51 47 PREVALENT [11] 10.32 3.67 69 65 10.19 4.71 58 53 10.51 5.30 54 51 VLN � BERT [14] 11.13 2.90 7268 12.01 3.93 63 57 12.35 4.09 63 57 ADAPT (ResNet-152) 10.97 2.54 76 72 12.21 3.77 64 58 12.99 3.79 65 590表3. ADAPT在R2R ValUnseen上的消融研究。ResNet-152和CLIP表示使用不同的视觉特征。ADAPT-1：仅使用行动提示；ADAPT-2：使用行动提示和模态对齐损失；ADAPT-3：使用行动提示和顺序一致性损失；ADAPT-Full：我们的完整模型。所有模型都训练了100K次迭代。0方法 ResNet-152 CLIP0基线 4.17 60.4 54.7 4.11 61.5 55.3 ADAPT-1 4.19 60.5 55.2 3.9061.6 56.0 ADAPT-2 4.16 61.7 55.4 3.78 62.8 56.3 ADAPT-3 4.0760.7 56.1 4.05 61.9 56.6 ADAPT-Full 4.07 62.5 56.1 4.10 63.157.20可以看出，ADAPT（ResNet-152）在R2R上建立了新的SOTA结果。此外，从VLN � BERT�的结果可以看出0（CLIP）和ADAPT（CLIP）我们可以发现，引入CLIP视觉特征后，两个模型在ValUnseen上都表现出性能提升，而在Val Seen和TestUnseen上则表现出性能下降。然而，ADAPT（CLIP）在所有指标上优于VLN � BERT�（CLIP），表明了该方法的有效性。0消融研究。表3展示了ADAPT的消融研究结果。如表3所示，明确引入行动提示可以有效提高强基线模型的性能[14]。通过比较“ADAPT-1”和“ADAPT-2”的结果，我们可以发现引入模态对齐损失可以有效提升导航性能，表明具有良好区分能力的行动提示对于学习更好的行动级模态对齐是有用的。通过比较“ADAPT-2”和“ADAPT-Full”的结果，我们可以看到引入顺序一致性损失进一步提高了导航性能，这表明按顺序关注相关行动提示有助于做出正确的行动决策。0为了验证ADAPT在训练数据量较少的情况下的泛化能力，我们设置了两种训练方式：“扫描”和“实例”。“扫描”表示从训练扫描中提取部分实例进行训练。“实例”表示从所有训练扫描中提取，但只使用部分实例进行训练。从表4给出的评估结果中，我们可以发现在“扫描”和“实例”两种设置下，我们的ADAPT优于强基线方法，表明通过学习明确的行动知识，智能体在不同场景中具有更好的泛化能力。04.3. 可视化0我们在本小节中展示了一些可视化结果，以进一步分析引入明确的行动提示如何有助于正确的导航行动决策。从图5中我们可以看到，通过在指令中引入与“绕床走”和“走进走廊”相关的行动提示，我们的ADAPT可以成功地使智能体在不同的视觉观察中选择正确的绕床走和走进走廊的行动。然而，基线智能体离开了原来的房间并做出了错误的导航轨迹。我们通过比较CLIP特征和ADAPT的子提示特征之间的行动级模态对齐能力来进一步验证ADAPT的行动级模态对齐能力。对于行动短语特征，从与对象相关的图像集中检索出前5个相似的图像特征。从图6中我们可以发现，与CLIP相比，ADAPT可以更好地进行行动级模态对齐。给定“走上楼梯”的行动短语，CLIP从一组楼梯图像中检索到的前5个结果都表明“走下”楼梯的行动。然而，我们的ADAPT在前5个结果中可以获得3个表明“走上”楼梯的图像。20%40%60%80%20%40%60%80%CLIPADAPT1https://www.mindspore.cn/154030表4. 基线[ 14 ]和我们的ADAPT在R2R Val Unseen上使用更少的训练数据的结果。�表示结果是我们重新实现模型得到的。0模型0扫描实例0VLN � BERT � [ 14 ] 50.8 44.0 53.7 48.1 57.7 51.7 57.4 53.1 51.3 47.0 55.8 49.7 57.1 52.1 57.9 52.7 ADAPT (我们的) 52.5 46.4 55.1 48.8 57.2 51.859.1 53.3 52.5 47.3 56.6 49.8 58.8 53.5 59.4 54.60"绕床走到右边，然后走进走廊。在走廊的尽头等待。"0停止0停止0基线 ADAPT 指令0行动提示0绕床走0走进走廊0全景视图行动行动全景视图0图5. 基线[ 14 ]和我们的ADAPT之间轨迹示例中全景视图和行动比较的可视化结果。0行动短语：走上楼梯0图6. CLIP特征和我们的ADAPT的子提示特征之间的行动提示对齐比较。05. 结论和限制0在这项工作中，我们提出了模态对齐的行动提示（ADAPT），通过为VLN智能体提供明确的跨模态行动知识来增强导航性能。在导航过程中，智能体从预先构建的行动提示库中检索行动提示。然后，基于提示的指令特征用于改进行动决策。我们使用CLIP模型将高质量的行动提示收集到提示库中。我们还提出了模态对齐损失和顺序一致性损失进行训练。在公共VLN基准测试中的实验证明了我们的ADAPT的有效性，建立了新的SOTA结果。我们希望这项工作能够0为基于提示的导航研究提供了新的方向.关于我们工作的局限性，由于CLIP的能力、VLN任务中的场景复杂性和指令多样性，我们构建的ADAPT中的动作提示可能存在多少噪音. 未来的工作包括寻找更高质量的动作提示.0致谢0本工作得到中国国家重点研发计划资助，项目编号为2020AAA0109700；中国国家自然科学基金资助，项目编号为61976233；广东省基础与应用基础研究（区域联合基金-重点）资助，项目编号为2019B1515120039；广东省优秀青年基金资助，项目编号为2021B1515020061；深圳市基础研究计划资助，项目编号为RCYX20200714114642083、JCYJ20190807154211365；中国国家自然科学基金资助，项目编号为62006255.感谢MindSpore对本工作的部分支持，MindSpore是一个新的深度学习计算框架 1 .154040参考文献0[1] Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, MarkJohnson, Niko Sunderhauf, Ian Reid, Stephen Gould, andAnton van den Hengel. 视觉-语言导航:在真实环境中解释基于视觉的导航指令.在IEEE计算机视觉与模式识别会议论文集中，页码为3674-3683，2018年. 1 , 2 , 6 , 70[2] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, MargaretMitchell, Dhruv Batra, C. Lawrence Zitnick, and Devi Parikh.Vqa: 视觉问答.在国际计算机视觉会议论文集中，页码为2425-2433，2015年. 20[3] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Sub-biah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakan- tan,Pranav Shyam, Girish Sastry, Amanda Askell, Sand- hiniAgarwal, Ariel Herbert-Voss, Gretchen Krueger, TomHenighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler,Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen,Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, JackClark, Christoph

下载后可阅读完整内容，剩余1页未读，立即下载