没有合适的资源?快使用搜索试试~ 我知道了~
and control, and thus often require considerable amounts oftraining data. This approach to designing navigation sys-tems is in direct contrast to research on human spatial nav-igation, which has shown that humans and other speciesbuild map-like representations of the environment to ac-complish way-finding [41, 51]. However, multiple findingshave shown that the ability to build cognitive maps and ac-quire spatial knowledge deteriorates when humans exclu-sively use ready to drive or walk paths to a goal [6]. Onthe other hand, studies have shown that humans build bet-ter spatial representations when presented with landmark-based navigation instructions rather than full paths [54].Such spatial representations enable the recall of landmarkson an egocentric map weeks after the experiment. Whilethis does not prove that humans build a map during wayfind-ing when following semantic instructions, it is a strong indi-cation that they can anchor landmarks and other semanticsto a map that they easily recall. Research in learning ofmapping and planning in computer vision and robotics [22]has also shown that an end-to-end system encompasses se-mantic maps that naturally emerge in the learning process.154600视觉与语言导航的跨模态地图学习0Georgios Georgakis, Karl Schmeckpeper, Karan Wanchoo, SohamDan, Eleni Miltsakaki, Dan Roth, Kostas Daniilidis University ofPennsylvania0{ ggeorgak,karls,kwanchoo,sohamdan,elenimi,danroth,kostas } @seas.upenn.edu0项目网页: https://ggeorgak11.github.io/CM2-project/0摘要0我们考虑视觉与语言导航(VLN)问题。目前大多数VLN方法都是使用无结构的记忆(如LSTM)或者使用对代理观察的自我中心注意力进行端到端训练。与其他方法不同,我们的关键洞察是语言和视觉之间的关联在明确的空间表示中更强。在这项工作中,我们提出了一种用于视觉与语言导航的跨模态地图学习模型,该模型首先学习在自我中心地图上预测观察和未观察区域的自上而下语义,然后预测一条通往目标的路径作为一组路径点。在这两种情况下,预测都通过跨模态注意机制受到语言的影响。我们通过实验证明了基于语言驱动的导航可以在给定地图的情况下解决,并在完整的VLN-CE基准测试上展示了有竞争力的结果。01. 引言0为了使移动机器人能够与人类一起工作,它们必须能够执行不是以机器可读脚本形式定义的任务,而是以人类指令形式定义的任务。一个非常基本但具有挑战性的任务是从A点到B点的导航。虽然机器人在使用度量表示执行此任务方面取得了相当大的成功,但对于机器人来说,执行语义任务(如“去厨房洗碗池”或遵循描述路径并将动作与自然语言相关联的指令)更具挑战性,这被定义为视觉与语言导航(VLN)任务[4, 32,33]。在VLN中,机器人会收到指令,并通过沿途获取的环境图像来达到目标。目前VLN任务的主要方法是使用从图像和指令到动作的端到端流水线[17,23, 31,32]。虽然这种方法由于其简单性而具有吸引力,但它们预计会隐式学习端到端的所有导航组件,如映射、规划和控制,因此通常需要大量的训练数据。这种设计导航系统的方法与人类空间导航的研究形成鲜明对比,人类空间导航的研究表明,人类和其他物种构建类似地图的环境表示以实现路径规划[41,51]。然而,多项研究结果表明,当人类仅使用准备好的路径到达目标时,构建认知地图和获取空间知识的能力会下降[6]。另一方面,研究表明,与完整路径相比,当人类接收到基于地标的导航指令时,他们构建的空间表示更好[54]。这种空间表示使得他们在实验结束后数周内能够回忆起自我中心地图上的地标。虽然这并不能证明人类在遵循语义指令时会构建地图,但这是一个强烈的指示,即他们可以将地标和其他语义锚定到容易回忆的地图上。计算机视觉和机器人学习映射和规划的研究[22]也表明,端到端系统包括在学习过程中自然出现的语义地图。0图1.我们将视觉与语言导航任务作为一个两阶段的过程来处理,该过程学习在自我中心地图上对指令进行语义和空间上的基础。0我们提出了一种名为Cross-modal Map Learning(CM2)的新型导航系统,用于连续环境中的VLN任务,通过两次交叉应用来学习地图和轨迹预测的语言驱动表示。154610模态注意力,即CM2。我们的方法将问题分解为语义和空间关联的两个路径,如图1所示。首先,我们使用跨模态注意力网络通过自我中心地图预测任务对指令进行语义关联,该任务学习在机器人视野之外虚构信息。然后,我们使用另一个跨模态注意力网络负责在自我中心地图上进行空间关联,学习在地图上预测路径。我们的分析表明,通过这两个子任务,注意力表示学习关注与指令相关的对象和位置。我们的方法与现有的生成动作的图像-语言注意机制的方法的主要区别在于,我们的方法中,机器人正在构建一个编码环境先验知识并根据该知识执行指令的认知地图。使用这种表示的动机是基于我们的发现,当机器人获得一个局部的环境真实地图时,它在VLN任务上的表现远远超过所有其他方法。这个地图仍然是局部的,更像是蓝图的一部分而不是环境的全局地图,但它仍然可以虚构墙后的信息,以更好地将地图与语言指令对齐。这使我们与[12]等方法有所不同,后者首先通过探索整个场景构建环境的拓扑地图,然后在拥有全局地图的情况下执行任务。我们进一步认为,通过跨模态注意力学习布局先验知识,我们可以利用自然语言的空间和语义描述,并减少对虚构区域的不确定性。与最近的工作[31]输出单个航点不同,我们学习预测整个轨迹,而我们的航点是由语言和自我中心地图之间的对齐确定的,而不是与目标的距离。总之,我们的贡献如下:•一种学习地图作为显式中间表示的VLN任务的新系统。0•通过在学习预测语义地图时应用跨模态注意力,将语言与这些地图进行语义关联。0•在学习预测路径时,通过在语义地图和语言上应用跨模态注意力进行空间关联的指令空间关联。0•对学习表示进行的分析表明,使用自我中心地图对VLN任务是有效的。0• 在VLN-CE[32]数据集上与当前最先进的方法相比取得了竞争性的结果。02. 相关工作0视觉与语言导航。导航的指令遵循问题引起了重要的关注。0在广泛的领域中,注意力被引入。这些领域包括Google街景全景图[11],四旋翼飞行器的模拟环境[5],多语言设置[33],交互式视觉对话设置[59],真实世界场景[3],以及室内场景的逼真模拟[4]。与我们的工作更相关的是关于Vision-and-LanguageNavigation(VLN)任务的文献,最初在Matterport3D[8]数据集的导航图(R2R)中定义[4],然后在连续环境中转换[32](VLN-CE)。可以说,VLN中最大的挑战是将自然语言与视觉输入进行关联,同时跟踪指令的哪一部分已经完成。为了解决这些问题,许多方法依赖于无结构的记忆,如LSTM用于视觉-文本对齐[14, 17, 28,37],或者具有专用的进度监视器模块[37,38]。其他方法将指令跟踪问题形式化为贝叶斯跟踪问题[2],或者学习将指令分解并按短步骤执行[58]。另一系列工作[12, 21, 23, 26, 31, 39, 42, 43,45]利用注意机制,并将强大的语言模型(如BERT[15]和Transformer网络[52])应用于VLN任务。例如,Chen等人[12]学习了指令与环境预建拓扑地图上的节点之间的关联,而Krantz等人[31]则学习从全景图像中预测航点,并研究了不同行动空间中的预测。与所有这些工作相比,我们的方法学习将语言和自我中心观察在语义级别与2D空间表示关联起来,然后进行路径预测。0跨模态注意力。变压器架构[52]在语言[15]、语音[16]、视觉[30]和多模态应用[27]方面取得了极大的成功。变压器架构的一个关键特征是注意力机制。跨模态变压器已广泛用于视觉-语言任务,如视觉问答等,以及视频和语言理解等领域[49]。此外,还有研究调查多模态变压器是否通过分析跨模态注意力头来学习两种模态之间的可解释关系,如在VisualBERT[34]中研究的和用于指代图像分割的跨模态自注意力网络[55]中研究的。先前的工作以两种方式训练跨模态变压器:1)单流设计,即将多模态输入(例如,词嵌入和图像区域)输入到单个变压器架构中。这方面的例子有UNITER[13]、VLBERT[48]、VisualBERT[34]。2)多流设计,即通过自注意力分别对各个模态进行编码,然后通过变压器学习跨模态表示。这方面的例子有LXMERT[50]、ViLBERT[36]、[57]。在这项工作中,我们采用多流设计,用于视觉语言导航,使用自我中心地图。我们还研究了跨模态注意力头和解码器。tion for grounding spatial and semantic concepts from nat-ural language instructions. Second, a VLN method shouldtake advantage of the knowledge over semantic and spatiallayouts as they offer a strong prior over possible trajecto-ries. Third, the language instruction provides a semanticdescription of a trajectory through the environment, whichcould be leveraged to improve map predictions.Given the instruction, our method learns to predict theentire path defined as a set of waypoints on an egocen-tric local map at every step of the episode (Sec. 3.3). Theagent then localizes itself on the current predicted path andchooses the following waypoint on the path as a short-termgoal. This goal is then passed to an off-the-shelf local pol-icy (DD-PPO [53]) which predicts the next navigation ac-tion. We assume that we have access to ground-truth poseas provided by the simulator to facilitate DD-PPO. We notethat estimating the pose from noisy sensor readings is out ofthe scope of this work, and point to visual odometry meth-ods [56] that can adapt DD-PPO agents to such a setting.To obtain the egocentric map we define a language-informed two-stage semantic map predictor that learns tohallucinate the semantics in the unobserved areas (Sec. 3.4).An overview of our method is shown in Figure 2. In the fol-lowing two paragraphs we briefly describe the common in-put encoding procedures between different components ofour method.Instruction Encoding.We use a pretrained BidirectionalEncoder Representations from Transformers (BERT) [15]model, which is a multi-layer transformer [52], to extract afeature vector for each word in the instruction. The over-all feature representation for the instruction X′ ∈ RM×d′is passed through a fully-connected layer to obtain the fi-nal representation X ∈ RM×d, where M is the number ofwords in the instruction, d′ = 768 is the default feature di-mension of BERT, and d = 128 is the feature dimensionwe use throughout our method. During training we onlyfinetune the last layer of BERT.Egocentric Map Encoding.Our network encodes an in-put egocentric semantic map s ∈ Rh′×w′×c with a truncatedResNet18 [24], where h′, w′, c are height, width, and thenumber of semantic classes, respectively as Y = Enc (s).The ResNet18 initially produces a feature representation154620可解释模式的变压器表示。导航中的地图预测。使用不同类型的空间表示的模块化方法在多个导航任务中取得了成功,无论是关注占用[10, 18, 22, 29, 44]还是语义地图预测[7, 9,19, 20, 35,40]。例如,Gupta等人[22]学习了一个可微分的映射器,用于预测从上向下的自我中心地图,该地图通过可微分的规划器进行端到端训练,而Cartillier等人[7]则学习了如何从自我中心的RGB-D观察中构建自上而下的全局地图。最近的一些工作超越了传统的映射,学会了预测代理的视野之外的信息[19, 35, 40,44]。[44]的工作学会了在室内环境中产生占用布局,而[19]将预测扩展到语义类别,并使用信息增益目标来提高预测器的性能。我们的方法在这些方法的基础上进行了扩展,提出了一种以语言为基础的模型,试图使用语言和当前观察到的区域的线索来产生缺失的信息。03. 方法03.1. 问题设置0我们解决了室内环境中的指令跟随导航问题,其中自然语言指令隐含地描述了一个代理需要遵循的特定路径和目标位置。特别地,我们考虑了在连续3D环境中从预先指定的导航图中适应而来的Vision-and-Language Navigation inContinuous Environments(VLN-CE)[32]中描述的设置,该设置是从Room-to-Room(R2R)[4]数据集中进行了改编,使用了Habitat[47]模拟器在Matterport3D[8]场景中,并提供了更逼真的设置,也更具挑战性[32]。在VLN-CE导航过程中,代理可以以256×256的分辨率访问自我中心的RGB-D观察,水平视野为90°。与其他最近的方法[12,31]不同,我们假设代理在每个时间步观察到的是一个有限视野的帧(而不是全景图)。行动空间定义为一组离散动作,包括向前移动0.25米,向左旋转和向右旋转15°,以及停止,没有执行噪声。最近的研究[31]表明,考虑连续空间动作时性能更高,但为了与VLN-CE上的先前工作保持一致,我们将行动集保持为离散的。03.2. 我们方法的概述0我们提出了一种基于预测的自我中心2D语义地图的视觉与语言导航方法。我们采用这种方法的原因有三个。首先,自我中心地图提供了一种自然的表示方式016),然后将其重塑为Y∈RN×d(N =h×w)。其中一个模块用于编码地图预测器(第3.4节)的地面投影RGB-D观测,另一个模块用于编码路径预测器(第3.3节)的预测语义地图。03.3. 路径预测的跨模态注意力0路径预测的跨模态注意力模块以指令表示X和自我中心地图编码Y作为输入,将路径预测问题构建为路径点定位任务。为了学习Pt, ξt = f Hst , P0t.(3)Lwp =k�i=1bit|| ˆPit − Pit||22 − λξξit log ˆξit(4)154630图2.我们提出了一种方法来预测自我中心的语义地图和自然语言指令描述的路径。我们方法的核心是两个跨模态注意力模块,用于学习语言驱动的表示,以便在未观察到的区域生成语义,并预测一组代理需要遵循的路径点。蓝色部分是我们模型的地图预测部分(第3.4节),橙色部分对应路径预测(第3.3节),黄色框表示损失。0为了在自我中心地图上对自然语言指令进行基于地面的表示,我们定义了一个跨模态注意力模块,遵循自注意力变换器模型[52]的架构。虽然将两种模态的表示连接起来然后使用自注意力(如VisualBERT[34])是常见的做法,但我们遵循LXMERT[50]的例子,将自我中心地图和指令分别作为查询和键值对待。其思想是,在一个episode中,语言指令保持不变,而自我中心地图在每个时间步骤都会发生变化,并用于查询模型的路径。具体而言,给定在VLNepisode的时间t上的自我中心地图特征表示Yst =Enc(st),以及指令特征X,我们使用缩放点积注意力:0Q = YstWq, K = XWk, V = XWv(1)0Hst = Softmax(QKT)0√0d0V(2)0其中,Wq、Wk和Wv是学习到的参数矩阵,Hst是自我中心语义地图区域上的注意力表示。在实践中,该架构[52]首先对每个模态应用自注意力,然后进行跨模态注意力。我们将路径定义为一组位于自我中心地图上的2D路径点{pit}ki=1。第一个和最后一个路径点分别表示起始位置和最终目标位置。在训练过程中,我们从地面真实路径中采样剩余的路径点,相对于0这些用于构建基于每个路径点处的2D高斯分布(σ =1)的真实热图Pt∈Rk×u×v。我们在每个时间步骤预测整个路径,给定整个指令。这可能会导致关于路径点在代理当前姿态处的放置存在歧义,因为代理对于给定时间步骤上已经覆盖的路径量没有知识。换句话说,如果代理已经完成了一半的路径,那么模型应该学会同时预测路径的前向和后向路径点,而不仅仅在episode开始时预测前向路径点。我们通过两种方式缓解了这个问题。首先,路径预测是基于相对于当前代理姿态的起始位置热图P0t进行条件预测的。其次,我们添加了一个辅助损失,训练模型预测每个路径点的概率ˆξit,表示其是否已经被遍历。我们在实验中发现,这个辅助损失有助于学习过程。路径点预测模型被定义为一个编码器-解码器UNet [46]f,它以自我中心地图区域的指令注意表示Hst和起始位置P0t作为输入:0我们使用以下损失训练路径预测:0其中 b i t 是一个二进制指示器,指示在时间 t 时特定的路径点 i是否在自我中心地图上可见,而 λ ξˆot = go (ot, Hot )ˆst = gs (ˆot, Hot , ˆχt)(5)Lm = −�q∈(s,o)�k�cqk,c log ˆqk,c(6)L = λwpLwp + λmLm(7)ζ = 1 + arg mini∆(ˆpit, ϱt)(8)154640权衡辅助损失。03.4. 用于地图预测的跨模态注意力0我们设计了一种基于语言的语义地图预测器,用于从RGB-D观测中获取自我中心的语义地图 s t。鉴于具身化智能体的视野通常有限,我们有兴趣在智能体无法直接观察到的区域中虚构语义信息。虽然过去尝试了不同版本的此过程[18, 19,44],但我们的主要贡献是通过利用指令中的空间和语义描述来学习布局先验知识。地图预测被定义为对自上而下的自我中心地图进行语义分割任务。我们的模型首先将深度观测作为输入,该深度观测被地面投影到一个包含占用、自由和虚空类别的自我中心网格 o t ∈ R h ′ × w ′ × 3中。对于地面投影,我们首先使用相机内参将深度反投影到3D点云,然后使用描述在这里[25]描述的过程将每个3D点映射到一个 h ′ × w ′ 网格。请注意,o t是关于智能体周围占用地图的不完整表示,其中所有视野之外的区域被视为未知。我们定义了一个类似于第3.3节中的跨模态注意力模块,其中将特征表示 Y o t = Enc ( o t )确定为查询,而指令特征 X用作键和值。根据公式1和2(其中将 Y s t 替换为 Y o t),我们得到了不完整自我中心地图 o t 上的注意力表示 Ho t 。预测模型包括两个编码器-解码器UNet [46]模型 g o和 g s 堆叠在一起:0其中 ˆ χ t ∈ R h ′ × w ′ × c是RGB帧的地面投影的语义分割。请注意,H o t在g o和gs模型的瓶颈处进行连接。该模型使用像素级的交叉熵损失对占用和语义类别进行训练:0其中 k 迭代地遍历地图中的像素数量,q k,c 是像素 k的真实标签。真实的语义地图是根据Matterport3D中的可用3D语义信息创建的。生成 ˆ χ的网络是与模型的其余部分分开预训练的另一个UNet。总体学习目标。在训练过程中,我们将路径和地图预测模块的所有损失相加:0其中 λs表示相应的损失权重,并通过整个模型进行单次反向传播。03.5. 控制器0到目前为止描述的方法将路径作为自我中心地图上的一组2D路径点 { p i t } k i =1输出。为了沿着这条路径朝着目标前进,每个时间步我们将一个路径点指定为短期目标,按照以下方式进行:0其中 ∆ 是欧几里得距离, ˆ p i t 对应于预测的路径点热图ˆ P i t 的模式,而 ϱ t 是时间 t时智能体的姿态。这有效地确定了距离智能体最近的预测路径点,并将序列中的下一个路径点选择为短期目标 p ζ t。为了达到短期目标,我们使用现成的深度强化学习模型DD-PPO [53]进行训练,该模型针对PointNav[1]任务进行训练。DD-PPO接收当前深度观测和 p ζ t,并输出智能体的下一个导航动作。最后,在任何时间点上,当智能体距离最终目标(最后一个预测的路径点)的半径τ (m) 内,并且在预测的热图中目标的置信度高于阈值 γ时,智能体可以决定执行 STOP 动作。04.实验0我们在VLN-CE[32]数据集上进行实验,该数据集在Matterport3D[8]数据集的90个视觉逼真场景中提供了16,844个路径指令对。我们遵循典型的评估场景,并在训练期间观察(val-seen)和未观察(val-unseen)的场景中报告结果。如果在距离目标位置3米的范围内采取了STOP决策,并且代理有500步的固定时间预算来完成一个场景,则认为一个episode是成功的。如前所述,代理可以访问具有水平视场为90度的自我中心RGB-D观察。我们进行了三组实验。首先,我们在VLN-CE数据集上与其他方法进行比较,包括VLN-CE挑战的测试集(第4.1节),然后进行消融研究(第4.2节)。最后,我们提供了学习表示的视觉示例(第4.3节)。我们使用了我们方法的两个主要变体。CM2指的是我们的完整流程,从RGB-D输入预测自我中心地图和路径,而CM2-GT指的是使用地面真实自我中心地图作为输入,实际上只进行路径预测。使用的所有自我中心地图都是本地的192×192,每个像素对应5厘米×5厘米。该地图覆盖了一边长为9.6米的正方形,使大部分场景未被观察到。我们提供了代码、训练模型和重现结果的说明:https://github.com/ggeorgak11/CM2。实施细节以及其他实验结果包含在补充材料中。154650图3.使用我们的方法CM2在val-unseen中的一个场景的导航示例。顶部一行显示了代理的RGB观察,底部显示了在自我中心地图上的路径预测(代理位于中间向上看,以绿色圆圈表示)。红色的航点表示我们在特定时间步骤的路径预测。请注意,开始时,目标(橙色星星)既不可见也不在自我中心地图内。底部左侧角落显示了地面真实地图和路径。0Val-Seen Val-Unseen0TL ↓ NE ↓ OS ↑ SR ↑ SPL ↑ TL ↓ NE ↓ OS ↑ SR ↑ SPL ↑0Seq2Seq+PM+DA+Aug [32] 9.37 7.02 46.0 33.0 31.0 9.32 7.77 37.0 25.0 22.0 AG-CMTP* [12] - 6.60 56.235.9 30.5 - 7.9 39.2 23.1 19.1 R2R-CMTP* [12] - 7.10 45.4 36.1 31.2 - 7.9 38.0 26.4 22.7CMA+PM+DA+Aug [32] 9.26 7.12 46.0 37.0 35.0 8.64 7.37 40.0 32.0 30.0 WPN-DD* [31] 9.11 6.57 44.035.0 32.0 8.23 7.48 35.0 28.0 26.0 LAW [45] 9.34 6.35 49.0 40.0 37.0 8.89 6.83 44.0 35.0 31.0 CM2(我们的方法) 12.05 6.10 50.7 42.9 34.8 11.54 7.02 41.5 34.3 27.60WPN-CC* [31] 10.29 6.05 51.0 40.0 35.0 10.62 6.62 43.0 36.0 30.0 HPN-C* [31] 8.71 5.17 53.0 47.0 45.07.71 6.02 42.0 38.0 36.00CM2-GT (我们的方法) 12.60 4.81 58.3 52.8 41.8 10.68 6.23 41.3 37.0 30.60表1.在VLN-CE数据集上的评估。所有标有*的方法都使用全景图像。CM2-GT与CM2相同,但使用的是地面真实地图,而不是预测地图。HPN-C和WPN-CC使用比其他方法更丰富的动作空间。AG-CMTP和R2R-CMPT允许代理在实验开始之前探索每个场景。我们的方法在val-seen上最成功,而在val-unseen上具有竞争力。04.1. VLN-CE评估0在连续的视觉与语言导航任务中,我们评估了我们的方法与当前最先进的方法的性能。报告的指标包括:轨迹长度TL(米),距离目标的导航误差NE(米),oracle成功率OS(%),成功率SR(%)和路径长度加权的成功率SPL(%)。关于这些指标的更多细节可以在[1,4]中找到。我们将我们的方法与以下工作进行了比较:Krantz等人[32]:从这里使用了两个基线。首先,Seq2Seq+PM+DA+Aug是一个简单的序列到序列的基线,它使用递归策略直接从视觉观察中预测动作。其次,CMA+PM+DA+Aug利用指令和RGB-D观察之间的跨模态注意力。这两种方法都使用现成的进度监控(PM)技术。0DAgger(DA)和合成数据增强。Chen等人[12]:该工作使用指令和拓扑地图之间的跨模态注意力来计算全局导航计划。为了构建拓扑地图,作者假设代理人在导航回合执行之前可以探索环境。拓扑地图中的每个节点对应一个全景图像。我们与使用方法生成的地图和Room2Room[1]数据集中的地图的 AG-CMTP 和 R2R-CMTP进行比较。Raychaudhuri等人[45]:这种方法(LAW)通过调整监督来使用路径上最近的航点而不是目标位置来更新CMA+PM+DA+Aug的训练设置。Krantz等人[31]:我们与航点预测网络(WPN)和航向预测网络(HPN)进行比较,它们是端到端模型,可以预测相对的航点和航向。ion.N.154660直接从自然语言指令和全景RGB-D输入中提取航点。这些模型在航点预测空间上有所不同。WPN-CC考虑距离和方向的连续值,WPN-DD考虑离散值,HPN-C使用距离的常量值和方向的连续值。我们的方法类似于WPN-DD,因为我们的航点预测是在地图的离散2D空间中进行的。研究更具表现力的航点预测空间超出了我们的工作范围。0表1显示了定量结果,图3显示了一个导航示例。在 val-seen 上,我们的方法 CM 2在导航误差和成功率上优于除了 WPN-CC 和HPN-C(使用更具表现力的航点预测空间)之外的所有其他基线,而在 SPL上具有竞争力。特别是,我们展示了比使用全景图像(4倍更大的视野)并且在经验上进行了200M步(285倍更多的数据)训练的 WPN-DD更好的结果。这是端到端方法的特点,需要在单个网络中学习所有导航组件,如映射、规划和控制,因此需要大量的数据。相比之下,将语言与自我中心地图对齐在样本效率上更加高效,因为我们的模型只使用了0.7M个训练样本进行训练。关于我们与[12]的比较,AG-CMPT 只在理想成功率上表现更好,而我们的 CM 20方法具有明显更高的成功率。然而,这个基准有一个先前的场景探索阶段,在任务步骤限制中不计算,在导航回合中获取场景拓扑的知识。相比之下,我们的 CM 2-GT,也具有地图知识,在所有指标上表现更好。我们还与使用指令和RGB-D帧之间的跨模态注意力机制的CMA+PM+DA+Aug 和 LAW竞争。后者还采用了一种更复杂的奖励函数,强制代理人保持在路径上,并在一个具有十倍于轨迹的增强数据集上进行训练。我们在 val-seen 上的成功率超过了两者,并且在val-unseen 上与 LAW的性能几乎相同。最后,当我们的方法的输入是地面实况语义地图(CM 2 -GT)时,我们观察到 val-seen上成功率显著增加。尽管地图是局部的,目标位置通常不可见,但这种性能提升进一步证明了我们选择在自我中心地图上使用跨模态注意力的合理性。0VLN-CE 排行榜我们将我们的 CM 2提交到了包含3.4K个在未知环境中的回合的测试集中,该测试集用于 VLN-CE挑战。表2显示了截至2022年3月8日的排行榜。我们的方法在使用标准观测(无全景图)和动作空间(离散)的情况下,在 OS、SR 和 NE 方面处于领先地位,并在 OS、SR 和NE 方面排名第4。0团队名称 TL NE OS SR SPL0CWP-VLNBERT* 13.3 5.9 51 42 36 CWP-CMA*11.9 6.3 49 38 33 WaypointTeam* 8.0 6.6 37 3230 CM2 13.9 7.7 39 31 24 TJA* 10.4 8.1 42 29 27VIRL Team 8.9 7.9 36 28 250表2.VLN-CE挑战排行榜上的结果。带有*的方法使用全景图像和/或非标准动作空间。0交并比(%) F1(%) PCW(%)0CM2-w/o-MapAttn 21.2 33.2 71.1 CM2 28.342.2 76.50表3.地图注意力对地图和路径预测的影响。0Val-Seen TL NE OS SR SPL0CM2-GT,τ=1.5 10.18 5.01 53.6 49.5 45.1CM2-GT,τ=1.0 11.48 4.94 56.4 51.9 43.8CM2-GT,τ=0.5 12.60 4.81 58.3 52.8 41.8CM2-GT-384,τ=0.5 12.89 4.52 66.4 58.4 46.70表4.地图大小和停止距离阈值对VLN的影响。04.2.消融研究0在这个实验中,我们对我们的模型进行了分析,并试图回答以下问题:跨模态地图注意力有多重要?跨模态地图注意力在图2中显示,它是学习语义基础并影响语义地图预测的注意力模块。我们有兴趣量化它对地图和路径预测的贡献,并定义了不包括跨模态地图注意力模块且因此不知道语言指令的基线CM2-w/o-MapAttn。我们将其与我们的方法CM2在交并比(IoU)和F1分数以及正确路径点的百分比(PCW)上进行比较,PCW评估路径预测的质量。如果预测的路径点与地面真实路径点的距离在192×192地图上不超过1.92m,则将其视为正确。结果报告在表3中。CM2在IoU、F1和PCW上的性能更高,分别提高了7.1%、9.0%和5.4%。这些结果表明,跨模态地图注意力从语言中提取了有用的信息,改善了语义地图和路径的预测。图4显示了地图预测的示例。停止决策阈值的影响是什么?我们改变控制器使用的停止决策距离阈值τ(m),并观察在val-seen上的VLN-CE指标的性能。此实验在CM2-GT上进行。当τ=1.5时,成功率下降了3.3%,因为代理选择更积极地停止,因此更有可能在目标半径之外选择STOP。shape N back to its encoded map dimensions of h × w toget a spatial heatmap. This representation is shown to fo-154670图4.带有和不带有跨模态地图注意力的语义地图预测。0另一方面,SPL增加了3.3%,因为较早停止会减少路径长度。这个结果表明了SR和SPL之间的权衡,基于τ的值可以调整代理的行为。视角地图大小的影响是什么?我们的工作的所有实验评估(CM2,CM2-GT)都使用192×192的视角地图。考虑到地图中的每个单元格对应5cm×5cm,这意味着从地
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功