使用随机环境混合的视觉语言导航

201 浏览量更新于2023-10-15 收藏 21.63MB PDF 举报

视觉语言导航

数据偏差

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16440使用随机环境混合的视觉语言导航0刘冲1,2* 朱丰达3* 常晓军4 梁晓丹5 葛宗源3 沈一东1†01 中国科学院软件研究所计算机科学国家重点实验室，中国 2 中国科学院大学，北京100049，中国 3莫纳什大学，墨尔本，澳大利亚 4 RMIT大学，墨尔本，澳大利亚 5 中山大学，广州，中国0liuchong@ios.ac.cn fengda.zhu@monash.edu xiaojun.chang@rmit.edu.au0xdliang328@gmail.com zongyuan.ge@monash.edu ydshen@ios.ac.cn0摘要0视觉语言导航（VLN）任务要求代理在感知视觉观察和理解自然语言指令的同时逐步导航。大数据偏差是由于小数据规模和大导航空间之间的不平衡比例造成的，这使得VLN任务具有挑战性。以前的研究提出了各种数据增强方法来减少数据偏差。然而，这些方法并没有明确减少不同房屋场景之间的数据偏差。因此，代理会过度拟合已见场景，并在未见场景中表现出较差的导航性能。为了解决这个问题，我们提出了随机环境混合（REM）方法，通过混合环境生成交叉连接的房屋场景作为增强数据。具体而言，我们首先根据房间连接图为每个场景选择关键视点。然后，我们交叉连接不同场景的关键视点来构建增强场景。最后，我们在交叉连接的场景中生成增强的指令-路径对。基准数据集上的实验结果表明，我们通过REM生成的增强数据有助于代理减少在已见和未见环境之间的性能差距，并提高整体性能，使我们的模型成为标准VLN基准上最好的方法。01. 引言0最近，视觉语言导航（VLN）[4]任务引起了研究兴趣的激增，其中一个代理通过遵循自然语言指令来学习导航。代理从一个随机点开始，朝着目标前进。0* 平等贡献 † 通讯作者0离开客厅，沿着走廊走下去。进入左边的卧室。进入房间后停下。0离开卧室，进入走廊对面的房间。在房间里向右转。在卧室内等待。场景1的路径场景2的路径0场景20场景10交叉场景0离开卧室，进入走廊对面的房间。进入左边的卧室。进入房间后停下。0图1.REM将两个场景混合并生成数据三元组（环境、路径、指令）。我们将这两个场景分开并重新组合，构建一个新的交叉连接场景，并重新构建相应的路径和指令。0在导航开始之前，代理会收到一条语言指令。每一步，代理都可以获取周围的视觉信息。这个任务的关键是按顺序感知视觉场景和理解自然语言指令，并逐步采取行动。深度学习在特征提取[19, 3, 40, 43]、注意力[3, 15,35]和多模态基础[5, 34,50]等领域取得的进展有助于代理理解环境。此外，许多强化学习工作[41, 26,48]帮助代理获得稳健的导航策略。得益于这些工作，视觉语言导航领域的以往尝试在提高感知视觉和语言输入能力[17, 16, 56, 55]和学习稳健的导航策略[62, 18,23]方面取得了巨大进展。然而，VLN任务仍然存在较大的偏差，这是由于不平衡的数据规模和导航空间造成的。16450小数据规模和大导航空间之间的奇偶比对导航的泛化能力产生影响。尽管最常用的数据集Room-to-room数据集[4]只包含22K个指令-路径对，但实际可能的导航路径空间随着路径长度的增加呈指数增长。因此，学习到的导航策略很容易过拟合到已见场景，并且很难推广到未见场景。先前的研究提出了各种数据增强方法，试图减少数据偏差。Fried等人提出了一种说话者-跟随者框架[16]，以生成更多的数据对，以减少数据样本的数据偏差。Tan等人提出了一种环境丢失方法，以增强环境中的视觉特征，从而减少房屋场景内的视觉偏差。然而，这些方法侧重于场景内数据增强，未能明确减少不同房屋场景之间的数据偏差。因此，在本文中，我们提出通过场景级数据增强来减少不同房屋场景之间的领域差距。如果一个代理在导航过程中看到不同的房屋场景，它就不太可能过拟合到场景纹理或房间结构的一部分。受到这一动机的启发，我们提出了一种名为随机环境混合（REM）的方法，以提高导航代理的泛化能力。REM将两个场景和相应的路径分解，然后重新组合它们，以获得两个场景之间的交叉连接场景。REM方法提供了更通用的数据，有助于减少泛化误差，从而改善在已见和未见场景中的代理导航能力。REM方法包括三个步骤。首先，REM根据介数中心性[8]选择房间连接图中的关键顶点。其次，REM通过关键顶点将场景分割并交叉连接它们以生成新的增强场景。我们提出了一种方向对齐方法来解决特征不匹配问题。第三，REM通过上下文将轨迹和指令分割为子轨迹和子指令，然后交叉连接它们以生成增强的训练数据。REM方法的概述如图1所示。基准数据集上的实验结果表明，REM可以显著减少已见和未见环境之间的性能差距，从而显著提高整体导航性能。我们的消融研究表明，所提出的增强方法在相同的增强数据规模下优于其他增强方法。我们的最终模型在路径长度加权成功率（SPL）[2]方面达到了59.1%，比先前的最新结果高出2.4%；因此，我们的方法成为了标准VLN基准上的新的最先进方法。02. 相关工作0具身导航环境在人工智能领域引起了越来越多的关注。House3D [58]是一个手工创建的大规模环境。AI2-THOR[30]是一个可交互的室内环境。代理可以与某些可交互对象进行交互，例如打开抽屉或拿起雕像。最近的研究趋向于基于真实图像的模拟环境。ActiveVision数据集[1]包含16个不同房屋的密集扫描。此外，Matterport3D [4]、Gibson [59]和Habitat[47]提出了高分辨率的照片级真实全景视图，以模拟更真实的环境。视觉语言导航引起了广泛关注，因为它既具有广泛的适用性又是一项具有挑战性的任务。Anderson等人[4]提出了Room-to-Room（R2R）数据集，这是第一个将真实图像[9]和自然语言导航指令结合起来的视觉语言导航（VLN）基准。此外，TOUCHDOWN数据集[11]提供了用于街道导航的自然语言指令。为了解决VLN任务，Fried等人提出了一种用于数据增强和推理的说话者-跟随者框架[16]，并提出了一个名为“全景动作空间”的概念，以促进优化。Wang等人[55]证明了结合模仿学习[6,20]和强化学习[41,48]的好处。其他方法[56,36,38,51,28,24]从不同的角度提出了解决VLN任务的方法。由于BERT[15]的成功，研究人员已将其扩展到在VLN中学习视觉语言表示。PRESS[33]应用预训练的BERT来处理指令。PREVALENT[18]使用图像-文本-动作三元组对编码器进行预训练，以对齐语言和视觉状态，而VLN-BERT[39]则使用轨迹-指令对ViLBERT[34]进行微调。Hong等人[23]实现了一种基于先前模型的历史依赖状态表示的循环函数。数据增强在各种深度学习方法中被广泛采用。计算机视觉领域的早期数据增强方法是手动设计的，包括扭曲、缩放、平移、旋转和颜色转换[12,54,49,46]。传统的文本增强方法往往主要关注单词级别的情况[61,29,57]。一些研究在使用GAN生成增强数据方面取得了成功[7,45]。Zhang等人[60]提出了一种称为mixup的线性插值增强方法，用于规范化神经网络的训练。数据增强在强化学习中也得到了研究，包括领域随机化[52,42,44]、cutout[13]和随机卷积[32]。在视觉语言导航环境中，Fried等人提出使用一种生成方法[16]生成数据对，而Tan等人[51]提出了一种环境丢失方法。=(ℓ(f(x), y) − ℓ( ˆf(x), y))dP(x, y).(1)Rv(f) = 1mn𝑆!𝑆"𝑆$!,"𝑆$!,!𝑆$","T = (S1 ∪ S2 ∪ · · · ∪ SN).(3)˜Si,i = aug(Si, Si) ∼ P,˜Si,j = aug(Si, Sj) ∼ P,(4)16460为了增强模型在不同环境中的视觉特征，以往的增强方法在各种环境中进行。与这些增强方法不同，我们的REM方法将场景和指令-轨迹对进行交叉连接，从而提高模型在不同场景中的泛化能力。03. 预备知识03.1. 视觉语言导航0给定一系列的三元组（环境E，路径P，指令I），VLN任务要求智能体理解指令以便在相应的环境中找到匹配的路径。环境E包含大量已知和未知的场景，路径P = {p0, . . . ,pn}由一系列长度为n的视点组成；此外，指令I = {w0, . . . ,wm}由m个单词组成，并且路径P和指令I之间存在一定的对应关系。在时间步骤t，智能体观察到全景视图Ot ={ot,i}36i=1和可导航视点（最多k个）。图片Ot在水平方向上分为12个视图，在垂直方向上分为3个视图，总共36个视图。在第t步，智能体预测一个动作a � πθ(I,Ot)，其中πθ是由参数θ定义的策略函数。动作包括“向左转”，“向右转”和“向前移动”，如Matterpot环境[4]中所定义。在Matterport数据集[9]中，每个场景通过由视点组成的导航图离散化。我们将每个场景建模为一个图G = (V,E)，其中顶点集V是一组场景视点，E是视点之间的连接。03.2. 降低VLN中的泛化误差0学习问题可以被表述为在函数f ∈F中搜索，该函数最小化给定损失ℓ(f(x),y)的期望。然而，样本(x,y)的分布P通常是未知的。我们通常可以获得一个集合T �P，并将其用作训练集。近似函数ˆf可以通过经验风险最小化（ERM）[53]来实现。然而，ˆf和f之间仍然存在差距。这个误差描述了ˆf的泛化能力。泛化误差可以表示如下：0Rge(ˆf) = R(f) - R(ˆf)0为了增强ˆf的泛化能力，有必要降低Rge。根据邻近风险最小化（VRM）[10]的理论：0i=1 ℓ(f(˜x), ˜y), (2)0泛化误差0ISA的训练集 � "for ISA � " forNSA � " forREM0Figure 2.原始训练集和不同增强训练集的泛化误差。通过原始（红色）→ISA（橙色）→NSA（绿色）→REM（蓝色），T与˜T之间的距离越来越远，泛化误差相应地减小。0其中(˜x, ˜y) ∈ (T ∪ ˜T)，˜T � P，˜T �T。这意味着需要更多的样本来降低Rge。当样本数量确定时，样本(˜x, ˜y)到训练集T的距离d((˜x, ˜y),T)越远，泛化能力越好。在VLN任务中，训练集由N个场景组成：0我们定义一个数据增强函数aug(Si,Sj)。生成的增强数据遵循分布P：0其中˜Si,i是场景内增强数据集，˜Si,j是场景间增强数据集。根据公式1和2，我们有以下假设：与˜Si,i相比，˜Si,j到Si的距离更远，表示为d(˜Si,i, Si) < d(˜Si,j,Si)。因此，学习在场景间增强数据上的模型比在场景内增强数据上学习的模型具有更小的泛化误差。以前的方法在VLN中提出了两种数据增强方法：场景内增强（ISA）方法，如[16]，仅在场景中构建新的路径和指令；近场增强（NSA）方法，如[51]，通过向场景添加高斯噪声在一定程度上突破了场景的限制，但只扩展到一个小的邻域。对于我们来说，我们提出了一种场景间数据增强方法：随机环境混合（REM）。REM方法混合两个场景，构建两个场景之间的交叉连接场景。与其他方法相比，REM方法能够提高模型在不同场景中的泛化能力。Top 10 vertexesof 𝑉𝐶!̸̸̸(5)16470算法1：选择关键顶点0输入：场景图G；路径列表P = {p1，...，p | P |}输出：关键顶点v key s，v key t 1获取图G的顶点集V；02 获取图G的边集E；03 ˜V = {v | 按照V C04 ˜E = {e | 按照EC中的前10个e进行排序}；05 m = 0；06 //选择通过最多路径的顶点。09 ne = Σ|P|i=1（1 {e ∈ pi} + 0 {e/010 如果v s，v t ∈ V，则011 如果m < ne，则012 m = ne；013 v key s = v s；014 v key t = v t；015 结束016 结束017 结束018 返回v key s，v key t0ods，它超出了场景本身的限制，并在更广泛的数据分布下构建增强数据。图2说明了三种方法之间的差异。跨场景方法提供了更广义的数据；这有助于减少泛化误差，意味着在已见场景和未见场景中，智能体的导航能力可以得到提高。后续的实验已经验证了这个假设。04. 随机环境混合0我们提出了一种跨场景数据增强方法，借助训练集构建新的环境、路径和指令。在VLN任务的训练集中，有大量不同的场景。我们随机选择训练场景集合中的两个场景，并将它们混合在一起生成交叉连接的场景。采用这种方法可以构建相应的路径和指令。在混合场景时，我们面临以下问题：1）如何选择场景中的关键顶点进行混合？2）如何混合两个场景以获得交叉连接的场景？3）如何在交叉连接的场景中构建新的路径和指令？下面介绍了解决这些问题的方法，以构建大量与原始训练集不同的交叉连接场景。0��的前10条边！与关键顶点的交集和关键顶点的观察0螺旋楼梯0客厅0卧室0楼梯0大厅0卧室0卧室入口0图3.通过中介中心性选择关键顶点。绿色边通常是房间或走廊的入口和出口，我们选择包含最多路径的绿色边的两个顶点作为关键顶点。04.1. 选择关键顶点0关键顶点对于场景混合非常重要。它们的特点可以总结如下：1）连接两个房间的入口或走廊；2）该顶点有许多路径通过它。为了符合上述特点，可以参考图的中介中心性[8]来选择关键顶点：0V CB（v）=顶点的中介中心性的计算0s ≠ v ≠ t ∈ V0σ 0σ st，0ECB（e）=中介中心性的计算公0s ≠ t ∈ V；e ∈ E0σ st（e）0σ st，0其中，V C B（v）是顶点v的中介中心性，ECB（e）是边e的中介中心性；σst（v）是从s到t的最短路径经过顶点v的数量；σst（e）是从s到t经过边e的最短路径数量；σst是从s到t的所有最短路径数量。中介中心性通过经过顶点或边的最短路径数量来描述顶点的重要性。一旦从图中移除该顶点，两侧的点将会断开连接。如图3所示，我们选择中介中心性的前10个顶点和边，得到相应的集合V V C B和EEC B；随后，通过排除E EC B中顶点不在V V CB中的边，我们得到最终的关键子图G CB。为了确保后续生成更多路径，我们选择包含从G CB中生成的大多数监督路径的边e key，以及其相应的顶点vkey s和v key t。从图3中观察到#$%#$'#$%#$'#$'#$%0124567810110124567810110123247891011012456789109916480经过桌子，向右转。向左转，上楼梯。右转，走出屏幕围栏。在开放的屏幕门附近等待。0� 0"#$% � &0� 0"#$' � &0� 0"#$% � &0� 0"#$' � &0经过桌子，向右转。向左转，上楼梯。右转，走出屏幕围栏。在开放的屏幕门附近等待。0混合0定位对齐0� 0"#$% � &0� 0"#$' � &0经过桌子，向右转。向左转，上楼梯。0右转，走出屏幕围栏。在开放的屏幕门附近等待。0场景2 � !0场景1 � "0场景1+20� #0场景1+20� #0阶段1 阶段2 阶段30图4.混合场景的三个阶段。阶段1：为场景1和场景2选择关键顶点（vkey1s，vkey1t）和（vkey2s，vkey2t）。阶段2：混合场景1和场景2，断开两个关键边（ekey1，ekey2），连接（vkey1s，vkey2t）和（vkey2s，vkey1t）。阶段3：固定顶点的位置，对齐（vkey1s，vkey2t）和（vkey2s，vkey1t）的方向。指令是细粒度的，不同颜色的子路径与相应颜色的子指令匹配。随着场景的混合，路径和指令也被打破和重建。构建的场景、路径和指令被组合成三元组，成为VLN任务的增强数据。0向左转0视图10视图20交叉连接03 �03 �03 �03 �011混合0定位对齐0最终视图0向左转0向左转0图5.视点混合的过程。视图1是场景1中vkey1s的视觉观察，而视图2是场景2中vkey2s的视觉观察。实线箭头是代理的当前方向。虚线箭头是代理在执行动作后的方向。'�'表示到达下一个视点的方向。'向左转'是代理接收到的指令。'�，→'是代理为了到达下一个视点而采取的'向左转'和'前进'动作。0房间或走廊的入口和出口通常具有最高的介数。选择关键顶点的过程总结在算法1中。04.2. 构建增强三元组0构建交叉连接场景从训练集中随机选择两个场景（Scene1和Scene2）。我们通过三个阶段（图4）构建Scene1和Scene2的交叉连接场景GC。第一阶段：根据算法1，我们得到G1的关键顶点（vkey1s，vkey1t）0和G2。第二阶段：我们将G1、G2混合成图GC，断开两个关键边ekey1、ekey2，并连接（vkey1s，vkey2t）、（vkey2s，vkey1t）。这样，我们得到一个交叉连接场景GC。第三阶段：我们对GC进行方向对齐；通过调整GC中的顶点位置，确保交叉路径与指令的匹配。构建交叉视点GC是一个不包含视觉观察信息的图。因此，我们在GC的基础上构建交叉视点，以获得一个新的交叉连接环境。构建新的交叉连接环境的过程如图5所示。以场景1+2中的vkey1s为例，如3.1节所述，每个视点全景图在水平方向上分为12个视图（用数字0-11表示）。通过混合视图1和视图2，我们可以获得视图1+2的全景图。具体来说，视图是基于下一个视点的方向。我们用视图1替换视图2原始角度周围的三个视图，以获得交叉连接视图（从视图1获取红色0-37-11，从视图2获取蓝色2-4）。替换3个视图的超参数设置将在实验部分讨论。构建交叉路径和指令需要将指令和路径细化。为了获得细粒度的数据，我们使用细粒度R2R[22]来分割指令和路径，并对齐子指令和子路径。如图4（阶段3）所示，我们通过组合关键顶点之前和之后的子路径以及相应的子指令，获得交叉连接场景中的路径和指令。定位对齐根据图4（阶段1和阶段2），我们构建交叉连接场景和相应的交叉视点。简单地连接vkey1s和vkey2t会导致相关方向的不匹配。16490方法 R2R 验证集已见 R2R 验证集未见 R2R 测试集未见0TL NE ↓ SR ↑ SPL ↑ TL NE ↓ SR ↑ SPL ↑ TL NE ↓ SR ↑ SPL ↑0随机 9.58 9.45 16 - 9.77 9.23 16 - 9.89 9.79 13 12 人类 - - - - - - - - 11.85 1.61 86 760Seq2Seq-SF [4] 11.33 6.01 39 - 8.39 7.81 22 - 8.13 7.85 20 18 Speaker-Follower [16] - 3.36 66 - - 6.62 35 -14.82 6.62 35 28 SMNA [37] - 3.22 67 58 - 5.52 45 32 18.04 5.67 48 35 RCM+SIL [55] 10.65 3.53 67 - 11.466.09 43 - 11.97 6.12 43 38 PRESS [33] 10.57 4.39 58 55 10.36 5.28 49 45 10.77 5.49 49 45 FAST-Short [28] - - -- 21.17 4.97 56 43 22.08 5.14 54 41 EnvDrop [51] 11.00 3.99 62 59 10.70 5.22 52 48 11.66 5.23 51 47 AuxRN[62] - 3.33 70 67 - 5.28 55 50 - 5.15 55 51 PREVALENT [18] 10.32 3.67 69 65 10.19 4.71 58 53 10.51 5.30 54 51RelGraph [21] 10.13 3.47 67 65 9.99 4.73 57 53 10.29 4.75 55 52 VLN � Bert [23] 11.13 2.90 72 68 12.01 3.93 6357 12.35 4.09 63 570IL+RL* [51] 10.25 4.91 53.8 50.7 9.38 5.89 46.2 42.5 9.58 5.88 46.4 43.3 IL+RL+REM 10.18 4.61 58.2 55.3 9.405.59 48.6 44.8 9.81 5.67 48.7 45.1 EnvDrop* [51] 10.46 3.78 64.4 62.0 9.50 5.52 51.1 47.3 11.32 5.84 50.5 46.5EnvDrop+REM 11.13 3.14 70.1 66.7 14.84 4.99 53.8 48.8 10.73 5.40 54.1 50.4 VLN � Bert* [23] 12.09 2.99 70.765.9 12.58 4.02 61.4 55.6 11.68 4.35 61.4 56.7 VLN � Bert+REM 10.88 2.48 75.4 71.8 12.44 3.89 63.6 57.9 13.113.87 65.2 59.10表1. 在单次运行设置下代理的R2R性能比较。*在我的环境中重现的结果。0方法 R4R 验证集已见 R4R 验证集未见0NE ↓ SR ↑ SPL ↑ CLS ↑ nDTW ↑ SDTW ↑ NE ↓ SR ↑ SPL ↑ CLS ↑ nDTW ↑ SDTW ↑0说话者-跟随者[27] 5.35 51.9 37.3 46.4 - - 8.47 23.8 12.2 29.6 - - RCM[27] 5.37 52.6 30.6 55.3 - - 8.08 26.1 7.734.6 - - PTA[31] 4.53 58.0 39.0 60.0 58.0 41.0 8.25 24.0 10.0 37.0 32.0 10.0 EGP[14] - - - - - - 8.00 30.2 - 44.437.4 17.5 BabyWalk[63] - - - - - - 8.2 27.3 14.7 49.4 39.6 17.30IL+RL* [51] 5.94 35.3 32.5 37.1 38.7 26.5 8.88 31.9 18.7 32.3 31.7 12.2 IL+RL+REM 6.72 39.9 36.5 42.4 47.3 31.28.83 33.1 20.1 38.6 37.6 15.7 EnvDrop* [51] 5.94 42.7 39.5 40.2 41.8 29.6 9.18 34.7 21.0 37.3 34.7 12.1EnvDrop+REM 5.83 46.3 43.5 45.1 49.7 33.4 8.21 37.9 25.0 42.3 39.7 18.5 VLN � Bert* [23] 4.84 55.7 46.0 47.855.8 37.9 6.48 42.5 32.4 41.4 41.8 20.9 VLN � Bert+REM 3.77 66.8 57.4 56.8 61.5 41.5 6.21 46.0 38.1 44.9 46.322.70表2. 在单次运行设置下代理的R4R性能比较。*在我的环境中重现的结果。0交叉连接场景中的顶点；因此需要对顶点的方向进行对齐。更具体地说，在混合场景和视图之后，‘ �’的方向发生了变化（图5从90°变为150°）。相应地，为了使其能够进入下一个视点，代理的动作也发生了变化（从‘ �’变为‘ →’）。然而，指令仍然是‘向左转’。为了解决动作和指令之间的不匹配问题，我们需要修复交叉连接场景上的位置。为了实现这一点，如图4（第3阶段）所示，我们移动顶点vkey 1 t，v key 2t及其相关的顶点，交换两个顶点的位置，这意味着关键顶点的相对位置保持不变。通过固定顶点的位置，‘ �’的方向得到了对齐（参见图5最终视图）。代理的动作和指令再次匹配。04.3. 视觉语言导航增强0此时，我们已经构建了用于训练的增强三元组：（环境，路径，指令）。我们的方法能够将任意两个场景混合成一个新的交叉连接场景。因此，我们可以生成大量的新场景及其相应的路径和指令。0对于VLN任务，我们需要导出用于训练的交叉连接场景，包括视点、连接关系和顶点位置。增强的三元组将直接与原始训练集合并，即T aug = ˜ T ∪ T；我们在训练中使用T aug代替T。交叉视点的不同方向的观察特征来自不同的场景。Table 4. The impact of replacing the number of different views onthe model performance. ”0 View” means that visual observation isnot replaced16500方法NE ↓ OR ↑ SR ↑ SPL ↑0验证集已见过的0基准 4.91 62.3 53.8 50.70OA之前 4.83 63.1 54.6 53.20OA之前 + CCV 4.72 64.3 56.8 54.10OA之后 4.78 63.7 55.6 53.80OA之后 + CCV 4.61 65.6 58.2 55.30验证集未见过的0基准 5.89 54.5 46.2 42.50OA之前 5.92 53.0 46.0 42.40OA之前 + CCV 5.88 54.8 46.9 42.80OA之后 5.73 55.2 47.2 43.20OA之后 + CCV 5.59 56.0 48.6 44.80表3.方向对齐前后模型性能。OA之前表示方向对齐之前；OA之后表示方向对齐之后；CCV表示在构建交叉视点中替换的视觉观察。05. 实验05.1. 数据集和评估设置0数据集和模拟器我们在基于Matterport3D模拟器[9]的Room-to-Room(R2R)[4]和R4R[27]上评估我们的代理。这是一个强大的导航模拟器。R4R基于R2R，并旨在为体验导航代理提供更具挑战性的环境。在一个场景中，代理将在环境的连通图上的预定义视点之间跳转。评估指标已经有很多被认可的指标用于评估VLN模型：轨迹长度(TL)，以米为单位的轨迹长度；导航误差(NE)，距离目标点的误差，以米为单位；成功率(SR)，代理成功到达目标点的比例；以及路径长度加权的成功率(SPL)[2]。在R4R中，CLS[27]，nDTW和SDTW[25]考虑了代理的步骤，并对导航路径中的中间错误敏感。实现细节我们使用EnvDrop[51]和VLN �Bert[23]作为基线来评估我们的方法。为了公平起见，我们使用与原始方法相同的实验设置。在不改变超参数设置的基础上，添加了增强的三元组进行训练。我们随机配对和混合了训练集中的61个场景，最终获得了116个交叉连接场景，5916条路径和7022条指令。05.2. VLN标准基准结果0在本节中，我们将我们的方法与其他几种代表性方法进行比较。我们将提出的REM应用于三种基准方法，并将它们与其他方法进行比较。表1显示了R2R上的结果。REM在这三种基准方法上取得了出色的性能。在最先进的方法中，REM可以进一步提高性能。表2显示了R4R上的结果。通过REM，所有0方法NE ↓ OR ↑ SR ↑ SPL ↑0验证集已见过的00次观看 4.78 63.7 55.6 53.801次观看 4.70 64.5 56.8 54.602次观看 4.64 65.1 57.2 54.903次观看 4.61 65.6 58.2 55.304次观看 4.67 64.0 57.6 55.00验证集未见过的00次观看 5.73 55.2 47.2 43.201次观看 5.68 55.9 47.5 43.402次观看 5.63 56.2 48.1 44.103次观看 5.59 56.0 48.6 44.804次观看 5.66 55.3 47.9 44.30三种基准方法都得到了显著改进。除了成功率和SPL外，REM还可以显著提高CLS和nDTW，这表明所提出的方法可以使智能体遵循指令并使导航路径更匹配。05.3. 方法分析0方向对齐在第4.2节中，我们提出了方向对齐操作。表3显示了没有方向对齐（OA之前）和方向对齐（OA之后）之间的性能差异。方向对齐将基线的成功率提高了1%。如果方向没有对齐，模型的性能将下降。这是因为智能体的动作和指令不匹配，智能体无法正确学习指令和动作之间的关系。此外，我们还测试了替换视觉观察（CCV）对结果的影响，OA之后获得了最大的改进。替换视觉观察在构建交叉视角的过程中，我们执行了在指定方向上替换视觉观察的操作。水平方向上共有12个视角方向。我们进行了实验来确定应该替换多少个视角以获得模型的最佳结果。表4概述了替换不同数量视角对模型性能的影响。如表所示，三个视角是最佳选择。过度替换视觉观察信息是不理想的。通过实验，我们选择在REM中的每个交叉视角中替换三个水平方向的视角。图6显示了交叉视角的示意图。05.4. 剔除分析0为了比较混合环境数量对REM性能的影响，我们限制了训练数据的数量（数据比例为1表示7022个指令）。678910110123456-180°-90°0°90°180°⇒0123456789101100°90°±180°-90°0°⇒678910110123456-180°-90°0°90°180°⇒0°90°±180°-90°0°012345678910110⇒⇒𝑣!"#$%𝑣&"#$'𝑣("#$'𝑣&"#$%⇒⇒16510下一个视角0下一个视角0下一个视角0下一个视角0交换交换0图6.交叉视角的示意图。两个场景的关键视角混合后，上下两个视角的分割视图互换；左右两个视角相互连接，智能体可以通过‘�’相互到达。0图7.使用不同数量数据训练的智能体的成功率。图中相同的数据比例表示使用相同数量的数据。蓝线表示通过逐渐添加新环境到监督训练方法中来提高结果。红线仅逐渐增加数据量并从所有训练环境中随机选择数据。0并比较了四种不同的设置：1）随着数据量的增加，可用于混合的环境数量也以相同的比例增加；2）混合始终用于所有环境，但生成的指令数量不同；3）使用NSA生成相同的指令数量；4）使用ISA生成相同的指令数量。成功率可以表示不同方法的泛化能力。方法的成功率越高，其泛化能力越强。结果如图7所示。随着采样数据的增加，所有方法在模型性能方面都取得了一定程度的改进。当数据比例为1时，红点和蓝点具有相同的设置，红点达到了性能的峰值；这意味着当混合场景的数量固定时，继续增加样本数据量会提高性能。0对于蓝线，当数据比例为1时，没有观察到性能下降趋势，这表明增加混合场景的数量可以继续减少泛化误差。红蓝线和橙绿线之间的差异表明，当样本数量相同时，场景间数据增强明显优于场景内数据增强。这验证了第3.2节中提出的假设。06. 结论本文分析了影响泛化能力的因素，并提出了场景间数据增强可以更有效地减少泛化误差的假设。因此，我们提出了随机环境混合（REM）方法，通过混合环境生成交叉连接的房屋场景作为增强数据。对基准数据集的实验结果表明，REM可以显著减少已见和未见环境之间的性能差距。此外，REM显著提高了整体导航性能。最后，消融分析验证了我们关于减少泛化误差的假设。0致谢本工作部分得到中国国家973计划（编号2014CB340301）、广东省优秀青年基金（编号2021B1515020061）、浙江实验室开放基金（编号2020AA3AB14）、CSIG青年会员支持基金以及澳大利亚研究理事会（ARC）发现早期研究者奖（DE-CRA）（编号DE190100626）和浙江实验室开放基金（编号2020AA3AB14）的支持。[11] Howard Chen, Alane Suhr, Dipendra Misra, Noah Snavely,and Yoav Artzi. Touchdown: Natural language navigationand spatial reasoning in visual street environments. In CVPR,2019. 2[15] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and KristinaToutanova.Bert:Pre-training of deep bidirectionaltransformers for language understanding.arXiv preprintarXiv:1810.04805, 2018. 1, 2[17] Saurabh Gupta, Varun Tolani, James Davidson, SergeyLevine, Rahul Sukthankar, and Jitendra Malik.Cognitivemapping and planning for visual navigation. arXiv preprintarXiv:1702.03920, 2017. 1[19] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.Deep residual learning for image recognition.In CVPR,2016. 1[21] Yicong Hong, Cristian Rodriguez, Yuankai Qi, Qi Wu, andStephen Gould.Language and visual entity relationshipgraph for agent navigation. In NeurIPS, 2020. 6[22] Yicong Hong, Cristian Rodriguez-Opazo, Qi Wu, andStephen Gould. Sub-instruction aware vision-and-languagenavigation. arXiv preprint arXiv:2004.02707, 2020. 5[27] Vihan Jain, Gabriel Magalhaes, Alexander Ku, AshishVaswani, Eugene Ie, and Jason Baldridge. Stay on the path:Instruction fidelity in vision-and-language navigation.InProceedings of the 57th Annual Meeting of the Associationfor Computational Linguistics, pages 1862–1872, 2019. 6, 716520参考文献0[1] Phil Ammirato, Patrick Poirson, Eunbyung Park, JanaKosecka, and Alexander C. Berg. A dataset for developingand benchmarking active vision. In 2017 IEEE InternationalConference on Robotics and Automation (ICRA), pages1378–1385, 2017. 20[2] Peter Anderson, Angel X. Chang, Devendra SinghChaplot, Alexey Dosovitskiy, Saurabh Gupta, Vladlen Koltun,Jana Kosecka, Jitendra Malik, Roozbeh Mottaghi, ManolisSavva, and Amir Roshan Za

下载后可阅读完整内容，剩余1页未读，立即下载