结构编码辅助任务在视觉和语言导航中的应用

36 浏览量更新于2023-10-16 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11042⇥结构编码辅助任务在视觉和语言导航佐治亚理工学院郭家文albert. gatech.edu马志尧cyma@gatech.edu朱迪·霍夫曼佐治亚理工学院judy@gatech.edu乔治亚理工大学zkira@gatech.edu摘要在视觉和语言导航（VLN）中，研究人员通常使用在ImageNet上预训练的图像编码器，而不对智能体将在其上训练或测试的环境进行微调。然而，来自ImageNet的训练图像与导航环境中的视图之间的分布偏移可能使ImageNet预训练图像编码器次优。因此，在本文中，我们设计了一组结构编码辅助任务（SEA），利用导航环境中的数据来预训练和改进图像编码器。具体来说，我们设计和定制（1）3D拼图，（2）遍历性预测，（3）实例分类来预训练图像编码器。通过严格的消融，我们的SEA预训练特征被证明可以更好地编码场景的结构信息，ImageNet预训练特征无法正确编码，但对于目标导航任务至关重要SEA预训练的功能可以很容易地插入到前ESPVLN代理中，而无需任何调整。例如，在Test- Unseen环境中，VLN 代理与我们的 SEA 预训练特征相结合，对于Speaker-Follower [14]，实现了12%的绝对成功率改进，对于Env- Dropout [37]，实现了5%的绝对成功率改进，对于WARRN [50]，实现了4%的绝对成功率改进。1. 介绍在视觉和语言导航（VLN）[5]中，智能体通过遵循人类指令在复杂的环境中导航到目标位置。在这个任务中，智能体需要解释人类指令，编码视觉输入，然后根据任务[27，50，44]，等等。然而，大多数现有的工作忽略了底层视觉表示的重要性，通过简单地采用在ImageNet上预训练的图像编码器（将图像x编码为特征fxRd的CNN模型）来编码导航环境中的视图（例如，Matter- port3D [7]）。由于ImageNet和导航环境之间的数据分布偏移，以及预训练任务（图像分类）和目标任务（VLN）之间的差异，ImageNet预训练图像编码器可能无法编码VLN任务的关键信息。减轻这种负面影响的一种简单方法是根据目标环境和任务微调图像编码器。然而，在导航环境中，诸如语义分割掩模、对象边界框或对象和场景类之类的图像标签可能不可用于微调图像编码器。此外，在目标VLN任务上与代理联合微调图像编码器在计算上是禁止的为了改进图像编码器，而不需要在目标环境中手动注释标签，并且不需要与VLN代理联合进行微调，我们使用图1所示的导航环境中可用的数据，在建议的结构编码辅助任务（SEA）上预训练图像编码器。具体来说，我们收集RGB图像从不同的意见的环境，一个视图之后，我们通过收集的数据上的建议的辅助任务来预训练图像编码器。然后，我们使用冻结的预训练图像编码器预先计算训练环境的每个视图的特征，并使用我们预先计算的特征按照经典的VLN方法训练导航代理联合文本和视觉信息。自提出“房间到房间”方案结合我们的SEA预训练特征，VLN方法实现了12%的绝对成功率提高(R2R)Anderson et al.的数据集[5]，其中，学习更多的训练数据[14，22，37]，学习更好的联合视觉和文本表示[43，21，17，29]，改进代理的内部状态表示，冰冷的网络（相对于视觉编码器）通过辅助1.为了训练一个具有全景动作空间的智能体，在每次迭代中，我们取64个轨迹，每个轨迹平均包含5步，每个步包含36个视图，每个视图是一个640 480的高分辨率图像。在一次训练迭代中，这些高分辨率图像通过图像编码器的正向传递次数高达10k+。1105图1：我们提出了三个辅助任务：（1）3D Jigsaw，（2）可通过性预测，和（3）实例分类，以改进下游VLN任务的视觉表示。这些辅助任务仅在导航环境中可用的数据上训练，例如RGB图像视图、视图的相邻视图以及视图内的对于 Speaker-Follower [14]，对于 Env-Dropout [37]为5%，对于Test-Unseen [50]为4%（即，没有预探测或波束搜索）。为了了解智能体如何从我们的SEA预训练功能中受益，我们对信息编码以及智能体的导航性能如何受到每个辅助任务的影响进行了彻底的与ImageNet预训练特征相比，我们的SEA预训练特征更好地编码了场景的结构信息，这对目标导航任务至关重要。将发布用于预训练图像编码器的源代码和收集的数据以及预训练的SEA特征，以促进VLN的未来研究。我们的主要贡献在于：• 设计和定制一组辅助任务，通过在导航环境中容易获得的图像和Meta数据上进行训练来改善视觉表示一个冻结的ImageNet[35]预训练图像编码器。 Ma等人。[27]提出了一个进度监控模块，以改善视觉和文本信息之间的基础。Huang等人[21]还旨在通过跨模态对准损失来对对准的修正路径对进行分类，从而改善视觉和文本信息之间的接地。为了进一步改善智能体另一种改进跨模态基础的方法是在图像和文本的配对数据上预训练模型[17，29]。为了提高模型的泛化能力，Wang et al.[44]提出了一种对抗性训练策略，从智能体的状态表示中删除场景特定的信息。Zhu等人。[50]通过四个辅助任务，包括说话人模型，进度监视器，方向预测，• 当将我们的 SEA 预训练特征与 VLN 方法（包括Speaker- Follower [14]，Env-Dropout [37]和EARRN[50]）相结合时，可以在看不见的环境中实现显着的性能提升。• 进行彻底的消融研究，以了解代理如何受益于拟议的辅助任务和SEA预训练功能。2. 相关作品2.1. 训练座席的辅助任务在视觉和语言导航中，由于训练数据量有限，研究人员提出了辅助任务来规范智能体模型并提供自适应训练信号。尽管他们在VLN任务中取得了成功，但这一系列工作的重点是改进策略网络的代理和冗余指令匹配。在强化学习（RL）中，已经证明，联合训练代理与辅助任务可以改善状态表示并大大加快训练。RL中的一些常见辅助任务包括：（1）未来预测[26，15，46，13，32]，它预测一个代理的未来状态的条件下，其当前状态和所采取的行动，（2）逆动态[15，46，32]，它预测两个状态之间采取的行动，以及（3）对比学习[3，36]，它应用对比学习来改进状态表示。尽管RL工作和VLN之间存在差异，但VLN[50]（我们进一步改进）在VLN中引入了Agent方向预测的辅助任务我们还从RL系列作品中汲取灵感，提出我们的辅助任务。例如，可通行性预测的概念类似于Chap-lot等人。[8]，其目标是建立一个拓扑图，o 相邻视图←，，↑，，→，t，↓，o 可遍历：假→↑积极负实例分类3D拼图1106-}{⇥⇥图像目标导航的环境。与这些工作不同，我们提出的辅助任务侧重于改进视觉表示，这是后来使用的VLN代理导航和状态表示。我们提出的辅助任务是有效的，并改善后，CRARN，它引入了几个辅助任务的培训VLN的政策，由大利润率。2.2. 计算机视觉自监督学习在学习没有标签的数据的良好视觉表示所学习的表示很好地推广到各种各样的下游任务，如图像分类，对象检测，场景分类等。为了在没有标签的情况下训练模型，自监督学习方法通过数据固有的视觉线索来定义辅助任务。这些视觉线索包括：来自图像的空间信息[12，30]、来自视频或运动的时空信息[42，1，33]、图像颜色[34，48，24，25]等。最近，对比学习[31，39，10，18，16，6]已经取得了与监督学习相当的性能对比学习的目标是通过从其他图像池中识别图像的增强副本来学习对一组图像增强不变的视觉表示[40，10，49，51，45]受计算机视觉中自监督学习的成功启发，在这项工作中，我们设计了三个辅助任务来改进图像编码器，而不需要数据标签，如冗余指令对，对象标签等。此外，由于智能体可以在交互环境中移动，我们在设计辅助任务时利用了这一点。例如，与其他通过裁剪图像[12，30]或通过视频剪辑中的连续帧[2]生成拼图的拼图式自监督任务不同，我们提出的3D拼图主动采样相邻视图，从视点的变化中引入更自然的3. 方法在现有的VLN方法中，由于ImageNet和导航环境之间的数据分布偏移以及预训练分类任务和目标VLN任务之间的差异，ImageNet预训练如第1节所述，由于缺少标记图像，在目标环境中微调图像编码器的简单解决方案不适用。此外，在目标VLN任务上联合训练图像编码器与代理也是计算上禁止的。因此，我们寻求设计辅助任务，可以改善图像编码器，但只依赖于导航环境中可用的数据。3.1. 问题设置在VLN中，在不同的室内环境中，导航代理被以概率-指令对的形式给予训练数据。在训练环境中，还允许代理访问诸如RGB图像视图、视图的相邻视图和视图中包含的可遍历方向之类的数据。在本文中，为了与其他作品进行公平比较，仅使用这些信息来训练所提出的辅助任务，以确保性能增益不是来自额外的训练信号（例如，语义分割图、房间类型）。3.2. 辅助任务利用从环境中收集的数据，我们的目标是设计辅助任务，帮助图像编码器编码视觉信息，这对目标VLN任务至关重要。为了找出哪些是重要的功能，我们首先从以下指令示例开始：“走出放映室，右转，径直走进有地球仪的房间，然后停下来。”如上所述，为了正确地遵循指令，代理需要从其图像编码器编码以下信息：（1）场景的结构信息（出口、右边、直接进入），以及（2）视觉表示中的场景和对象（放映室、房间、地球仪）的区分信息。因此，我们设计了三个辅助任务，如图2所示：（1）3D拼图，(2)可遍历性预测;（3）实例分类为VLN编码这些关键信息。3.2.13D拼图为了正确地遵循指令到达目标位置，智能体必须从视觉表示中解释诸如“向左转“、“当你看到左边的沙发时向右转“、“停在电视机前”的指令因此，我们提出了辅助任务的三维拼图编码的结构信息的场景，通过预测的相对姿态（位置，航向，和海拔）的两个视图。如图2a所示，给定红色框中的锚视图xa，黄色框中的查询视图xq是从锚视图周围的相邻视图中采样的近钻孔视图是离散化的标题、高程和位置的[ 1，0，+1]范围内的视图，形成具有27个视图（3 3 3）的3D拼图。相邻视图的标签（拼图标签）可以通过它们与锚视图的相对姿态（图2a中覆盖在相邻视图上的“数字”）唯一地确定如果采样的锚视图向上看，则图2a中的7-9、16-18、25-27的相邻视图将由于视图被离散化的方式而不可用（类似于向下看的情况）。另一方面，如果采样的锚视图不包含任何可遍历方向，则可以将采样的锚视图的相邻视图替换为可遍历方向。{19-27}将不可用，因为座席无法前往1107··X-X1-查询图像(a) 3D拼图(b) 可通过性预测关键图像(c) 实例分类图2：（最好在计算机上查看，彩色和放大。我们设计了三个辅助任务来编码场景的结构信息，以及对VLN任务至关重要的对象和场景分类的判别特征(a) 3D拼图的辅助任务是预测锚视图（红框）和查询视图（黄色）之间的相对姿态查询视图是沿着高程、航向和位置维从锚点视图的相邻视图中采样的(b) 可遍历性预测的辅助任务是预测视图是否包含可遍历方向。蓝色框中的图像标记为True（包含可遍历方向），红色框中的图像标记为False（不包含可遍历方向）。（c）实例分类的辅助任务是从其他图像视图的池中识别视图的增强副本。在这个示例中，蓝色框中的视图是对应的增强副本（正对），而红色框中的视图是其他图像视图（负对）。向前迈一步然而，辅助任务和竖锯标签仍然可以以类似的方式构造.那些不可用的相邻视图被简单地移除。条件的锚视图，3D拼图任务制定为27类分类问题。预测pjig计算如下：pjig=softmax（$jig（[fenc（xa），fenc（xq）]）），（1）其中fenc是与其他辅助任务共享的图像编码器，$jig是特定于3D jig- saw的多层感知器，[，]是沿着特征维度的级联操作。损失只是一个交叉熵损失：N图2b所示的可通行性预测的辅助任务。当视图包含可遍历方向时，图像编码器将给定图像视图分类为真，否则将其分类为假。遵循Matter-port 3D（MP 3D）模拟器[5，7]中的实践，如果离散化可遍历位置在当前视图的水平场内且在当前位置的5米欧几里德距离内，则可遍历方向包含在当前视图该信息通过构建和解析环境的导航图来获取，并在MP3D模拟器以及许多其他VLN模拟器和数据集中提供[19，38，41，9]。可遍历性预测任务被公式化为二元分类问题。预测pnav是com-L型跳汰机 =1yN 我i、夹具logP i、夹具、（二）假定为：ptrav=σ（$trav（fenc（x），（3）其中，yi，jig和pi，jig分别是第i个训练示例的拼图标签和预测，并且损失在N个示例的小批量上平均其中fenc是与其他辅助任务共享的图像编码器，$trav是特定于可通过性预测的多层感知器，σ是S形激活函数。损失只是一个二进制交叉熵损失：3.2.2可通行性预测为了编码布局（结构）和导航-LtravN=Nyi，trav我logP i，trav+（四仰角+标题─741位置-16171385225221815262320963位置+2724211112标题+海拔-...1108）场景和环境的形成，我们提出了一个（1-yi，trav）log（1-pi，trav），1109N我insENCQ我P其中，yi，trav和pi，trav分别是第i个训练示例的可遍历性标签和预测，并且损失在N个示例的小批量上平均。3.2.3实例分类为了正确地遵循指令，智能体必须编码场景信息，如厨房、卧室、浴室等，以及对象信息，如椅子、沙发、电视等。在计算机视觉中，实例分类[18，10]在表示学习方面取得了显着进展。研究表明，通过实例分类学习的表示可以很好地转移到许多下游任务，如对象分类，对象检测，场景分类。因此，我们将实例分类作为导航环境中的辅助任务来编码对象和场景的判别信息。如图2c所示，给定图像视图x，我们通过在图像视图x上应用图像增强（诸如颜色抖动、照明调整、仿射变换等）来生成查询图像xq和关键图像xk。给定查询图像xq，实例分类任务是从其他图像视图（负样本）的池中识别对应的关键图像xk与MoCo[18]类似，我们使用存储库通过存储来自先前小批次的训练样本的编码特征来增加负样本的数量。我们还使用当前图像编码器对xq进行编码，使用移动平均图像编码器对xk进行编码.实例预测pins可以计算为：图3：应用积极的调整大小裁剪增强，这是有效的对象为中心的图像可能会删除重要的视觉线索，在场景图像与多个对象。在这个例子中，将蓝色图像与黄色图像分类为正对是不明确的对于学习以对象为中心的图像数据集（如ImageNet）非常有用。然而在导航环境中，图像视图在一个场景中包含多个对象.农业规模调整作物（规模范围在[0. 二一0]）可能会删除重要信息并导致如图3所示的模糊情况。因此，我们使用一个弱调整大小裁剪（缩放范围在[0. 八，一。0]），并使用仿射变换代替激进的调整大小裁剪。3.3. 训练过程在本节中，我们将解释如何有效地训练图像编码器，以及如何使用SEA预训练的特征来训练VLN代理。3.3.1图像编码器pins= exp（$ins（fenc（xq））·$ins（fenc（xk）/））exp（$（f （x））·m/）（五）我们提出了一个训练过程，在三个辅助任务的小批量中重用数据。如果没有数据重用，我们需要两个3D拼图的训练样本，一个用于其中，fenc是与其它图像编码器共享的当前图像编码器辅助任务，$ins是一个特定于实例分类的多层感知器，f和$ins是它们的移动，平均版本，mi是存储器组中的第i个条目（负样本），并且m i是缩放因子（温度）。损失只是一个交叉熵损失：N遍历性，以及一个用于实例分类，其总计四个训练样本。这在计算和内存使用方面将是昂贵的，特别是对于VLN中的高分辨率图像的加载和训练。给定小批量中的第i个图像xi，在3D拼图中，我们使用xi作为锚视图，并从xi的相邻视图中采样查询视图xi，qxi被重用用于可遍历性预处理，Lins =-1Xy移民和归化局logP 移民和归化局、（6）措辞在实例分类中，我们再次重用xi作为查询图像视图，并将其增强副本作为键im。i年龄视图xi，k.总共对两个图像进行采样。进一步其中yi，ins和pi，ins是第i个训练示例的正样本和实例预测的标签，并且损失在N个示例的小批量上平均。为了通过实例分类来学习良好的视觉表示，图像增强起着至关重要的作用[10，11]。良好的图像增强取决于下游任务，以及应用实例分类的数据形式[40]。它已被证明，颜色抖动，高斯模糊，水平翻转，调整大小裁剪，特别是减少计算，仅将xi馈送到当前模型中用于反向传播。所有其他图像视图（包括来自3D拼图的xi，q和来自实例分类的xi，k）都被馈送到受MoCo启发的移动平均图像编码器中[18]。通过这种方式，我们可以大大节省计算，因为用于不同辅助任务的图像是共享的。此外，由移动平均图像编码器计算的特征通过不构造计算图来减少存储器使用，并且通过不执行反向传播来减少计算。1110-最后，通过三个辅助任务的损失之和来优化图像编码器：L=λjigLjig+λtravLtrav+λinsLins（7）我们根据经验设置λjig=λtrav=λins= 1，而无需进一步的超参数调整。3.3.2剂在使用所提出的辅助任务预训练图像编码器之后，我们按照[5]和所有其他VLN工作中的约定在训练环境中预计算每个离散化视图的特征。然后，VLN通过将图像编码器的训练与VLN代理解耦，其他VLN方法可以以最小的修改从我们改进的视觉表示中受益。4. 实验4.1. 数据集在本文中，我们提出并验证了我们在Matterport3D（MP3D）模拟器[5，7]和房间到房间（R2R）数据集[5]上的方法，但该方法适用于一般导航设置[19，38，41，9]，其中相邻图像视图和可通行性信息可用。用于预训练图像编码器的数据集。为了预训练图像编码器，我们收集MP3D模拟器的环境中可用的数据，诸如RGB图像视图、视图的相邻视图、视图内的可遍历方向等。根据Anderson et al.[5]，在每个位置处，视图以30○间隔离散化，航向范围为[0○，330○]，以及[ 30○，30○]用于eleva-这导致每个位置有36个视图。后在[5]中，预训练数据集由Train环境中的约275 k离散图像视图、Val-Unseen环境中的34 k和Test-Unseen环境中的71 k组成。图像编码器仅根据Train环境中的数据进行预训练用于训练VLN代理的数据集我们使用房间到房间（R2R）数据集[5]，其中包含7，189个以人类指令和轨迹对形式的训练数据。每个轨迹都与三个指令配对。整个数据集分为四组：Train、Val-Seen、Val-Unseen 和 Test-Unseen 。 Val-Seen 环境与 Train 环境相同，但导航指令不同另一方面，Val-Unseen和Test-Unseen环境与Train环境不同，也与不同的导航指令不同。4.2. 评价预训练特征的有效性通过代理在目标VLN任务上的性能来由于图像编码器和智能体的训练是解耦的，因此智能体的性能改善可以单独归因于图像表示的改善代理在可见（ Val-Seen ）和不可见（ Val-Unseen 和 Test-Unseen ）环境中进行评估。尽管已经对可见环境（Val-Seen）进行了基准测试学习在看不见的环境中很好地概括（Val- Unseen和Test-Unseen）。在[5，4]和其他VLN方法之后，使用以下指标评估代理：（1）TL：平均轨迹长度，（2）NE：导航误差，定义为智能体的最终位置和目标位置之间的平均最短路径距离4.3. 主要结果我们首先证明了我们的预训练特征优于ImageNet预训练特征，并且可以通过简单地使用我们的SEA预训练特征代替ImageNet预训练特征来提高导航代理在单次运行设置下评估代理，其中只有来自训练环境的数据可用于训练代理和图像编码器。与其他VLN方法相比，不包括额外的信息，因为图像编码器也仅在来自训练环境的数据上进行预训练单次运行设置，丁测试的泛化性能的代理和视觉表示新的举行了出来的环境。对于VLN代理，我们选择Speaker-Follower[14]，Env- Dropout[37]和WARNRN[50]，并用我们的SEA预训练特征替换ImageNet预训练特征。我们使用这些VLN方法发布的代码，并使用我们的SEA预训练功能训练代理，而无需对代理进行任何在表1中，使用我们的SEA预训练功能，所有三个代理都在Val-Unseen 和Test-Unseen中实现了一致的改进。值得注意的是，在Test-Unseen中，评估的最重要部分，因为它测试了新环境的泛化性能，我们的SEA预训练特征在Speaker-Follower的SR和SPL方面都实现了12%的绝对改进我们获得的改进可以完全归因于我们预先训练的特征，而不是代理的改进，因为我们我们预期通过调优可以实现更高的性能。这些结果也突出了视觉表征的重要性，长期以来一直被忽视的VLN任务。此外，由于视觉表示的改进与智能体的改进是正交的，因此其他VLN智能体和后续工作也可以从我们的SEA预训练特征中受益并我们将发布预-1111RCM[43]10.653.530.67-11.466.090.43-11.976.120.430.38自我监控[27]-3.220.670.58-5.520.450.3218.045.670.480.35[28]第二十八话-3.230.690.63-5.320.500.4113.695.690.480.40流行[17]10.323.670.690.6510.194.710.580.5310.515.300.540.51[20]第二十话10.133.470.670.659.994.730.570.5310.294.750.550.52[第14话]-3.360.66--6.620.35-14.826.620.350.28[37]第三十七话11.003.990.620.5910.705.220.520.4811.665.230.510.47AuxRN[50]-3.330.700.67-5.280.550.50-5.150.550.51Speaker-Follower + SEA（我们的）12.803.680.640.5613.615.160.51（+16%）0.4214.075.420.47（+12%）0.40（+12%）Env-Dropout + SEA（我们的）10.313.440.690.669.884.760.56（+4%）0.52（+4%）10.184.890.56（+5%）0.53（+6%）OURN + SEA（我们的）10.283.430.680.659.804.550.57（+2%）0.53（+3%）10.314.710.59（+4%）0.55（+4%）表1：在单次运行设置下与其他经典VLN方法的比较，其中图像编码器和代理在训练期间无法访问看不见的环境（Val-Unseen和Test-Unseen）。Speaker-Follower[14]， Env- Dropout[37]和EARRN[50]方法与我们的SEA功能相结合，在Val-Unseen和Test-Unseen集上实现了显着的性能改进。3D拼图通过性实例分类初始精度5.1964.120.62最终准确率50.8389.8599.86表2：训练开始和结束时每个辅助任务的分类准确率（百分比）训练数据集，源代码和SEA预训练的功能，以促进VLN的未来研究。4.4. 分析图像编码器真的学会在辅助任务上表现良好吗？由于智能体的改进来自改进的视觉表示，这是来自三个建议的辅助任务的训练，我们首先验证，建议的辅助任务是可学习的，图像编码器确实学习执行任务。我们在训练开始时和训练结束时报告每个辅助任务的性能（准确率百分比）。请注意，保留验证集中的图像视图是从不同于训练环境的Val-Unseen环境结果示于表2中。图像编码器实际上学习在所有辅助任务上做得很好。不应在不同的辅助任务之间比较准确度数字，因为它们的难度不同，这既是因为“类别”的数量，也是因为固有的难度（例如，“知其难而退”[12]。辅助任务的训练编码了什么信息既然我们知道学习的图像编码器在辅助任务上表现良好，我们进一步分析特征中编码的信息。所以我们在预训练的图像编码器上进行消融研究。具体来说，我们首先用不同的辅助任务组合来训练图像编码器。然后，我们将一个轻量级头添加到图像编码器，并仅微调头（图像编码器冻结）到下游任务：（1）语义分割，（2）法线估计，（3）多标记对象分类，以及（4）场景分类。训练数据取自Taskonomy[47]数据集的子集语义分割和法线估计需要场景的结构信息，而多标记目标分类和场景分类需要目标和类别的区分信息。结果示于表3中。我们首先比较完整模型（#2）和ImageNet特征。完整模型在语义分割和正常估计方面表现明显更好，同时在多标签对象分类和场景分类方面保持稍好或可比较的性能这解释了为什么使用我们的SEA预训练特征训练的代理在目标VLN任务中表现得更好：我们的SEA预训练特征对场景的更多结构信息进行了编码，除了对象和场景的区分信息之外，这些信息对于执行导航任务至关重要。例如，代理经常根据以下指令做出决策：“看到左边的沙发就向右转”，这需要对场景结构的理解才能成功跟随。接下来，我们观察到实例分类（#5，7，8）是所有下游任务中最有效的辅助任务。即使3D拼图和可遍历性本身表现不好（#3，4），当与实例分类相结合时（#7，8与#5相比），它们对于编码场景的结构信息是有益的，因为它们在语义分割和正常估计中提供了实质性的增益此外，3D拼图还提供瓦尔桑瓦尔-乌塞恩测试-不可见方法TLNE#SR“SPL“TLNE编号SR“SPL“TLNE编号SR“SPL“1112ImageNet---29.400.58536.6371.48#2（全部）XXX40.270.52336.8669.88#3X30.32（-25%）0.557（+7%）27.07（-27%）61.42（-12%）#4X23.69（-41%）0.568（+8%）27.32（-26%）58.17（-17%）#5X35.76（-11%）0.545（+4%）33.72（-9%）69.64（-0%）#6XX34.12（-15%）0.546（+4%）29.2（-21%）63.67（-9%）#7XX37.46（-7%）0.533（+2%）34.21（-7%）70.12（0%）#8XX37.69（-6%）0.540（-3%）32.56（-12%）68.99（-1%）表3：分析哪些信息由哪些辅助任务编码。行#3 - #8处的括号中的数字表示相对于具有组合的所有辅助任务的完整模型（行#2）的相对差。#1（全部）XXX10.313.440.690.669.884.760.560.52#2X10.044.670.57（-12%）0.55（-11%）9.585.220.52（-4%）0.49（-3%）#3X10.155.890.47（-22%）0.44（-21%）9.525.930.47（-9%）0.43（-8%）#4X10.463.740.64（-5%）0.62（-4%）9.935.370.53（-3%）0.49（-3%）#5XX10.214.330.62（-7%）0.58（-7%）9.875.080.53（-3%）0.49（-3%）#6XX10.413.930.65（-4%）0.62（-4%）9.654.830.55（-1%）0.51（-1%）#7XX10.363.820.66（-3%）0.63（-3%）10.215.330.53（-3%）0.49（-3%）表4：智能体的导航性能与使用不同辅助任务集预训练的特征之间的相关性第2 - 7行括号中的数字表示相对于完整模型（第1行）的绝对差异多标签对象分类和场景分类的边际收益（#7与#5相比）。智能体的绩效与每个辅助任务之间有何关联？现在我们知道了哪种辅助任务有助于编码哪种信息，我们想评估这种编码的信息是否真的有利于智能体的最终导航性能。因此，我们使用Env-Drop试剂在单次运行设置下进行消融研究[37]。具体来说，我们首先用辅助任务的不同组合训练图像编码器，使用预先训练的图像编码器来生成预先计算的特征，并用预先计算的特征训练智能体。Val-Seen和Val-Unseen的结果见表4。当训练图像编码器时删除任何辅助任务时，代理的性能下降。与我们之前发现的类似例如，在实例分类之上，3D拼图帮助智能体在Val-Unseen上执行得更好（与#4相比，可通行性预测对Val-Unseen没有多大帮助，但对Val-Seen有好处（#7与#4相比）。这可以用导航图（可遍历性）来解释，条件瓦尔桑瓦尔-乌塞恩3D Jigsaw可遍历性预测实例分类TLNE编号SR“SPL“TLNE编号SR“SPL“条件下游任务3D拼图可穿越性预测实例分类语义分割（mAP）“正态估计（RMSE）# 对象分类（mAP）“场景分类（准确度）“1113提供环境布局的强先验知识[23]。因此，可通行性预测的辅助任务学习编码先验知识，以适应环境。5. 结论我们提出了结构编码辅助任务（SEA），以改善视觉表示，长期忽视VLN。三个辅助任务，3D拼图，遍历性预测和实例分类，提出和定制的预训练图像编码器上收集的数据在导航环境。3D拼图和实例分类有助于更好地编码场景的结构信息以及对象和场景的区分信息，而可遍历性预测有助于更好地编码结构信息并使视觉表示适应目标导航环境。VLN代理与我们的SEA预训练特征相结合（无需调整），在单次运行设置下， Speaker-Follower 的 SR 改进为 12% ， Env-Dropout为5%，而WARRN为4%。所提出的辅助任务和SEA预训练特征的贡献与其他VLN作品正交，我们将发布收集的数据集，源代码和预训练特征，以促进VLN视觉表示的进一步研究1114引用[1] Pulkit Agrawal、Joao Carreira和Jitendra Malik。学习通过移动来观察。在IEEE计算机视觉国际会议论文集，第37-45页[2] Unaiza Ahsan ， Rishi Madhok ， and Irfan Essa. Videojigsaw：用于视频动作识别的时空上下文的无监督学习。 2019 年 IEEE 计算机视觉应用冬季会议（WACV），第179-189页。IEEE，2019。[3] Ankesh Anand ， Evan Racah ， Sherjil Ozair ， YoeliBengio，Marc-Al e xandreC obangt e' 和 Hjelm 上的 RDev。atari中的无监督状态表示学习。神经信息处理系统的进展，第8769-8782页，2019年[4] PeterAnderson ， AngelChang ， DevendraSinghChaplot，Alexey Dosovitskiy，Saurabh Gupta，VladlenKoltun ， Jana Kosecka ， Jitendra Malik ， RoozbehMottaghi，Manolis Savva，et al.嵌入式导航代理的评价。arXiv预印本arXiv：1807.06757，2018。[5] Peter Anderson，Qi Wu，Damien Teney，Jake Bruce，MarkJohnson，NikoSünderhauf，IanReid，StephenGould，and Anton van den Hengel.视觉和语言导航：在真实环境中解释视觉基础的导航指令。在IEEE计算机视觉和模式识别会议论文集，第3674- 3683页[6] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.无监督学习视觉特征对比聚类分配。 Advances in NeuralInformation Processing Systems，33，2020。[7] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport3d：从室内环境中的rgb- d数据中学习。2017年3D视觉国际会议（3DV）[8] Devendra SinghChaplot ， RuslanSalakhutdinov ，Abhinav Gupta，and Saurabh Gupta.视觉导航的神经拓扑系统。在IEEE/CVF计算机视觉和模式识别会议论文集，第12875[9] Howard Chen ， Alane Suhr ， Dipendra Misra ， NoahSnavely，and Yoav Artzi.着陆：视觉街道环境中的自然语言导航和空间推理。在IEEE/CVF计算机视觉和模式识别会议的论文集中，第12538-12547页[10] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。arXiv预印本arXiv：2002.05709，2020。[11] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv：2003.04297，2020。[12] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在Proceedings of theIEEE international conference on computer vision，pages1422[13] Alexey Dosovitskiy和Vladlen Koltun。通过预测未来来学习行动。在2017年国际学习代表会议（ICLR）上[14] Daniel Fried 、 Ronghang Hu 、 Volkan Cirik 、 AnnaRohrbach 、 Jacob Andreas 、 Louis-Philippe Morency 、Taylor Berg- Kirkpatrick 、 Kate Saenko 、 Dan Klein 和Trevor Darrell。用于视觉和语言导航的说话者跟随者模型。神经信息处理系统的进展，第3314-3325页，2018年[15] 丹尼尔·戈登，阿布舍克·卡迪恩，德维·帕里克，朱迪·霍夫曼，和德鲁夫·巴特拉. Splitnet：Sim2sim和task2task 传输用于嵌入式视觉导航。法律程序中IEEE计算机视觉国际会议，第1022-1031页，2019年。[16] Je a n-BastienGrill ， FlorianStrub ， FlorentAltch e´ ，CorentinTallec，Pierre Richemond，Elena Buchatskaya，Carl Doersch ， Bernardo Avila Pires ， Zhaohan Guo ，Mohammad Ghesh- laghi Azar，et al.引导你自己的潜意识自我监督学习的新方法。神经信息处理系统的进展，33，2020。[17] Weituo Hao ， Chunyuan Li ， Xiuju

下载后可阅读完整内容，剩余1页未读，立即下载