视觉语言导航的自监督辅助推理任务

46 浏览量更新于2023-10-23 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10012具有自监督辅助推理任务的视觉语言导航朱凤达1朱毅2常晓军1梁晓丹3、41莫纳什大学2中国科学院大学3中山大学4暗物质人工智能公司zhufengda@yahoo.comzhu.outlook.comcxj273@gmail.comxdliang328@gmail.com摘要视觉语言导航（VLN）是智能体学习遵循自然语言指令进行导航的任务。这一任务的关键是依次感知传统的方法利用跨模态背景的视觉和语言特征.然而，VLN任务仍然是复杂的，因为以前的工作忽略了环境中包含的丰富语义信息（如隐式导航图或子轨迹语义）。在这篇文章中，我们介绍了辅助推理导航（Auxiliary Reasoning Navigation，简称ARRN），这是一个具有四个自监督辅助推理任务的框架，可以利用从语义信息中获得的额外训练信号。辅助任务有四个推理目标：解释先前的动作，估计导航进度，预测下一个方向，以及评估轨迹一致性。因此，这些额外的训练信号帮助智能体获得语义表示的知识，以便对其活动进行推理并建立对环境的全面我们的实验表明，辅助推理任务提高了主任务的性能和模型的泛化能力。从理论上讲，我们证明了用自我监督辅助推理任务训练的代理大大超过了以前的最先进的方法，是标准基准1上的最佳现有方法。1. 介绍人们对视觉语言导航（VLN）[5]任务越来越感兴趣，其中智能体在3D室内环境中遵循自然语言指令进行导航，例如在列之间行走并向右急转弯。走下台阶，停在楼梯平台上。代理1VLN排行榜：https://evalai.cloudcv.org/web/challenges/challenge-page/97/leaderboard/270图1.一个简单的演示代理学习导航辅助推理任务。绿色圆圈是起始位置，红色圆圈是目标。在导航图中，智能体可以到达四个节点辅助推理任务（黄色框中）帮助智能体推断其当前状态。从一个随机的点开始，通过积极的探索朝着一个目标前进。在每一步都给出了视觉图像，并在轨迹的开始处提供全局步进指令。特征提取的最新研究[14，4，24，31，46]，注意力[4，9，22]和多模态接地[6，21，36]帮助代理了解环境。视觉-语言导航的前期工作集中在提高感知视觉和语言输入的能力[13，10，42]和跨模态匹配[41，47]。通过这些方法，智能体能够感知视觉语言输入并编码用于导航的历史信息然而，VLN任务仍然具有挑战性，因为忽略了环境中包含的丰富语义信息：（1）过去的行为会影响未来的行为。要做出正确的动作，需要智能体对其过去的活动有透彻的了解。2)智能体无法将轨迹与➢ 我走进门，向前走去。➢ 我已经完成了50%➢ 轨迹和指令不匹配。➢ 我将右转30°% a（t）t1的t0导航节点导航边可行边10013指令。因此，视觉语言编码是否能够完全代表智能体的当前状态是不确定的. 3)代理无法准确评估其所取得的进展。尽管Ma等人。 [23]提出了一种进度监控器来估计到目标的归一化距离，但该方法中的标签存在偏差和噪声。4)代理的动作空间是隐含限制的，因为只有导航图中的相邻节点是可达的。因此，如果智能体获得导航地图的知识并理解其下一步行动的后果，则导航过程将更加准确和高效。我们引入辅助推理任务来解决这些问题。此解决方案有三个关键优势。首先，辅助任务产生额外的训练信号，这提高了训练中的数据效率，使模型更加鲁棒。其次，使用推理任务来确定动作，使动作更容易解释。解释代理人的政策比较容易如果我们理解了智能体采取特定行动的原因。一个可解释的机制有利于人类理解代理是如何工作的。第三，辅助任务已被证明有助于减少可见和不可见环境之间的域差距。已经证明[34，35]，自我监督的辅助任务有助于领域适应。此外，已经证明，在看不见的环境中微调代理可以有效地减少域间隙[41，37]。我们使用辅助任务来对齐的表示- tations在看不见的域旁边的那些在看到的域在微调。在本文中，我们介绍了辅助推理导航（AuxiliaryReasoningNav-igation，简称ARRN），一个框架，促进导航学习。该模型由四个辅助推理任务组成：1）轨迹复述任务，它使智能体通过自然语言生成来解释其先前的动作;2）进度估计任务，用于评估模型已经完成的轨迹的百分比;3）角度预测任务，用于预测智能体下一个转弯的角度。4)一个跨模态匹配任务，允许智能体对齐视觉和语言编码。与只考虑一次跨模态对齐的“代理任务”[21，36，33]不同这四项任务的知识学习可能是如图1、智能体学习推理先前的动作，并在辅助推理任务的帮助下预测未来我们的实验表明，在可见和不可见的环境中，该算法都显著提高了导航性能.每个辅助任务分别利用有用的推理知识来指示代理如何理解环境。我们采用路径长度（SPL）[3]作为评估我们模型的主要指标在所看到的环境中进行了预先培训，在验证集上，具有我们的辅助推理任务的任务比我们的基线[37]高出3.45%。我们的最终模型，在看不见的环境中进行了微调，辅助推理任务获得了65%，比之前的最先进的结果高出4%，从而成为VLN挑战赛在SPL方面的第一名2. 相关工作视觉-语言推理视觉和语言之间的桥梁正吸引着计算机视觉和自然语言处理社区的关注。已经提出了各种相关的任务，包括视觉提问（VQA）[1]，视觉对话框[38]，视觉语言导航（ VLN ） [5] 和视觉交际推理（VCR）[44]。视觉语言推理[29]在解决这些问题中起着重要作用。Anderson等人 [4]将注意力机制应用于检测结果以推理视觉实体。更近期的作品，如LXMERT[36]，ViLBERT [21]和B2T2 [2]，通过在具有视觉语言推理任务的大规模数据集自监督辅助任务在机器学习领域有着广泛的应用此外，从辅助任务中提高数据效率和鲁棒性[16，28，39，23]已经在强化学习中得到了广泛的研究。Mirowski等人 [25]提出了一种机器人，它通过恢复具有彩色图像输入的深度图像并预测它是否到达新的点来获得额外的训练信号。此外，自我监督辅助任务已广泛应用于计算机视觉[45，12，27]，自然语言处理[9，19]和Meta学习[40，20]。Gidaris等人。 [11]无监督地学习具有2D旋转辅助损失的图像特征，而Sun等人。 [35]表明自监督辅助任务在减少域偏移方面是有效的。视觉语言导航已经提出了许多模拟3D环境来研究导航，例如 Doom [17] ， AI 2-THOR [18] 和 House 3D[43]。怎么-然而，缺乏真实感和自然语言的指导限制了这些环境的应用。Anderson等人 [5]提出了房间到房间（R2R）数据集，这是第一个基于真实图像的视觉语言导航（VLN）基准[8]。视觉语言导航任务因其广泛的适用性和挑战性而受到广泛关注。早期的工作[42]结合了无模型[26]和基于模型[30]的强化学习来解决VLN。Fried等人提出了一个用于监督学习中的数据增强和推理的说话者跟随框架。此外，提出了“全景行动空间”的概念，后来的工作[41]10014t-1不辅助推理Feot−1LSTMvAttnFOeO收件人FC不6789： LSTMsFC向左转，穿过客厅。离开房间然后右转。Bi-LSTM收件人wWFFCFCP导航图SCFC收件人c选择一个候选人去。弹道是由指令的转向270°。完成了50%的轨道。离开床然后右转。i=1不不˜我我我不Ot，1t，36t−1f= fw。（三）0l0l推理结果损失LS#$%$rL;rgr$==L/-g0$L（%）*+i-gL12L32图2.一个关于BARRN的概述。智能体分别嵌入视觉和语言特征，并在视觉和语言特征之间进行协同注意。嵌入的特征被赋予推理模块，并由辅助损失监督。视觉语言注意产生的特征与候选特征相融合来预测动作。白色圆圈中的发现将模仿学习[7，15]和强化学习[26，32]结合起来是有益的。自我监测方法[23]被提出来估计实现目标的进展研究人员已经确定了训练数据和测试数据之间存在领域差距。提出了无监督预探索[41]和环境丢弃[37]来提高泛化能力。3. 方法3.1. 问题设置视觉和语言导航（VLN）任务给出全局自然句子I={w0，.， w l}作为指令，其中每个w i是令牌，而l是句子的长度。指导是一步一步地朝着目标前进。在步骤t，代理观察全景视图Ot={ot，i}36作为视觉输入。全景视图被划分为36个RGB图像视图，而每个ULE是我们管道的重要组成部分假设我们有一个特征向量序列，记为{f0，.， f n}进行融合，以及查询向量 q 。我们实现注意力层 f^= Attn（{f0，...，，q）为：αi=softmax（fi WAttn q）f^= α f。（一）WAttn表示注意力机制的全连接层αi是用于融合的第i个特征的权重视觉嵌入如上所述，全景对象表示由视觉和方位信息组成的36个特征然后，我们融合{0，1，. #36825;，与最后一步f^t-1的交叉模态矩阵xt，并引入一个LSTM为每个步骤维护视觉历史记录f^o=Attn（{o、...、 o }、f）这些视图包括图像特征Vi和方向fo=LSTMv（f^o，ht−1），t t描述（sin θt，i，cos θt，i，sin φt，i，cos φt，i）。为每个步骤中，智能体选择一个方向来导航全景动作空间中的所有可能性[10]。全景动作空间中的候选者由动作空间的k个导航图中的当前节点和停止动作。当前步骤的变量被定义为{Ct，1，.， c t，k+1}，其中c t，k+1代表停止动作。注意，对于每一步，邻居k的数量不是固定的。3.2. 视觉语言前瞻我们首先定义了在我们的流水线中广泛应用的注意力模块然后，我们阐述了视觉嵌入和视觉语言嵌入机制。最后，我们展示了动作预测的方法。注意力模块首先我们定义注意力模块-其中fo=ht是LSTMv的输出。请注意，与我们的流水线中的其他两个LSTM层（如图2所示）不同，它们是在一个步骤中计算的。LSTMv在整个轨迹上计算。视觉语言嵌入类似于[10，37]，我们将每个单词标记wi嵌入到单词特征fw，其中i代表索引。然后，我们通过Bi-LSTM层对特征序列进行编码，以产生语言特征和全局W语境f：{fw，.， f_w}=Bi-LSTMw（{f _w，.，f w}）Lw1Lii=1（二）10015不^不不不不0L不W0L不0L0LILttW全局语言上下文参与助动词任务学习在第二节中完成。三点四分。最后，我们融合语言特征{fw，.，与视觉历史对照，3.4. 辅助推理学习视觉语言导航任务仍然是艰巨的-ing，因为环境te xtfo，以产生交叉模态矩阵te xtf^t：f^=Attn（{f^w，.， fw}，fo）。（四）被忽视了。在本节中，我们将介绍辅助推理学习，以利用来自环境.动作预测在VLN设置中，相邻导航-节中 3.2，我们从方程3.2得到了vision_xt_f_o。二、ble节点可见。我们可以得到一个可达的，W全球语境不从等式3、十字架--didates C={c t，1，.，c t，k+1}。类似于观察O，C中的候选是视觉特征和方向描述的级联特征我们通过下式获得动作at的概率函数p t（a t）：f^c=Att nc（{ct，1，...，ct，k+1}，f^t）模态上下文f t，来自等式4.第一章除了行动预测外，的作用，我们给图中的推理模块的上下文2、执行辅助任务。我们讨论四个辅助宾语，使用上下文进行推理。轨迹复述任务轨迹推理对于智能体决定下一步做什么以前的工作列车不pt（at）=softma x（f^c）。（五）一个演讲者将轨迹转化为语言指令。这些方法不是端到端优化的，这限制了三种动作预测方法适用于不同的场景：1）模仿学习：跟随标记的教师动作a，而不管p t; 2）强化学习-表演如图2、采用教师强制的方法训练端到端的说话人。教师被定义为{f w，.，f w}，与Eq. 4.第一章我们ing：样本动作遵循概率分布0la tp t（a t）; 3）测试：选择具有最大概率a t=argmax（p t（a t））的候选项。3.3.导航目标在本节中，我们将介绍使用LSTM来编码这些单词嵌入。然后我们引入称为轨迹复述任务循环重建目标：{fw，.， fw}=LSTMs（{f w，.，fw}），f^s=Attn s（{f^o，.，fo}，fw），导航任务：模仿学习（IL）和强化-记忆学习（RL）。导航任务共同优化i0T i1Σ我（八）这两个目标。模仿学习迫使智能体模仿其老师的行为。”[10]这是一个很好的例子。L扬声器= −li=1 logp（wi|f^s）。在VLN任务中进行调试。我们的代理从教师动作中学习每一步的动作L=−alog（p），（6）不其中，a是指示教师选择的独热向量。由于单独采用IL可能导致过拟合，因此引入了强化学习进行泛化。我们实现A2C算法，A3C的并行版本[26]，我们的损失函数计算为：ΣLRL=−a t log（p t）A t.（七）我们的轨迹复述目标是联合优化，主要任务。它有助于代理获得更好的特征表示，因为代理知道动作的语义意义。此外，轨迹复述使智能体的活动可解释。由于模型在学生强迫中可能会偏离很多，因此我们没有在RL场景中训练轨迹复述任务。进度估计任务我们提出了一个进度估计任务来学习导航进度。早期的研究[23]使用归一化距离作为标签，并优化了预测模块的均方误差（MSE）损失。然而，我们使用步骤的百分比rt，标记为软标签{t，1-t}以表示进度：T T不不t是表示A3C中定义的优势的标量。L= − 1<$rlog σ（W f^）。（九）不不联合优化首先，模型采样轨迹通过教师强制方法计算梯度，进展R tt=1模仿学习其次，该模型采用学生强迫法对同一指令下的轨迹进行采样，并利用强化学习计算梯度。最后，我们将梯度添加到一起，并使用添加的梯度来更新模型。L10016其中Wr是全连通层的权重，σ是S形激活层。我们的消融研究表明，从BCE损失的步骤的百分比rt学习的方法归一化距离标签引入噪声，10017^不不这限制了性能。此外，我们还发现，二元交叉熵（BCE）损失比MSE损失更好地与我们的步骤百分比标签，因为从BCE损失学习的logits进度估计任务要求代理将当前视图与指令中的相应单词对齐。因此，它有利于视觉语言的接地。跨模态匹配任务我们提出了一个由LXMERT [36]激励的二进制分类任务，以预测轨迹是否与指令匹配我们洗牌WF从等式3与特征向量同批概率为0。五、混洗操作标记为图中白色圆圈中的“S”。2，混洗特征记为f′w。出席视觉语言功能ft.然后，我们用mt来监督预测结果，m t是一个二进制标签，指示特征是被打乱还是保持不变。L=−1<$mlogσ（W[f^，f′w]），（10）不不基于Matterport3D模拟器[8]。该数据集包括90个不同的居住环境，分为训练集、可见验证集、不可见验证集和测试集。训练集由61个环境和14，025条指令组成，而看到的验证集有1，020条指令，使用保存环境和训练集。看不见的验证集由另外11个环境组成，具有2，349条指令，而测试集由其余18个环境组成，具有4，173条指令。评估指标VLN中使用了大量的指标来评估模型，例如轨迹长度（TL），以米为单位的轨迹长度，导航误差（NE），以米为单位的导航误差， Oracle成功率（OR），如果智能体成功地停在最近点的比率，成功率（SR），到达目标的成功率，以及通过（归一化倒数）路径长度加权的成功率（SPL）[3]。在我们的实验中，我们考虑了所有这些因素，并将SPL作为主要的度量。实施细节我们引入自监督数据匹配M不t=1来扩充我们的数据集我们对扩增数据进行采样从培训和测试环境中，其中，Wm代表全连接层。该任务要求智能体对齐历史视觉语言特征，以区分整体轨迹是否与指令匹配。因此，它有助于代理人编码的历史视觉和语言特征。角度预测任务智能体在候选者中做出选择，以决定下一步将采取哪一步。与噪声视觉功能相结合，更干净因此，除了从候选分类中学习之外因此，我们提出了一个简单的回归任务来预测代理将转向的方向L=−1e−W f^，（11）不不在SEC训练。3.2生成自我监督指令。我们的培训过程包括三个步骤：1）我们在训练集上预训练我们的模型; 2）我们在步骤1中选择最佳模型（具有最高SPL的模型），并在从训练集[ 37 ]中采样的增强数据上微调模型; 3）我们在步骤2中在从用于预探索的测试环境中采样的增强数据上微调最佳模型，这类似于[41，37]。我们在步骤3中选择最后一个模型进行测试。每个步骤的训练迭代我们用辅助任务训练每个模型，并将所有辅助损失权重设置为1。在第2步和第3步，由于增强数据比标记的训练数据包含更多的噪声，我们将所有辅助任务的损失权重减少一半。4.2.测试集结果角度e tt=1在本节中，我们将我们的模型与以前的模型进行比较。其中at是模仿学习中教师动作的角度，而Wa代表全连接层。由于这一目标需要一个教师的角度进行监督，我们没有在RL中提出这一目标。最重要的是，我们以端到端的方式联合训练所有四个辅助推理任务：L总 =L扬声器+L进度+L角度+L匹配。（十二）4. 实验4.1. 设置数据集和环境我们在房间到房间（R2R）数据集上评估了所提出的BARRN方法[5]最先进的方法我们比较了建议的BURRN与两个基线和其他五种方法。对以前型号的简要1)随机：随机采取5步行动。2)Seq-to-Seq：文献[ 5 ]中报道的序列到序列模型。3)三思而后行：一种结合无模型和基于模型的强化学习的方法。4)演讲者-追随者：一种方法引入了数据增强方法和全景动作空间。（5）自我监督：一种通过自我监控代理进行规则化的方法。6)后悔的代理人：基于可学习的启发式搜索的方法7）FAST：基于搜索的方法使得能够回溯8）增强的交叉模态：一种具有跨模态注意并将模仿学习与强化学习相结合的方法。9)ALTR：一种专注于适应视觉和语言表征的方法10）环境辍学：一种利用环境信息增强数据的方法，10018排行榜（测试看不见）单个运行预探索波束搜索模型NE或SrSPLNE或SrSPLTLSrSPL随机[5]9.790.180.170.12-------Seq-to-Seq [5]20.40.270.200.18-------[42]第四十二话7.50.320.250.23-------[第10话]6.620.440.350.28----12570.540.01自我监控[23]5.670.590.480.35----3730.610.02[48]第四十八话5.690.480.560.40----13.690.480.40快速[49]5.14-0.540.41----196.530.610.03[41]第四十一话6.120.500.430.384.210.670.610.593580.630.02ALTR [51]5.49-0.480.45-------[37]第三十七话5.230.590.510.473.970.700.640.616870.690.01Ours（Ours）5.150.620.550.513.690.750.680.65410.710.21表1.排行榜结果比较了在看不见的环境中进行测试拆分的CRTRN与以前最先进的技术。我们比较三种训练设置：单次运行（没有看到看不见的环境），预探索（在看不见的环境中进行微调）和波束搜索（比较成功率，无论TL和SPL如何）。单次运行和预探索的主要指标是SPL，而波束搜索的主要指标是成功率（SR）。由于排行榜的精度限制，我们只报告两位小数瓦尔·西恩Val Unseen模型NE（m）OR（%）SR（%）SPL（%）NE（m）OR（%）SR（%）SPL（%）基线4.5165.6258.5755.875.7753.4746.4042.89基线+L扬声器4.1369.0560.9257.715.6457.0549.3445.24基线+L进展4.3568.2760.4357.155.8056.7548.5744.74基线+L匹配4.7065.3356.5153.555.7455.8547.9844.10基线+L角4.2570.0360.6357.685.8755.0047.9443.77基线+LT总计4.2272.2862.8858.895.6359.6050.6245.67基线+BT [37]4.0470.1363.9661.375.3956.6250.2846.84基线+BT+LT总计3.3377.7770.2367.175.2862.3254.8350.29表2. Ablation study for different auxiliary reasoning tasks.我们在两个验证分割上评估我们的模型：对可见和不可见环境的验证。四个指标进行了比较，包括NE，OR，SR和SPL。精神辍学此外，我们在三种不同的训练设置上评估我们的模型：1）单次运行：没有看到看不见的环境，2）预探索：用自我监督的方法在看不见的环境中微调模型。3)光束搜索：预测成功率最高的轨迹。如Tab.所示1，在所有三个设置上，ARMRN都以较大的幅度优于以前的模型在单次运行中，我们实现了3%的Oracle成功率提高，4%的成功率提高和4%的SPL提高。在Pre-explore设置中，我们的模型将误差大大降低到 3.69 ，这表明 BARRN 进一步向目标导航BARRN显著提高了Oracle成功率5%，成功率4%，SPL达到4%。在其他两个领域上，辅助推理任务也取得了类似的改进，这表明辅助推理任务不受领域间隙的影响.我们还在Beam Search设置中实现了最先进的技术。我们使用Beam Search算法的最终模型实现了71%的成功率，比之前的最先进技术Encumental Dropout高出2%。4.3. 消融实验辅助推理任务比较在本节中，我们比较了不同辅助推理任务之间的性能。声音任务。我们使用以前的最新技术[37]作为基线。我们根据基线用每个任务训练模型。我们在可见和不可见的验证集上评估我们的模型，结果显示在Tab中。二、事实证明，每项任务都独立地基于我们的基线来促进同时训练所有任务能够进一步提高性能，在可见验证集上提高3.02%，在不可见验证集上提高2.78%。这表明辅助推理任务可能是相互的。此外，我们的实验表明，我们的辅助损失和反向平移的方法有一个相互促进的效果。在所见的验证集上，具有反向翻译的基线获得5.50%的改善，而组合反向翻译将SPL提高了11.30%，大于具有辅助损失的基线和独立地具有反向翻译的基线的性能改善之和。在看不见的验证集上也观察到了类似的结果基线与反向翻译得到3.95%的提升，而结合反向翻译提高SPL7.40%。轨迹复述任务的消融我们评估了四种不同的轨迹复述任务的实现。所有方法都使用视觉上下文的轨迹来预测单词标记。1)教师强制：标准轨迹10019不321321表3.轨迹复述任务的消融研究。比较了OR、SR、SPL和Acc（句子预测准确率）四个指标模型OR（%）SR（%）误差SPL（%）瓦尔·西恩基线65.6258.57-55.87[23]第二十三话66.0157.10.7253.43逐步+MSE（我们的）64.1553.970.2750.81逐步+BCE（我们的）68.2760.430.1357.15Val Unseen基线53.4746.40-42.89进度监视器57.0946.570.8042.21逐步+MSE（我们的）55.9046.740.3243.16逐步+BCE（我们的）56.7548.570.1644.74表4.进度估计任务的消融研究。比较了OR、SR、SPL和误差（标准化绝对误差）四种方法的优劣.复述方法如第二节所述。三点四分。2)教师强迫（分享）：教师强迫的一种变体，它使用了f语言。参加视觉功能。3)匹配评论家：将说话人损失的相对数量作为激励代理人的奖励。4)学生强迫：Seq-to-Seq方法将视觉上下文翻译成单词标记，而不需要地面真值句子输入。除了OR、SR和SPL之外，我们还添加一个新的度量标准，命名为句子预测准确度（Acc）。该度量计算预测正确单词的精度模型。轨迹复述任务的消融研究结果如表所示。3 .第三章。第一，教师强迫的比例分别比匹配批评[41]高1.8%和4.22%.在准确率方面，教师强迫比匹配批评高出7.07%和6.76%。其次，在两个验证集上，教师强迫在SPL方面分别比学生强迫高出1.46%和2.04%。实验结果还表明，教师强迫的句子预测效果优于学生强迫.第三，在SPL方面，标准的教师强迫比教师强迫与共享的背景下，在看不见的验证集0.77%。此外，我们注意到，教师强迫与共享上下文比标准教师强迫约12%的词预测准确率（Acc）。我们推断，教师强迫与共享的上下文过拟合的轨迹复述任务。进度估计任务为了使进度估计任务有效，除了我们的标准进度估计器之外，我们还调查了两个变体。1)进度监控：我们执行-图3.基线模型和最终模型的语言注意力图。x轴代表单词的位置，y轴代表导航时间步长。由于每个轨迹都有可变的单词数量和步骤数量，我们在对所有地图求和之前将每个注意力地图归一化为相同的大小。[23]基于我们的基线方法。2）我们使用均方误差（MSE）而不是具有相同逐步标签t的BCE损失来训练模型。我们用OR、SR、Error和SPL四个度量对这些模型进行了误差由进度估计预测和标签之间的平均绝对误差计算结果显示为Tab。4.第一章我们的标准模型在大多数指标上都优于其他两个变体和基线我们的逐步MSE模型在可见验证集上的表现比Progress Monitor [23]高2.62%此外，我们发现我们实现的进度监视器的性能甚至比基线更差。当智能体开始偏离标记的路径时，进度标签变得更加嘈杂。我们比较了不同的损失函数与逐步的标签。我们的BCE损失模型在可见验证集上高出6.34%，在不可见验证集上高出此外，MSE损失训练的模型的预测误差高于BCE损失训练的模型与逐步+BCE模型相比，逐步+MSE模型在可见验证集上的误差高0.14，在不可见验证集上的误差高0.164.4. 可视化正则化语言注意力我们在Bi-LSTMw之后可视化Attnw的注意力图。地图中的暗区代表语言特征受到高度关注的地方我们观察图。图4示出两个地图上的注意区域在导航步长增加时向左移动（标记为1）。这意味着两个模型都学会了越来越多地关注后面的单词。在最后几步，我们的模型学习关注第一个特征和最后一个特征（标记为2和3），因为Bi-LSTM在第一个和最后一个特征处编码句子信息。我们从实验中推断，辅助推理的损失有助于规范语言注意力地图，这是有益的。导航可视化我们可视化两个样本trajec-模型OR（%）SR（%）累积（%）SPL（%）瓦尔·西恩基线65.6258.57-55.87[41]第四十一话63.7655.7319.5852.77学生强迫[5]65.7257.5925.3754.95教师强迫（分享）66.9060.3334.8557.23教师强迫（我们的）65.6259.5526.3456.99Val Unseen基线53.4746.40-42.89匹配批评者55.2646.7418.8843.44学生强迫54.9247.4225.0443.78教师强迫（分享）56.4148.1938.4944.47教师强迫57.0549.3425.9545.2410020图4.测试中两个轨迹的可视化过程。两个复杂的语言指令显示在顶部框中。每幅图像都是全景图，这是CNORN的视觉输入每个红色箭头代表下一步的方向对于每个步骤，结果进度估计器和匹配函数如左图所示。显示导航的过程为了进一步说明ARMRN如何理解环境，我们展示了进度估计器和匹配函数的结果。估计的进度在导航期间继续增长，而匹配结果呈指数级增长。当BARRN达到目标时，进度和匹配结果几乎跳到1。事实证明，我们的代理精确地估计当前进度和指令轨迹的一致性。5. 结论在本文中，我们提出了一个新的框架，辅助推理导航（MAGRN），促进导航学习与四个辅助推理任务。我们的经验-事实证明，ARMRN提高了性能的VLN任务的定量和定性。我们计划建立一个通用的框架，辅助推理任务，利用常识信息在未来。确认这项工作得到了国家自然科学基金（NSFC）的部分资助（资助号：U19 A2073）和国家自然科学基金（NSFC）的部分资助（资助号：61976233），以及空军研究实验室和DARPA的资助（协议号：FA 8750 -19-2-0501），澳大利亚研究委员会发现早期职业研究者奖（DE 190100626）。10021引用[1] 艾西瓦亚·阿格拉瓦尔，陆佳森，斯坦尼斯瓦夫·安托尔，马·米切尔，C.劳伦斯·齐特尼克，德鲁夫·巴特拉，和德维·帕里克。Vqa：可视化问答。arXiv预印本arXiv：1505.00468，2015年。2[2] Chris Alberti ， Jeffrey Ling ， Michael Collins 和David Reitter。融合文本中检测到的对象以用于视觉问答。在2019年自然语言处理经验方法会议上，2019。2[3] 彼得 · 安德森天使 X Chang ， Devendra SinghChaplot ， Alexey Dosovitskiy ， Saurabh Gupta ，Vladlen Koltun，Jana Kosecka，Jitendra Malik，Roophih Mot- taghi ， Manolis Savva ， and AmirRoshan Zamir.嵌入式导航代理的评价。arXiv预印本arXiv：1807.06757，2018。二、五[4] Peter Anderson ， Xiaodong He ， Chris Buehler ，Damien Teney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像标题和视觉问题回答。在2018年IEEE/CVF计算机视觉和模式识别上，第6077-6086页一、二[5] Peter Anderson ， Qi Wu ， Damien Teney ， JakeBruce ， Mark Johnson ， Niko Sunderhauf ， IanReid，Stephen Gould，and Anton van den Hengel.视觉和语言导航：在真实环境中解释基于视觉的导航指令。2018年IEEE/CVF计算机视觉和模式识别会议，第3674-3683页，2018年。一、二、五、六、七[6] Stanislaw Antol，Aishwarya Agrawal，Jiasen Lu，Mar-Martt Mitchell，Dhruv Batra，C.劳伦斯·齐特尼克和德维·帕里克Vqa：可视化问答。在2015年IEEE国际计算机视觉会议（ICCV），第2425-2433页1[7] 作者： Mariusz Bojarski ， Davide Del Testa ，Daniel Dworakowski ， Bernhard Firner ， BeatFlepp ， Pra- soon Goyal ， Lawrence D. Jackel ，Mathew Monfort，Urs Muller，Jiakai Zhang，XinZhang，Jake Zhao，and Karol Zieba.自动驾驶汽车的端到端学习arXiv预印本arXiv：1604.07316，2016。3[8] Angel Chang，Angela Dai，Thomas Funkhouser，Ma- ciej Halber ， Matthias Niebner ， ManolisSavva ， Shuran Song ， Andy Zeng ， and YindaZhang.Matterport3d：室内环境中rgb-d数据的学习。在2017年3D视觉国际会议（3DV），第667-676页，2017年。二、五[9] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：用于语言理解的深度双向转换器的预训练arXiv预印本arXiv：1810.04805，2018。一、二10022[10] Daniel Fried、Ronghang Hu、Volkan Cirik、AnnaRohrbach、Jacob Andreas、Louis-Philippe Mod、Taylor Berg-Kirkpatrick、Kate Saenko、Dan Klein和Trevor Darrell。用于视觉和语言导航的说话者跟随者模型。NIPS 2018：第32届神经信息处理系统年会，第3314-3325页，2018年。一二三四六[11] SpyrosGidaris，PraveerSingh和NikosKomodakis。通过预测图像旋转进行无监督表示学习。在ICLR 2018：2018年学习表征国际会议上，2018年。2[12] 顾久香，赵汉东，林哲，李胜，蔡剑飞，凌明阳.利用外部知识和图像重建生成场景图。在IEEE计算机视觉和模式识别会议论文集，第1969-1978页2[13] Saurabh Gupta、Varun Tolani、James Davidson、Sergey Levine 、 Rahul Sukthankar 和 JitendraMalik。视觉导航的认知绘图与规划arXiv预印本arXiv：1702.03920，2017。1[14] Kaiming He ， Xiangyu Zhang ， Shaoying Ren ，and Jian Sun.用于图像识别的深度残差学习。arXiv预印本arXiv：1512.03385，2015。1[15] Jonathan Ho和Stefano Ermon。生成对抗模仿学习。arXiv预印本arXiv：1606.03476，2016。3[16] Max Jaderberg 、 Volodymyr Mnih 、 WojciechMarian Czarnecki、Tom Schaul、Joel Z Leibo、David Silver和Koray Kavukcuoglu。无监督辅助任务的强化学习在 ICLR 2017 ： InternationalConference on Learning Representations 2017 ，2017中。2[17] Michael Kempka 、 Marek Wydmuch 、 GrzegorzRunc 、 Jakub Toczek 和 Wojciech Jas 'kowski 。Vizdoom：一个基于Doom的人工智能研究平台，用于视觉再学习。 arXiv 预印本 arXiv ：1605.02097，2016。2[18] Eric Kolve、Roozbeh Mottaghi、Daniel Gordon、Yuke Zhu、Abhinav Gupta和Ali Farhadi。 ai 2-thor：一个交互式的3d环境。arXiv预印本arXiv：1712.05474，2017。2[19] 兰振中，陈明达，塞巴斯蒂安·古德曼，凯文·金佩尔，皮尤什·夏尔马，拉杜·索里-卡特. 阿尔伯特：一个自我监督学习的小伯特-语言表征。arXiv预印本arXiv：1909.11942，2019。2[20] Shikun Liu，Andrew Davison，and Edward Johns.使用Meta辅助学习的自我监督泛化。在NeurIPS2019中：第三十三届神经信息处理系统会议，2019年。210023[21] Jiasen Lu，Dhruv Batra，Devi Parikh，and StefanLee. Vilbert：视觉和语言任务的任务不可知的语言表征预训练。NeurIPS 2019：第三十三届神经信息处理系统，2019年。一、二[22] Jias

下载后可阅读完整内容，剩余1页未读，立即下载