视觉语言导航中的回溯自校正

98 浏览量更新于2023-10-19 收藏 1.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6741战术回放：视觉语言导航中的回溯自校正李一鸣柯1李秀君李1，2Yonatan Bisk1阿里霍尔茨曼1哲甘2刘晶晶2高建锋2崔业进1，3悉达多斯里尼瓦萨11保罗G.华盛顿大学艾伦计算机科学工程学院2微软人工智能研究院3{kayke，xiujun，ybisk，ahai，yejin，siddh}@ cs.washington.edu{xiul，zhgan，jingjl，jfgao}@ microsoft.com摘要我们提出了具有 backTracking- ing （ F AST ）Navigator的Frontier Aware Search，这是一个用于动作解码的通用框架，它在Anderson等人的房间到房间（R2 R）视觉和语言导航挑战上取得了最先进的结果。等人（2018）。给定一个自然语言指令和以前看不见的环境的照片般逼真的图像视图，代理的任务是尽快从源位置导航到目标位置虽然所有当前的方法都使用波束搜索来做出局部动作决策或重要的是，这让我们可以在必要时使用全局信号进行回溯将FAST框架应用于现有最先进的模型实现了17%的相对增益，按路径长度（SPL）加权的成功率绝对增益为6%。11. 介绍当阅读指令时（例如，“走出浴室，走右边第二个门，经过沙发，停在楼梯口。”），一个人建立了一个如何到达一个特定位置的心理地图。该地图可以包括地标，例如第二扇门，以及标记，例如到达楼梯的顶部。训练一个具体的代理来完成这样一个任务，只访问以自我为中心的视觉和单独监督的动作，需要从有限的数据中构建丰富的多模态表示[2]。当前大多数视觉和语言导航（VLN）方法将任务制定为使用seq 2seq（或编码器-解码器）框架[21]，其中语言和视觉被编码为输入，最佳动作序列是*在MSR实习时完成的部分工作1代码可在https://github.com/Kelym/FAST上获得。(a) SoTA波束搜索（b） FAST NAVIGATOR图1.波束搜索和FAST轨迹图的自上而下视图。蓝色的星星是起点，红色的星星是终点。解码为输出。一些后续的架构也使用这种框架;然而，他们在注意力机制、全局评分和波束搜索方面取得了重要进展，从而增强了这种能力[2，13，10]。seq2seq公式的固有问题是暴露偏差问题[19]：一个经过训练的模型在给定地面实况序列的情况下预测未来的一步，在给定其自我生成的序列的情况下无法准确执行。先前使用seq2seq模型的工作试图使用学生强制和波束搜索来解决这个问题。学生强迫在训练过程中将模型暴露于其自身生成的然而，一旦代理偏离了正确的路径，原来的指令不再适用。补充材料（§A.1）表明，学生强迫不能解决暴露偏差问题，导致困惑的代理人陷入循环。6742不不在另一个极端，波束搜索收集多个全局轨迹以进行评分，并产生与轨迹数量成比例的成本，其可能非常高。这种方法与构建可以有效导航环境的智能体的目标背道而驰：没有人可能会部署一个在执行每个命令之前重新导航整个房子100次的家用机器人，即使它最终到达正确的位置。VLN排行榜3上的顶级性能系统都需要广泛的勘探，产生长轨迹，导致SPL性能较差（成功率由路径长度加权[1]）。为了减轻曝光偏差和费用问题，针对波束搜索译码效率低、效率低的问题，提出了一种带反向跟踪的前级 A 波译码器（ FASTNAVIGA-TOR）。该框架允许代理基于局部和全局信息比较不同长度的部分路径，然后在发现错误时进行回溯。图1显示了当前发布的最先进（SoTA）代理使用波束搜索与我们自己创建的轨迹图。我们的方法是一种异步搜索的形式，它结合了全局和局部知识，以评分和com-cumbered不同长度的部分轨迹。我们通过模拟我们先前的动作与给定的文本指令的紧密程度来评估我们的目标进度。为了实现这一点，我们使用了融合函数，它将局部动作知识和历史转换为进度的估计分数该分数决定了要采取的本地操作以及代理是否应该回溯。相对于现有模型，这种见解我们工作的主要贡献是：• 一种减轻动作解码曝光偏差和波束搜索开销的方法。• 一种利用异步搜索和神经解码的算法• 一个可扩展的框架，可以应用于现有的移动到K个视图之一，而不是R2R[2，23]。此外，该公式包括停止动作，以指示代理已达到其目标。贪婪FAST束搜索图2.所有VLN探员正在进行搜查。橙色区域突出显示了不同导航方法的边界。2.1. 学习信号视觉导航进展的关键是所有VLN接入点都执行搜索（图2）。目前的工作有两个极端：仅使用本地信息，例如，贪婪解码或同时完全扫描多个路径，例如，波束搜索为了构建一个能够成功和有效地导航环境的代理，我们利用本地和全局信息，让代理做出本地决策，同时保持对其全局进展的了解，并在代理发现错误时有效地回溯受以前工作的启发[10，13]，我们的工作使用三个学习信号：LOGITlt：局部分布超过作用。在时间t选择的动作的logit表示为lt。具体来说，原始语言指令是通过LSTM编码的。另一个LSTM充当解码器，使用注意力机制来生成动作的logits。在解码的每个时间步长t，通过取解码器的隐藏状态和每个候选动作ai的点积来计算logit模型，以实现显着增益SPL。pmt2. 方法VLN的挑战需要一个代理进行自然语言教学中的照片逼真的环境。智能体接受输入指令X，其中包含描述期望轨迹的几个句子在每个步骤t，智能体观察其周围环境Vt。因为智能体可以360度环顾四周，所以Vt实际上是K=36个不同视图的集合。我们将每个视图表示为Vk。使用这种多模态输入，智能体被训练来执行动作序列 a1 ，a2，....， aT∈ A到达所需位置。与最近的工作一致[13，10]，我们使用一个全景动作空间，每个动作对应2这是根据R2 R数据集上的SPEAKER-FOLLOWER3https://evalai.cloudcv.org/web/challenges/challenge-page/97/leaderboard/270PMpt：全球进展监测。它记录了已经完成了 [13 ]第10段。形式上，The模型将（解码器）LSTM的当前单元状态c t、先前的隐藏状态h t −1、视觉输入V t和对语言嵌入的注意力α t作为输入得分PPM。分数范围在[-1，1]之间，表示特工的正常进度训练这个指标可以使注意力对齐规则化，帮助模型学习语言到视觉的对应关系，它可以用来组合多个轨迹。SPEAKERS：全局得分。给定一系列视觉观察和动作，我们训练一个seq2seq字幕模型作为这样做有两个好处：（1）新的说话者可以用合成指令自动注释环境中的新轨迹，以及（2）说话者可以对给定轨迹将对应于原始指令的可能性进行评分。6743不不i=1(a) 指令和视觉观察被编码为隐藏向量，定义了穿过世界的多条路径。然后，这些向量可以被累加，以对动作序列进行评分。(b) 在每个时间步，预测的动作序列和视觉观察与编码指令一起被馈送到注意力模块，以产生下一个动作的logit和进度监视器分数。图3.（一）.如何在seq 2seq VLN框架中从部分轨迹中提取三个信号;（b）.如何计算这三个信号2.2. 框架我们现在引入一个可扩展的框架4，它整合了前面的三个信号（lt，ppm，S）5，并训练新的指标，使代理能够回答：1. 我们要原路返回吗？2. 我们应该回溯到哪里？3. 哪个访问节点最有可能成为目标？4. 什么时候结束搜索？这些问题涉及导航任务中的所有现有方法特别地，贪婪方法从不回溯并且不比较部分轨迹。全局波束搜索技术总是回溯，但会浪费精力。通过采取一种更有原则的方法来建模导航图遍历，我们的框架允许细微差别和自适应的答案，这些问题。对于导航，图形由环境中的一系列位置（称为节点）定义。对于每个任务，智能体被放置在起始节点处，并且智能体<节点u，动作a>pairs。我们将到达时间t的部分轨迹表示为τt，或者表示访问的物理位置和在每个点采取的行动的集合目的地智能体通过选择延长部分轨迹在环境中移动：它通过移动到部分轨迹的最后一个节点并执行其最后一个动作以到达新节点来实现这一点。然后，代理实现在新节点处可用的动作，并收集它们以构建一组新的部分轨迹。在每个时间步，智能体必须（1）访问它尚未扩展的部分轨迹集，（2）访问可能构成候选路径的完整轨迹，(3) 计算部分轨迹的累积成本和其建议动作的期望增益，以及（4）比较所有部分轨迹。为此，我们维护两个优先级队列：用于部分轨迹的边界队列QF，以及用于完成轨迹的全局候选队列QC。这些队列分别按局部L和全局G得分L对所有部分轨迹的质量及其建议的动作进行评分，并在QF中保持其顺序;G对完成的轨迹的质量进行评分，并在QC中保持其顺序。在§4.3中，我们探索了L和G的替代公式。例如，我们使用图1中描述的信号定义L和G。§2.1和函数f，其被实现为神经网络-工作L←0→tli（2）τt={（ui，ai）}t（一）G ←f（S，ppm，m）0→t 我我，... ）（3）对于任何部分轨迹，最后一个动作被提出和评估，但不被执行。相反，模型选择是扩展部分轨迹还是执行停止动作以完成轨迹。重要的是，这意味着代理访问的每个节点都可以作为可能的最终节点。图3（a）显示了在seq2seq框架中整合三个信号的示例。图3（b）显示了如何计算这三个信号。为了让智能体能够有效地导航并遵循指令，我们使用了D* 搜索的近似值。FAST扩展其最优部分轨迹，直到它决定回溯（Q1）。它通过对所有部分轨迹进行排序来决定在哪里回溯（Q2）。提出最终目标位置（Q3 Q4），代理在候选队列QC中对完成的全局轨迹进行排名。我们将在下面更详细地探讨这些问题。6744(a) 局部L和全局G得分都可以训练成以任意信息为条件。在这里，我们展示了将历史logits和进度监视器信息融合到单个分数中。(b) 扩展队列维护所有部分轨迹的所有可能的下一步动作。选项按其分数排序（图4（a）），以选择下一个操作。图4.可以从部分轨迹中计算任意信号，以学习评分函数（左），该评分函数对扩展队列（右）中所有可能的动作进行排名。这为最佳动作解码提供了一个灵活且可扩展的框架。Q1：我们应该回溯吗？当一个智能体失误或迷路时，回溯让它移动到一个更有前途的部分轨迹;然而，回溯步骤增加了最终路径的长度为了确定什么时候值得付出这种代价，我们提出了两个简单的策略：探索和利用。1. 探索总是回溯到最有希望的部分轨迹。这种方法类似于波束搜索，但是，不是简单地移动到波束中的下一个部分轨迹，而是代理计算最有希望的节点以回溯到（Q2）。2. 相反，Exploit则提交到当前的部分事务，jectory，始终执行代理当前位置可用的最佳操作。这种方法类似于贪婪解码，除了代理在混淆时（即，当最佳局部动作导致代理重新访问一个节点，创建一个循环;参见补充材料§ A.1中的SMNA示例）。Q2：我们应该回溯到哪里？做出该决定涉及使用L对所有部分轨迹进行评分。直观地说，部分轨迹与给定描述对齐得越好，L值就越高。因此，如果我们可以假设L的准确性，那么智能体在回溯时只需返回到得分最高的节点在本文中，我们探讨了计算L的几个函数，但我们在这里提出了两种简单的技术，每一种都作用于序列包含一个轨迹的行为：动作与目标描述的一致程度（该信息在标准化期间丢失6最后，在探索过程中，代理隐式地构建了一个“心理地图”的访问空间。这使得它通过拒绝重新访问节点来更有效地搜索，除非它们导致高价值的未探索路径。Q3：哪个访问过的节点最有可能成为目标？与现有方法不同，FAST将代理访问过的每个点都视为最终目的地的候选点，这意味着我们必须对所有候选点重新排序。我们使用G来实现这一点，G是一个可训练的神经网络函数，它包含每个候选人的所有全局信息，并相应地对它们进行排名。图4（a）显示了一个简单的可视化。我们试验了几种计算G的方法，例如，通过将L、进度监控器、扬声器分数和（§4.3）中的可训练合奏进行整合。Q4：我们何时终止搜索？FAST的灵活性允许它恢复贪婪解码和波束搜索框架。此外，我们定义了两个替代停止标准：1. 当一个部分轨迹决定终止时。2. 当我们扩展M个节点时。在§3中，我们消除了选择不同M的影响。2.3. 算法Σ1. 对数和0→t logpi 对以下各项的对数概率求和我们提出了我们的FAST框架的算法流程。当代理被初始化并放置在起始节点上每一次行动，从而计算概率，部分反射器y的性质。候选队列和边界队列都是空的。代理2. 逻辑和0→tli对未归一化的逻辑进行[6]当代理人丢失时，这一点尤其成问题。正火的先前动作，这性能优于求和概率这些值是使用对隐藏状态、观察和语言的注意力机制来计算的通过这种方式，它们的大小捕捉到了许多低值logit可以产生相对高的概率（例如，单形式或随机）。我们还在§4中试验了这种方法的变体（例如，用均值代替求和）。7可以有多个轨迹将起始节点连接到每个访问节点。6745算法1FASTNAVIGATOR一曰：程序FASTNAVIGATOR2：Q排序=L，Q排序=G={}，{}3. 实验我们使用房间到房间F C（R2R）数据集[2]。在任务开始时，代理3：QF←（u0，a0=无）初始提案接收自然语言指令和特定的开始4：τ←5：M←思维导图6：当QF/=0时，停止准则做7：如果需要回溯或τ==0，则8：τ←QF.pop9：如果结束在环境中的位置;代理必须尽可能快地导航到指令中指定的目标位置。R2R基于Matterport3D数据集[5]构建，该数据集由>194K图像组成，产生10，800个全景视图（“节点”）和7，189个每条路径都与十：ut−1，at−1<$τ.last三种自然语言指令11：如果（u<$t−1，a<$t−1）∈M，则12：ut←M（ut−1，at−1）13：其他14：ut←移动到ut−1并执行t−115：M（ut−1，at−1）←ut16：如果结束17：对于一个k在最好的K下一个动作做18：QF←QF<${τ<$+（ut，ak）}19：结束20：QC←QCτ3.1. 评价标准我们根据R2R数据集中的以下指标评估我们的方法TL轨迹长度测量导航轨迹的平均长度NE导航误差是智能体的最终位置和目标位置之间的最短路径距离（以米为单位）的平均值SR成功率是座席最终损失的百分比-二十一：τ←τ+（ut，a）其中a是最佳动作距离球门不到3米的阳离子22：结束时23：returnQ.pop24：结束程序然后将所有可能的下一个动作添加到前沿队列，并将其当前位置添加到候选队列：位置.通过路径长度[1]权衡SR与TL的SPL成功。分数越高表示导航效率越高。3.2. 基线我们将我们的结果与四个已公布的基线进行比较，Q← Q+{τ（ u， a）}（4）这个任务。8F F i∈K0 0iQC←QC+τ0（5）既然QF不是空的，并且不满足停止准则，FAST可以在局部评分函数下从前沿队列中选择最佳部分轨迹：τ←arg maxL（QF）（6）τi在τ之后，我们执行最后的行动建议，at，移动到一个新的节点（房子中的位置）。FAST现在可以用这个位置更新候选队列，用所有可能的新操作更新前层队列。然后，我们要么继续，通过利用新位置上的可用操作，要么回溯，这取决于回溯标准的选择。我们重复这个过程，直到模型选择停止并返回最佳候选轨迹。• RANDOM：随机选择方向的智能体并朝这个方向前进了五步[2]。• SEQ 2SEQ：R2R数据集论文中表现最好的模型[2]。• SPEAKER-FOLLOWER [10]：一种在全景动作空间上使用说话者模型的数据增强训练的代理。• SMNA [13]：一个用视觉-文本共基础模块和全景动作空间上的进度监视器训练的智能体。93.3. 我们的模型由于我们的框架提供了灵活的设计空间，我们报告了两个版本的性能：• FAST（简称）使用exploit策略。我们使用logits融合方法的总和来计算L和终止时，最好的局部行动是停止。τ←arg maxG（QC）（7）τ算法1更精确地概述了我们方法的整个过程。§4.3详细介绍了计算部分轨迹和完整轨迹的不同方法。8.排行榜上的一些基线在提交时尚未公开;因此，我们不能直接在训练集和验证集上与它们进行比较。9我们的SMNA实现与已发布的验证号相匹配。我们所有的实验都是基于完全重新实现的。6746束验证看不见的验证看不见的模型TLNESrSPLTLNESrSPLTLNESrSPLRANDOM9.589.450.16-9.779.230.16-9.939.770.130.12Seq2seq11.336.010.39-8.397.810.22-8.137.850.200.18我们的基线SMNA11.693.310.690.6312.615.480.470.41----SMNA-SPEAKER-FOLLOWER-+ FAST（短）- --21.17 4.97 0.560.4318.04 5.67 0.4814.826.62 0.35 0.2822.085.14 0.540.41SMNA-3.230.70--5.040.57-373.094.480.610.02SPEAKER-FOLLOWER-3.880.63--5.240.50-1,257.304.870.530.01+ FAST（长）188.063.130.700.04224.424.030.630.02196.534.290.610.03人类--------11.851.610.860.76表1.我们的结果和SMNA重新实现以灰色突出显示的行显示。粗体表示每个部分的最佳值，蓝色表示整体最佳值。我们包括我们的方法的短版本和长版本，以比较现有的模型贪婪和波束搜索方法。• FAST（long）使用explore策略。我们再次使用logits的和进行融合，在固定数目的节点之后终止搜索，并使用训练好的神经网络重新排序器来选择目标状态G。3.4. 结果表1将我们的模型的性能与已公布的现有模型的性能进行了比较。我们的方法在效率方面明显优于现有模型，尽管少走了150 - 1，000步，但仍达到了最佳的整体成功率。这种效率的提高可以在SPL指标中看到，我们的模型在每个设置中都优于以前的方法。请注意，我们的短轨迹模型在SR和SPL方面都明显优于当前的方法。如果我们的代理可以继续探索，它将在一半的步骤中匹配现有的峰值成功率（196 vs 373）。确认不可见SR（%）SPL（%）TLSPEAKER-FOLLOWER37 28 15.32+ FAST43（+6）29（+1）20.63SMNA 47 41+ FAST56（+9）43（+2）21.17表2.通过添加FAST到目前的SoTA模型。我们的技术的另一个关键优势是它是多么简单表2显示了logits和融合方法如何增强两个先前表现最好的模型。简单地将其贪婪解码器更改为FAST，无需添加全局信息，因此无需重新排序，即可立即获得6分和9分的成功图5.圆的大小表示在步骤N上有多少百分比的代理人分开。大多数分歧发生在早期步骤。FAST从早期的发散中恢复。S PEAKER-FOLLOWER和SMNA的速率。由于这些模型然而，成功率增加了很多，SPL也增加了。4. 分析在这里，我们隔离本地和全球知识的影响，回溯的重要性，以及各种停止标准。此外，我们还包括三个定性直观的举例说明模型我们可以执行这种分析，因为我们的方法可以访问与以前的架构相同的信息，但它更有效。我们的主张和结果是一般性的，我们的FAST方法应该是-适应未来的VLN架构。贪婪67474.1. 纠正你的错误为了研究模型从回溯中受益的程度，图5绘制了模型在每一步第一次失误后成功完成任务的可能性。我们使用SMNA作为我们的贪婪基线。我们的分析发现，以前的SoTA模型在40%的时间里在第一个动作时就犯了错误。图5显示了此错误的影响：贪婪的方法，如果在第一步就犯了错误，有<30%的机会成功地完成任务。相反，因为FAST检测到它的错误，它会返回到起始位置并再次尝试。这个简单的一步回溯将成功的可能性提高了10%以上。事实上，贪婪方法只有在指令执行到一半时没有出错，才同样成功。4.2. 知道何时停止探索停止标准平衡了勘探和开发。与以前的方法不同，我们的框架允许我们比较不同的标准，并提供了灵活性，以确定哪一个是最佳的给定域。最好的帮助-图6.SR随着在平台化之前探测的节点的数量而增加，而SPL（其对长度极其敏感）随着增加的探测而持续减小。Heur/step组合SR SPL镜头logit是说53.8944.7414.80测井探头是说53.8544.1415.57logit测井探头总和总和56.6656.2343.6442.6621.1721.70VLN的一个可行的停止标准不一定是最好的logit平均值/pm53.0044.5113.67梗概.我们研究了要扩展测井探头平均值/pm53.7244.6413.85在终止算法之前，我们绘制结果logit平均值 *pm54.7844.7015.91成功率和SPL见图6。一个重要的发现是测井探头平均值 *pm55.0443.7017.45该模型logit夏季 * 下午50.9541.2820.25节点扩展，不匹配oracle为测井探头夏季 * 下午56.1543.1921.55代理扩展40个节点，它已经访问了真正的目标节点超过90%的时间，但不能识别它作为最终目的地。这促使我们分析我们的全球信息的效用以及它是否真正具有预测性（表4），我们将在第4.3节中进一步研究。4.3. 本地和全球评分如§2.3所述，我们的方法的核心是两个队列，用于扩展的前沿队列和用于扩展的候选队列。提出最终候选人。每个队列可以使用任意信息来对（部分）轨迹进行评分。我们现在比较组合不同的信号集对每个队列进行评分的效果局部评分的融合方法轨迹一个理想的模型在对边界扩展队列中的部分轨迹进行评分时将包括尽可能多的全局信息。因此，我们研究了几种伪全局信息的来源和十种不同的方法来组合它们。前四种方法只使用局部信息，而其他方法则试图融合局部和全局信息。表3的上半部分显示了仅考虑本地信息提供者时的性能例如，表的第三行示出了将沿着部分轨迹的节点的logit分数求和作为该部分轨迹的L表3.不同融合方法对部分轨迹评分的性能。在验证未见过集上进行测试。轨迹的SR得分为56.66。请注意，尽管所有信息都源自相同的隐藏向量，但计算的值以及它们的聚合方式会显著影响性能。总的来说，我们发现，考虑到其出色的SR，求和未归一化logits（第3行）的性能最好。这表明网络输出中的重要激活信息被归一化丢弃，因此被其他技术丢弃。表3的下半部分探讨了将当地和全球信息提供者结合起来的方法。这些是由先前工作中的波束再评分技术（例如，乘以标准化的进度监视器分数）。正确地整合信号是具有挑战性的，部分原因是规模上的差异。例如，logit是无界的（+/-），log概率在负数时是无界的，并且进度监视器被归一化为0和1.不幸的是，直接集成进度监视器并没有产生有希望的结果，但未来的信号可能会更强大。完整轨迹排序的融合方法。以前的工作[10]使用状态因子波束搜索，6748不生成M个候选项，并使用说话者和跟随者得分的概率ar gma xr∈R （ d ） PS （d）对完整的轨迹进行排序|r）λ<$PF（d|r）（1−λ）。除了有扬声器和进度监视器分数使用以前的模式，els，我们还尝试使用L来计算G。为了检验不同融合方法的性能，我们运行FASTNAVIGATOR来扩展前层上的40个节点并收集候选轨迹。表4显示了对完整轨迹进行排序的不同融合分数的性能。我们看到，大多数技术对全局任务的目标和表述的理解有限然而，当所有信号结合起来时，我们确实发现了对看不见的投射物的显着改进。为此，我们训练一个多层感知器来聚合和加权我们的预测器。请注意，对基础模型的任何改进或未来工作引入的新特性将直接与管道的此组件中的增益相关。表4的第一行显示了Oracle的性能。这表明目前的全球信息提供者还有多远的路缩小这一差距是今后工作的一个重要方向。火车谷看到谷看不见甲骨文99.13 92.85 90.20阿尔布费拉78.78 62.49 56.49微升i85.78 66.99 54.41普雷普91.25 68.56 56.15微pi91.60 69.34 58.75下午66.71 53.67 50.1553.77 43.68全部90.1671.00 64.03表4.成功率使用七个不同的融合分数作为G，从候选池中重新排序目的节点。4.4. 直觉行为补充材料（§A.1）提供了三个真实的例子来展示我们的模型在比较时的表现贪婪解码（SMNA模型）。它强调了相同的观察如何在代理的推出过程中导致截然不同的具体而言，在图A1和A2中，贪婪解码器被迫进入行为循环，因为仅考虑局部改进。使用FAST清楚地表明，即使是一个单一的回溯步骤也可以使智能体摆脱糟糕的行为选择。5. 相关工作我们的工作重点是补充[2]介绍的视觉和语言导航（VLN）的最新进展，但任务和核心技术的许多方面可以追溯到更早的时候。自然语言是--社区已经探索了使用2D地图[17，14]和计算机渲染的3D环境[16]的教学。由于现实世界场景的巨大视觉复杂性，VLN文献通常建立在计算机视觉工作的基础上，包括引用表达式[15，24]，视觉问答[3]和以自我为中心的QA，需要导航来回答问题[11，8，9]。最后，我们工作的核心是搜索算法领域，可以追溯到人工智能的早期[18，20]，但在最近的VLN文献中基本上没有，这些文献倾向于更多地关注神经架构设计。在发布房间到房间数据集（VLN）期间，[2]介绍了seq2seq模型的“学生强迫”方法。后来的工作集成了一个规划模块，将基于模型和无模型的强化学习结合起来，以更好地推广到看不见的环境[23]，以及一种跨模态匹配方法，通过强化学习在本地和全局上强制跨模态接地[22]。两个实质性的改进来自于全景动作空间和一个经过训练的“说话者”模型以实现波束搜索的数据增强和轨迹重新排序[10]。最近，[13]利用视觉-文本共同接地注意力机制来更好地对齐指令和视觉场景，并结合进度监视器来估计代理这些方法需要波束搜索峰值SR。在探索未知环境时，束搜索技术不幸地会导致长射束。这种局限性激发了我们在这里提出的工作。现有的方法权衡了高成功率和长轨迹：贪婪解码提供了短的、经常是不正确的路径，波束搜索产生高的成功率但是长的轨迹。6. 结论我们提出了FAST NAVIGATOR，一个框架，使用异步搜索，以提高任何VLN导航器启用显式回溯时，代理检测到它是否丢失。这个框架可以很容易地插入到最先进的代理，立即提高他们的效率。此外，在Room-to-Room数据集上的实证结果表明，我们的代理实现了最先进的成功率和SPL。我们基于搜索的方法很容易扩展到更具挑战性的设置，例如，当一个智能体被赋予一个目标，而没有任何路线指令[6，12]，或一个复杂的真实视觉环境[7]。致谢DARPA1703166）、国家卫生研究所（R01EB019335）、国家科学基金会CPS（1544797）、国家科学基金会NRI（1637748）、海军研究办公室、RCTA、亚马逊和本田。p6749引用[1] P. Anderson，A. 张氏D. S. Chaplot，A. 多索维茨基S. 古普塔河谷Koltun，J.Kosecka，J.马利克河，巴西-地莫塔吉，M. Savva和A.扎米尔论具身导航代理的评价。arXiv预印本arXiv：1807.06757，2018。二、五[2] P. Anderson，Q. Wu，D. 作者：J. 约翰逊先生，N. 松德豪夫岛Reid，S. Gould，和A. 在母鸡身上。视觉和语言导航：在真实环境中解释视觉导航指令。在IEEE计算机视觉和模式识别会议（CVPR）论文集，第2卷，2018年。一、二、五、八[3] S. 安托尔，A. 阿格拉瓦尔J. Lu，M. 米切尔D.巴特拉C. Lawrence Zitnick和D.帕里克Vqa：可视化问答。在IEEE国际计算机视觉会议（CVPR）的会议记录中，第2425- 2433页，2015年。8[4] C. Burges，T.摇晃，E。Renshaw，A. Lazier，M. 行动，N. Hamilton和G.胡伦德学习使用梯度下降法排序。第22届国际机器学习会议论文集，第89-96页。ACM，2005年。10[5] A. Chang，A.戴氏T. Funkhouser M. Halber，M.尼斯纳M. Savva ， S. Song ，中国黑杨 A. Zeng 和 Y. 张某Matterport3d：室内环境中rgb-d数据的学习。国际3D视觉会议（3DV），2017年。5[6] D. S. Chaplot，K. M.萨蒂延德拉河K. Pasumarthi，D.Ra- jagopal和R.萨拉赫季诺夫面向任务的语言基础的门控注意第32届AAAI人工智能会议（AAAI），2018年。8[7] H. Chen，中国山核桃A.Shur，D.Misra，N.Snavely和Y.阿齐着陆：视觉街道环境中的自然语言导航与空间推理。在计算机视觉和模式识别会议（CVPR），2019年。8[8] A.达斯，S。达塔湾Gkioxari，S. Lee，D. Parikh和D.巴-特拉。具体化的问题回答。在IEEE计算机视觉和模式识别会议，第5卷，第6页，2018年。8[9] H. de Vries ， K. Shuster ， D. Batra ， D. Parikh ， J.Weston，andD.基拉走路说话：通过接地气的对话导航纽约市。arXiv预印本arXiv：1807.03367，2018。8[10] D. 弗里德河Hu，V.Cirik，A.Rohrbach，J.安德烈亚斯湖P. Morency，T. Berg-Kirkpatrick，K. Saenko，D. Klein和T.达雷尔。用于视觉和语言导航的说话者跟随者模型。在神经信息处理系统（NeurIPS），2018年。一、二、五、七、八[11] D. Gordon，A. Kembhavi，M. Rastegari，J. Redmon，D.Fox和A.法哈迪。IQA：交互环境中的可视化问答。在计算机视觉和模式识别（CVPR），第1卷，2018年。8[12]K. M. Hermann，F. Hill，S.格林角王河，巴西-地福克纳H. Soyer，D.塞佩斯瓦里湾M.恰尔内茨基湾贾德伯格D. Tejanashin等人在模拟的三维世界中学习语言。arXiv预印本arXiv：1706.06551，2017. 8[13] C.- Y. Ma，J. Lu，Z. Wu，G. AlRegib，Z.基拉河Socher和C。雄自监控导航代理通过aux-辅助进度估计。在国际会议上学习表示（ICLR），2019年。一、二、五、八、十一[14] H.梅，M。Bansal和M. R. Walter.听、听、走：导航指令到动作序列的神经映射。在AAAI，第1卷，第2页，2016年。8[15]P. Mirowski，R. Pascanu，F. Viola，H. Soyer，A. 巴拉德A. 巴尼诺湾德尼尔河戈罗申湖Sifre，K.Kavukcuoglu，D. Kumaran和R.哈德塞尔学习在复杂环境中导航。国际学习表征会议，2017年。8[16] D. Misra 、 A. Bennett ， V. Blukis ， E. Niklasson ， M.Shatkhin和Y.阿齐在具有视觉目标预测的3d环境中将指令映射到动作2018年自然语言处理经验方法会议论文集，2018年。8[17] D. Misra，J. Langford，and Y.阿齐通过强化学习将指令和视觉观察映射到动作。2017年自然语言处理经验方法会议，2017年。8[18] J. 珍珠启发式：解决计算机问题的智能搜索策略1984. 8[19] M.兰扎托，S. Chopra，M. Auli和W.扎伦巴用递归神经网络进行序列级训练 . 2016 年国际学习表征会议（ICLR）。1[20] S. J. Russell和P.诺维格人工智能：现代的方法。马来西亚;培生教育有限公司，，2016年。8[21] I. Sutskever，O.Vinyals和Q.诉乐用神经网络进行序列到在神经信息处理系统（NIPS）中，第31041[22] X.王，英-地Huang，黄背天蛾A. Celikyilmaz，J. Gao，L.沈，Y.- F. Wang，W. Y. Wang和L.张某增强的跨模态匹配和自监督模仿学习，用于视觉语言导航。在计算机视觉和模式识别会议，2019年。8[23] X. Wang，W. Xiong，H. Wang和W. Y.王.三思而后行：桥接无模型和基于模型的再学习，以实现预先规划的视觉和语言导航。在欧洲计算机视觉会议（ECCV），2018。二、八[24] Y.朱河，巴西-地Mottaghi、E. J. J. Kolve Lim，台湾野牡丹A.古普塔湖Fei-Fei和A.法哈迪。使用深度强化学习的室内场景中的目标驱动视觉导航。在IEEE机器人与自动化国际会议（ICRA）中，第3357-3364页。IEEE，2017年。8

下载后可阅读完整内容，剩余1页未读，立即下载