连续环境中的语言引导视觉导航

54 浏览量更新于2023-10-15 收藏 1.81MB PDF 举报

视觉导航

路径规划

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15162连续环境Jacob Krantz1*Aaron Gokaslan2，3 Dhruv Batra2，4Stefan Lee1Oleksandr Maksymets21俄勒冈州立大学2Facebook人工智能研究3康奈尔大学4佐治亚理工项目网页：https://jacobkrantz.github.io/waypoint-vlnce摘要很少有调查明确地解决了行动空间在语言引导的视觉导航中的作用-无论是在其对导航成功的影响方面，还是在机器人代理可以执行所产生的轨迹的效率方面。基于最近发布的VLN-CE [24]在连续环境中进行指令跟踪的设置，我们开发了一类语言条件化的路点预测网络来研究这个问题。我们改变了这些模型的表达性，以探索低水平的行动和连续的航点预测之间的频谱。我们测量任务的性能和估计的执行时间上配置文件LoCoBot [1]机器人。我们发现更有表现力的模型会导致更简单，更快地执行轨迹，但较低级别的行动可以通过更好地近似最短路径来此外，我们的模型在VLN-CE中的表现优于之前的工作，并在公共排行榜上创下了新的最先进水平1. 介绍指令引导视觉导航研究的长期目标是为机器人代理开发AI，使其能够在新环境中可靠地遵循自然语言导航指令描述的路径。该领域中的许多现有工作是机器人不可知的，并且集中在高度抽象的模拟器上，其中代理通过在代理然后确定性地过渡到的附近位置的小的固定集合之间进行选择来导航[4，15，22，25] -视觉和语言导航（VLN）[4]任务代表了这类问题设置。在模拟到真实的实验中，Anderson et al.[3]证明了传输的主要性能瓶颈*在Facebook AI Research实习期间完成的工作。电子邮件：krantzja@oregonstate.edu图1.我们的方法将连续环境中的导航指令分解为语言条件下的路点预测和低级别导航。VLN代理人在高级模拟器中训练到真实的机器人系统，产生适当的附近位置（或航路点）集供选择;然而，这是不可行的研究航路点预测在离散的，高度抽象的模拟器作为代理只能占据预定义的位置。最近，Krantz et al.[24]引入了在连续模拟环境中实例化的VLN变体（表示为VLN-CE），使得代理可以移动到任意位置。与VLN中高度抽象的动作空间相反，[24]中的智能体通过执行一系列低级动作来导航，例如向前移动0.25米或以15度增量转弯。这种端到端、指令到低级控制的设计选择在模拟和潜在的模拟到真实的机器人平台转移培训期间，这些政策要共同学习15163∼导航和语言基础在长序列的行动（55每集）。因此，[24]示出了镜像成功的VLN代理的模型在VLN-CE中表现得相当差。在真实的机器人上，由该动作空间引起的频繁停止、启动和转向执行起来可能很慢（需要频繁改变速度和调用规划器），导致状态估计错误和硬件应变[23，19]。此外，执行深度策略网络以预测每个时间步长处的动作可以对机器人电源提出额外的需求。这项工作探讨了这两个极端之间的行动空间的频谱在一端，我们的代理商可以自由地预测相对航点作为一些最大范围内的连续点。另一方面，动作空间被简化为在从一个小的、有限的角度集合中选择的方向上迈出固定的一步-在这两者之间，我们尝试混合离散和连续的组件参数化的航点预测。要做到这一点，我们开发了一个基于注意力的航点预测网络的指令如下。给定导航指令和当前位置处的全景RGBD观察，我们的代理预测极坐标中的相对航点上的分布（由航向角θ和距离r组成）。然后执行低级连续导航器以沿直线朝向航路点移动，将关于障碍物回避的我们在VLN-CE数据集上使用大规模强化学习[37]将我们的代理训练为无模型控制策略我们使用VLN-CE的标准度量以及LoCoBot [1]机器人上产生的轨迹的估计执行时间来评估我们的代理我们发现，更具表现力的航点预测网络导致更简单的路径，更快地执行;然而，更多的约束动作空间可以通过更接近地近似最短路径来实现更好的性能。与低级别转向/前进模型相比，我们的航路点模型与连续低级别导航器配对，当与离散的低级别导航器配对以匹配VLN-CE捐款. 我们将我们的贡献总结为：– 为VLN-CE任务开发一类语言条件下的航路点预测网络，– 提供路径点预测表达性对导航成功的影响的经验分析– 证明了我们的模型与低级别导航仪的配对在VLN-CE测试中创造了新的最先进水平1eval.ai/web/challenges/challenge-page/719绝对4%的成功率。我们在https://github.com/jacobkrantz/VLN-CE上提供开源代码和预训练模型。2. 相关工作指导导航。许多作品都对指令引导导航进行了研究。任务描述在多个轴上有所不同，包括指令源（模板化[22]，自然语言[4]），指令语言（单语，多语言[25]），环境设置（室内，室外[15，22]），环境现实主义（合成模拟[28]，现实模拟[4]，现实世界[8，3]），导航启示（稀疏导航图[4]，连续空间[24，8]）和智能体（地面，四轴飞行器[6]）。一个流行的任务是视觉和语言导航（VLN）[4]。VLN具有自然语言指令，并使用来自Matter-port 3D数据集的室内照片级逼真环境[10]。基于地面的代理作用于稀疏导航图。在这项工作中，我们考虑了最近发布的连续环境中的视觉和语言导航（VLN-CE）[24]，这是一项将VLN提升到连续3D环境的任务我们探索的路点模型，利用更抽象的行动空间VLN-CE。分层视觉导航。基于航点的模型可以被认为是一种类型的分层代理，这已被提出用于与视觉导航相关的许多任务。除了直观的问题分解之外，这些通常是出于开拓可用现有方法解决的自包含子任务的愿望[5]，强化学习（RL）算法面临的环境挑战（例如，信用分配和长期范围内的探索）[12，38]，或引入可解释的表示[16]。然而，这些作品解决了不以语言为条件的具体导航任务。与我们的工作更相关的是那些直接预测航路点的方法[5，13，14]。Chaplot等人[13]使用拓扑代理来解决图像目标导航任务，该拓扑代理更新具有候选“幽灵节点”的图我们的基于航路点的模型的不同之处在于，我们结合了航路点预测和选择的步骤和条件都与任务目标。Chen等人[14]采用与我们的视听导航方法类似的方法-以音频目标为条件预测航路点（例如茶壶吹口哨）同时构建度量地图。我们的方法预测路径点直接从语言指令没有度量地图。已经开发了几个层次模型的指令引导导航任务。对于室外环境，Misra等人[28]将任务分解为目标预测和行动生成。虽然在（几乎）完全可观察的环境中有效，但是该方法不能明显地转移到具有部分可观察性的新环境同样，Blukiset al. [7]开发一个预测15164V ∈P ∈D ∈并且更新在去往目标的途中的位置访问分布这种方法利用了在室外环境中操作的空中车辆的假设，即与室内地面代理相比几乎完全可观察性以及由空中自由空间提供的罕见障碍物碰撞。最近在VLN中的sim2real传输工作已经考虑添加一个软件工具，该软件工具通过预测候选航点来模拟该机制不以指令为条件，并且仅使用本地视觉/激光雷达观测。在拓扑模拟器中训练的VLN代理然后可以通过调用现实世界中的经典导航堆栈在该图上导航。然而，这些模型被发现比给定已知导航图时表现得更差，这而不是一个两阶段的过程中，我们提出了一个替代方案-培训指导追随者。许多指令引导的导航作品通过模仿学习来学习策略[4，18，6，36，34，24，26]。行为克隆可能导致暴露偏倚。像学生强迫和数据集聚合这样的方法减少了这一点，但需要可查询的专家策略并阻止探索[4，32]。一些作品用模仿学习和强化学习（RL）的组合来训练智能体[8，25]。在这项工作中，我们纯粹从RL学习语言动机的路点预测。3. 任务描述我们认为，在以前看不见的环境中的指令引导的视觉导航的情节任务。代理必须导航由自然语言指令指定的路径并在目标位置停止。智能体具有以自我为中心的RGBD感知。环境是连续的，要求代理在3D空间自由导航，并与障碍物和遮挡作斗争。VLN-CE任务。我们在连续环境中的视觉和语言导航（VLN-CE）任务的背景下设置我们的工作[24]。VLN-CE基于原始VLN任务中使用的房间到房间数据集[4]。VLN使代理在具有来自Matterport3D数据集的场景的预定义视点图上导航[10]。 VLN- CE用完整的Matterport 3D场景重建取代了视点拓扑我们在VLN-CE中进行实验，因为它使我们能够研究预测任意相对航点的代理。我们采用VLN-CE的任务设置，具体扩展如下所述观察空间。代理观察RGB和深度图像。对于这两种模式，我们将 VLN-CE 的 90◦HFOV 扩展到全景360◦HFOV。每幅全景图被捕获为12帧，以30◦为增量，其中每帧具有90◦的HFOV，分辨率为256 x256.全景视觉在相关的视觉导航任务中是常见的，如VLN和PointGoal导航[18，13]，并且全景传感器可以用于实际应用中。行动空间。基于航路点的代理可以独立于用于到达预测航路点的低级动作空间操作。我们实验两个动作空间，在离散时间内运行具体来说，我们用连续空间动作训练和评估我们的智能体，这些动作指定实值转弯角度和直线距离。这样的动作可以通过零转弯半径机器人来完成，例如Locobot [20]。像VLN-CE一样，我们假设完美的致动以保持结果的可比性。我们还使用VLN-CE的离散动作空间来评估我们的指定速度或加速度的动作超出了本工作的范围，但与基于航路点的代理兼容[5]。4. 方法我们描述了我们的实现的基于航路点的指令遵循代理。航点预测网络（WPN）直接从像素和自然语言预测导航航点或停止航路点以相对极坐标传递给较低级别的导航器。我们采用了一个简单的两步导航仪，转向航路点的方向，然后向前移动预测的距离。该导航器不直接进行语言处理，而是将两个代理组件之间的任务4.1. 航路点预测网络我们的网络概述如图所示。二、在每个时间步，我们的代理通过全景RGBD传感器观察世界，该全景RGBD 传感器由以规则的角度间隔（ θ= 0 ， 15 ，30，...，θ = 0）捕获的12个RGBD观察表示。330）。我们的智能体通过选择这些离散观测之一作为粗略航向θ（D），然后预测f集合的f集合θ（的角度和距离r（使得航路点由极坐标（r（，θ（D+θ（offse t））指定）来预测相对坐标中的下一个导航航路点。我们的基础上跨模态的注意力网络的Krantz等我们的模型架构。[24]，使单模态视觉编码器适应全景，在全景帧上增加注意力，以及开发用于航路点预测的动作生成层。视觉编码。我们的网络分别对RGB和深度观察进行编码。每个RGB帧都使用在ImageNet上预训练的ResNet-18 [21]进行编码，共同产生特征不R12×i×j，用于包含平坦空间维度j的i个特征图通道的12个帧。类似地，每个深度帧都使用在PointGoal导航任务上预先训练的ResNet-50进行编码[37]，共同产生特征tR12× k × l。我们提供静态姿态特征R12×2，由相机角度的正弦和余弦组成这些特征消除了关系的歧义。15165−不VDOO不t−1我不不不不t−1t−1ˆˆˆ不不t−1图2.我们开发了一个航点预测网络（WPN），直接从自然语言指令和全景视觉预测相对航点我们的WPN使用两个级别的跨模态注意力和预测细化，以使视觉观察与动作保持一致。帧之间的倾斜角度，并且通常由VLN全景代理用于对先前的动作进行编码[18]。代理在时间t的视觉观察与在时间t的视觉观察之间的差异T1对于基于航路点导航比对于较低级别的动作空间，当通过门口预测到航路点时。我们通过包含以下内容的子集来显式地提供此视觉上下文来自前一时间步的视觉特征具体地说，递归指令特性S：S=Attn.S，h（v是）Σ。（三）然后，这些关注指令特征用于对每个RGB和深度帧i执行空间关注：V（i）=Attn.V¯（i），SΣD（i）=Attn.D¯（i），SΣ（4）我们包括面向最近的全景帧的特征示于图2、空间属性所得最后一个航路点预测的航向（i）t−1 和（i）t−1要素与姿势要素P，导致其中i=联系我们t−1. 这些特征是跨指令调节和标题感知RGBD特征它们的空间维度，产生视觉上下文向量C¯=[V¯（i），D¯（i）]，其中[·]表示连接。指令编码。我们使用与Krantz等人相同的指令编码。[24]第10段。自然语言教学对于每个全景帧：Σ ΣIt= .（五）Vt，Dt， Pinst.是一个轻度标记化的单词序列，每一个时间步。我们在地图上。到GloVE [31]嵌入 w1 ，w2，…对于长度为N个字的指令然后，双向LSTM产生隐藏状态S={s1，s2，… sN}=BiLST M（w1，w2，… wN）。（一）上一个操作编码。我们的网络将前一个时间步中预测的路点作为向量进行观测再次使用已参加教学功能参加在最终递归块之前的全景帧（图2中的Pano AttnX=Attn.It，SΣ（6）h（a）=G R U.ΣX，S，h（v是. ），at−1Σ，h（a）Σ.（七）诉讼条款。我们使用最终递归状态h（a）at−1=[rt−1，sin（θD），cos（θDt−1），θ（offset]。t−1和帧特定特征相对极坐标我们的航路点预测开始视觉历史。我们使用专门的经常性网络，像Krantz等人一样追踪视觉历史[24]，包括RGB特征15166不不不S 不S不不t−1Vt、先前动作at-1和ad-1的输入。作为从12个帧上的分布采样的粗略航向预测和STOP动作：的Pano的logit是h（a）和I之间的点积：其他视觉环境C¯。我们的意思是-在tt上共用Vt空间和帧尺寸，从而得到矢量V¯t。我们然后将可视历史编码为Pano=softmax.ΣIh（a），Wh（a）+bΣΣ。（八）h（v是）=G R U。ΣV¯，C¯，aΣ，h（vis. ）Σ。（二）对于Pano中的每个帧标题i，我们预测分布。在航向偏移细化和距离上的分布，如图所二、节中5.2我们来探讨一下跨模态注意力。我们使用缩放的点积atten-我们的网络中所有注意力机制的注意力（Attn）[35]。视觉历史模块h（v）的输出为：）出席航路点动作空间的大小影响性能。为了支持这些实验，我们的偏移量和距离分布是连续的、离散的或恒定的。公司现采用国际t−115167−∼一−0的情况。25米--不不不不奖励功能。我们的奖励函数由截断高斯分布[9]用于固定范围连续预测，并通过预测基础高斯的均值和方差来参数化它：偏移（i）=tanh。WoI（i）、h（a）+bo和（9）Pano-偏移标题空间。总之，这产生了我们的总损失函数：L总=L标准+crL偏移。（十四）Dist（i）=sigmoid。WdΣI（i），h（a）Σ+bdΣ（10）其中，Offset（i）的范围是[15◦，15◦]，Dist（i）的范围是[0。25米，4. 0m]。对于离散分布，我们将tanh和sigmoid激活函数替换为Wanget al[36]时间惩罚（或松弛奖励）来自Savva等人。[27]第10段。我们包括a成功奖励r成功，到目标距离的变化∆dist到目标和松弛奖励r松弛：r（s，t）=r成功-Δ目标距离+r松弛，（15）偏移域{−15◦，−10◦，，...， 15◦}和{0. 25m，0. 75米，... 二、75米}。为哪里r成功= 2。5一旦在内部调用了停止操作常数预测，偏移量为0◦，距离为0。25m，对应于标准VLN-CE动作空间的前向步长。我们对fsetOffset（θD）的f setθ的航向和距离r进行采样以所选粗略航向θ（D ）为条件的距离（ θ（ D ））。这产生极坐标航路点预测（f se t的r，θD+θ）。我们设想一组可能的航路点Tab中的操作空间。1.一、4.2. 训练航点预测网络VLN-CE任务的现有工作通过模仿学习训练代理[24]。受嵌入式导航的最新进展的启发，我们转而使用分散式分布式邻近策略优化（DDPPO）来训练我们的路点预测网络[37]。DDPPO是具有行动者-批评者策略结构的邻近策略优化（PPO）算法的缩放版本[33]。我们考虑在[37]中用于PointGoal导航的损失函数。它采用经裁剪的PPO目标L动作、经裁剪的评论家损失L值和熵奖励LS来鼓励探索：L标准= L作用+cv L值− ceLS。（十一）设θ-参数化策略π θ为航路点预测网络。对于L作用，我们计算一个作用的概率π θ（At）t=（θ（D，θ（offset ，r（）），对于全景帧选择θ（D ，fsetθ（offse t，r（）），f setθ（of f se t的航向θ（），以及距离r（）as：Pano （θD ） Offset （ θD ）（ fse t 的 θ ） Dist（θD）（r）。因此，我们将熵项L_S定义为：LS=cp S （ Pano ） +co S （ Offset ） +cd S（Dist）（13）以控制特定动作组件内的探索量。对于L值，我们预测状态值估计从最后的隐藏状态h（a）作为v=linear（h（a））。目标位置的3m（否则等于0）和∆disttotarget=D（s t）D（s t−1）是以测地距离表示的朝向目标的进度。如[27]所定义的松弛奖励是恒定的，并且在每个时间步长处应用最大化该奖励项的航路点预测器将预测朝向目标的最远可导航航路点这对于指令跟随是不期望的，其中代理需要根据部分可观测性来考虑中间导航决策。在“进入卧室”的指令我们减轻这种训练偏差，以- ward遥远的航点，通过缩放松弛奖励的基础上的航点距离，而不是时间。具体来说，我们基于预测距离的松弛：r松弛=0的情况。05天预测其额外地惩罚不可到达的航路点。5. 实验在本节中，我们的主要实验在VLN-CE任务的背景下解决了以下问题：1) 航路点预测的表现力如何影响性能？在表现力谱的一端，智能体可以从离散候选的小集合中选择路点，并且在另一端，智能体可以考虑在某个范围内的任何连续位置我们检查- ine不同层次的表现力的影响，在第二。五点二。一般来说，我们发现，较少的表现力的动作空间导致较小的改进，在标准的指标更expres-sive版本，但由于频繁的停止和转弯的轨迹，将执行速度较慢的真实代理。2) 我们的基于路径点的模型与之前在低级动作空间中的工作相比如何与VLN-CE [24]上的现有工作相比，我们的基础模型使用额外的传感器（前向与后向）进行训练。全景照相机）和具有任意转角和步距的连续导航器。当我们讨论这些观察和导航-测试者动作空间更能反映真实的机器人代理，15168..非固定的我们用一个附加的零趋势正则化termL来为我们发现经验导致更好地探索联合我们在第二节切除这些。5.3与以前的工作进行比较。我们发现，我们的模型导致显着的改进，比以前的工作公共VLN-CE排行榜。15169−有价值无价值型号Dist.偏移TL NE↓OS↑SR ↑SPL ↑TL NE↓OS↑SR ↑SPL ↑EETSCT↑1CC10.29 6.055140 35十点三八六点九4134 29186202航路点预测DC10.51 6.124938 3310.62 6.624336 30153233网络（WPN）DD9.116.574435 328.23七点四八3528 2693204D-9.06六点四五4639 358.16七点二十3831 2890225标题预测-C8.715.175347 457.716.024238 36297116网络（HPN）--8.635.445144 427.726.213834 3230811表1.使用连续导航器到达航点的Val-Seen和Val-Unseen拆分的航点模型结果。我们证明了我们的动作空间组件的影响，通过连续约束的航点动作空间。我们发现，最少约束的航向预测网络执行最好的，根据传统的VLN指标在两个验证分裂。5.1. 实验装置VLN-CE数据集。我们使用VLN-CE数据集[24]，该数据集由90个场景中的16，844个路径指令对（5，611个唯一路径）组成。数据集分为训练（Train）、可见验证（Val-Seen）、不可见验证（Val-Unseen）和测试（Test）。Val-Unseen和Test都包含座席在训练期间未接触过的场景。指标. 我们使用VLN-CE [24]的既定指标评估我们的代理。具体而言，我们报告了VLN-CE挑战排行榜使用的指标，包括轨迹长度（TL）、导航错误（NE）、oracle成功率（OS）、成功率（SR）和反向路径长度（SPL）加权的成功率。请注意，当座席在目标的3m范围内调用停止操作有关这些指标的详细描述，请参见[2，4实施详情。我们在Py- Torch [30]中实现了我们的代理，并使用了栖息地模拟器[27]。我们将Habitat的DDPPO [ 37 ]培训实施扩展我们将训练分布在64个GPU上，收集了大约2亿步的经验，以达到峰值性能（平均5天）。我们对每个实验使用相同的超参数集，并将这些值包括在补充中。我们在训练过程中使用提前停止，并为所有模型选择Val-Unseen上具有最高SPL的检查点。在评估过程中，航路点预测网络采用各行动分布的模式，从而得出确定性的结果。5.2. 航路点表达率为了研究航点表现力的影响，我们考虑了我们的模型的距离和偏移分量的预测域的频谱在选项卡中。1，我们考虑预测连续值（C），在一组离散值（D）之间进行选择，或者根本不预测并使用固定值（-）。这些组合产生了决策空间，如Tab左侧的图所示。其中蓝色阴影区域反映在偏移和距离预测的各种C/D/-设置标签在每个图的左上方匹配表的相应行。WPN。第1行是我们的全连续路点预测网络（WPN），它可以选择代理周围0.25和4m范围内的环形内的任何点。在第2行中，我们考虑在范围从0.25m到2.75m的六个选择上的离散距离预测，增量为0.5m在第3行中，我们将偏移量限制为7个选择，范围从15μ m到15μ m，增量为5μ m在第4行中，我们将偏移预测固定为0，导致36个可能的路点的稀疏这是从完全一致的进展--连续到高度约束的子空间。我们观察到最显着的差异，性能从偏移预测空间的变化。连续偏移优于离散或固定偏移，成功率为3-8%（第1行和第 2行vs.3 4）。直观、连续的偏移预测可实现更长距离的更多位置控制（比较图1和图4的外边缘令人惊讶的是，密集离散设置（行3）没有偏移（行3vs.4)3%的成功。我们怀疑这是由于训练动态的差异-HPN。在第5和第6行中，我们完全取消了距离预测，在选定的航向上移动了固定的0.25米为了反映这一点，我们将这些消融称为航向预测网络（HPN）。对于连续偏移（行5），这允许在半径0.25m的单个环中预测路点。行6进一步消除偏移预测，从而产生将向前迈步之后的任何连续的转弯序列减少为单个动作）。如前所述，我们观察到持续的偏移导致改进。与直觉相反，我们发现这些固定距离模型在成功率方面通常比WPN模型高出2-3%（例如第1/2行vs.5和第3行vs.（六）。15170有价值无价值型号导航器 CkptTL↓NE ↓OS ↑SR↑SPL↑TL↓NE ↓OS ↑SR↑SPL↑1个WPN、CN 22210.51 6.124938 3310.62 6.624336 302个离散DN 2229.64六点三三4334 309.54六点八五4033 283距离DN 899.526.234537 339.866.934033 294个WPN，CN 13710.29 6.055140 35十点三八六点九4134 295连续DN 13710.14 5.995242 369.60六点八七3932 286距离DN 18510.73 5.995241 3610.61 7.074233 28表2.我们的航点预测网络（WPN）与不同导航器配对的验证性能。尽管使用连续导航器（CN）进行训练，但我们的WPN使用离散导航器（DN）在Val-Unseen中仅下降1-2SPL。Val-Seen和Val-Unseen检验型号TL↓NE↓OS ↑SR↑SPL↑TL↓NE↓OS ↑SR↑SPL↑TL↓NE↓OS ↑SR↑SPL↑1个HPN + DN（我方）8.54 5.48 5346 437.62 6.31 4036 348.02 6.65 3732 302WPN + DN（我方）9.52 6.23 4537 339.86 6.93 4033 299.68 7.49 3629 253CMA+PM+DA+8月[24]9.06 7.21 4434 328.27 7.60 3629 278.85 7.91 3628 25表3. VLN-CE挑战排行榜上的结果。我们提交的两个模型在测试中都优于现有的最先进技术，我们的航向预测网络（HPN）显示出最高的成功率（SR）和最低的轨迹长度（TL）。然而，这些智能体在每个轨迹上采取大约4倍的动作（第2行在8.41处，第5行在33.41处）-导致路径具有显著更多的开始、停止和转弯。因此，这些高动作速率路径更紧密地接近地面实况路径并且实现更高的路径效率，如SPL中所示。相比之下，WPN模型将路径分解为平均1.6米的直线段-减少了在实际系统上执行的时间。考虑到与RL训练方法相关的方差，我们重复表2第2行中的实验1在不同的随机种子下两次两者在Val-Unseen中均达到29SPL（比第2行低1分），表明性能差异。1SPL的结果可能不显著。机器人运动模型下的路径效率。取决于机器人的能力，具有许多细粒度动作的较短长度路径可能比简单但较长的路径花费相当长的时间来执行。我们描述了一个通过PyRobot [29]控制的Lo-CoBot [20]机器人。我们选择LoCoBot，因为它是一个通用的平台，用于在具体任务中进行sim2real实验[23，17，11]。我们推导出函数的时间，以指定的角度，或移动为- ward由一个指定的距离从经验测量。使用这些，我们可以估计LoCoBot在任何路径上所需的时间。有关详细信息，请参见补充资料。我们将此度量称为估计执行时间（EET），并在Tab中的未知环境中呈现每个模型的结果。1.一、我们以秒为单位报告EET。直观地说，我们发现预测行程距离（第1-4行）的模型的EET低于固定0的模型。25m增量（第5-6行）。特别是，我们最好的WPN（第2行）的EET比我们最好的HPN（第5行）低144秒，几乎减少了2倍。深入挖掘，我们可以比较通过用EET归一化轨迹长度来估计轨迹期间的平均速度（TL/EET）。我们最好的WPN平均值6.9 cm/s，比我们最好的HPN（仅为2.6 cm/s）提高了2.7倍我们还提出了按完成时间（SCT）[39]加权的成功，它通过完成轨迹的相对时间来衡量智能体我们适应SCT我们的代理细节在补充报告中。我们发现，我们最好的WPN模型在SCT方面比我们最好的HPN模型有超过2 倍的改善（ 23vs.11)尽管WPN具有较低的SPL。这些结果证明了使用航路点模型在现实世界中执行的实际好处。5.3. 与离散行为模型的我们的智能体接受了连续导航器的训练，这些导航器可以转向任意角度并向前移动任意距离-与现实的零转弯半径机器人相匹配。相比之下，VLN-CE假设15度增量的转弯和0.25m的前进步长。为了与以前的工作相比，我们实现了一个离散的导航器（DN），使用这个低级别的行动空间，以达到航路点近似。我们的DN假设空闲空间，并选择贪婪地最小化到路点的距离的动作。我们假设没有明确的本地化。选项卡. 2显示了我们的WPN模型，使用连续vs.推理时的离散导航器。如图（左）所示，离散导航器近似连续版本的路径我们发现我们的模型对导航器的这种变化有些鲁棒，但成功率下降了1-3%在第3 - 6行中，我们使用离散导航器重新评估所有模型检查点，发现虽然不同的检查点最大化SPL，但性能与第2 - 5行相似。在选项卡中。3，我们比较我们的模型使用离散导航-15171图3.一个定性的例子，我们最好的航点代理（WPN+CN）成功地导航到目标在一个看不见的环境。igator（DN），之前曾在VLN-CE排行榜上工作。我们提交了基于Val-UnseenSPL的性能最佳的航路点预测网络（WPN）和航向预测网络（HPN）变体。现有的最新技术属于由数据集聚合（Dagger）训练并由进度监测器和数据增强（CMA+PM+DA+Aug）辅助的跨模态注意力模型[24]。WPN+DN和HPN+DN都超过了现有工作的性能，其中HPN+DN在VLN-CE任务上设置了4个SR（相对14%）和5个SPL（相对20%）的最新技术水平。这是尽管评估我们的网络与导航，他们没有接触到在培训期间。仔细看看以前的工作和我们的HPN+DN模型之间的差异，我们的代理可以访问全景观察，具有更抽象的基于标题的动作空间，并使用RL进行训练。为了消除这些差异，我们从我们的“pick-pano”HPN模型开始（Tab. 1行6）和消融全景观察到单个前向相机。在Val-Unseen 中，该模型超过第 6 行 2SR （达到36/32SR/SPL）。该试剂具有比第6行低4SR和5SPL的可见-不可见间隙（Val-Seen：40/37SR/SPL）。这表明该模型的减少的视觉信息导致训练环境的过拟合较少我们进一步消融了这个模型的高级动作我们发现，这个代理是无法训练收敛后3亿步骤的经验，并确定较长的时间范围作为一个挑战，需要更深入的研究。5.4. 定性示例我们提出了一个定性的例子，我们最好的航点代理导航一个看不见的环境（图。（3）第三章。在步骤1中，代理通过预测路点2来穿过大房间。25米远。在步骤4中，航路点预测在1处较短。25m，位于说明书中提到的端桌正前方总之，这些预测表明代理的能力，隐式地推理场景几何和预测语言接地的航点。这个例子中的每一步都可以与一个抽象的语义子目标对齐，例如““直接从VLN-CE动作空间预测动作的代理需要做出10+个决策来执行每个子目标-这是我们在补充资料中提供了其他导航示例。5.5. 航路点预测分析我们分析了由我们最好的WPN模型预测的航点的特征1行2）。在Val-Seen和Val-Unseen中，平均距离预测为1.6 m，标准差为0.8 m。我们发现，路点距离随着时间的推移而减少，这样的预测在前25%的情节平均2.3米，预测在中间50%的平均1.6米，预测在最后25%的平均年龄0.76米。这种行为在指令跟随的上下文中是合理的-“离开卧室...... ”), while the end of a path can bedescribed more particularly (“我......在两把椅子中间等着“）.6. 讨论在这项工作中，我们提出了一个模型类，预测导航的航点直接从语言和视觉。在探索航点动作空间的表现力时，我们发现更具表现力的模型具有有利的现实世界执行特性，包括预期执行时间减少2倍，以及抽象与机器人特定导航堆栈交互的另一方面，较少表达的动作空间导致较高的传统VLN指标。我们向VLN-CE领导委员会提交的最佳申请证明了这一点，与之前的工作相比，成功率提高了4%（相对14%），SPL提高了5分我们认识到，拓扑VLN和连续VLN-CE之间仍然存在显着的差距。解决这个差距和相关的sim2real差距[3] 需要在语言理解和机器人控制之间开发一个有效的接口。致谢我们要感谢 Naoki Yokoyama 帮助调整 SCT 和 JoanneTruong 帮助进行物理 Lo- CoBot分析。这项工作部分由DARPA MCS资助15172引用[1] Locobot：开源低成本机器人。2019. 一、二[2] PeterAnderson ， AngelChang ， DevendraSinghChaplot，Alexey Dosovitskiy，Saurabh Gupta，VladlenKoltun ， Jana Kosecka ， Jitendra Malik ， RoozbehMottaghi，Manolis Savva，et al.嵌入式导航代理的评价。arXiv预印本arXiv：1807.06757，2018。6[3] Peter Anderson ， Ayush Shrivastava ， Joanne Truong ，Arjun Majumdar，Devi Parikh，Dhruv Batra，and StefanLee.模拟到真实的视觉和语言导航传输在CoRL，2020年。一二三八[4] Peter Anderson，Qi Wu，Damien Teney，Jake Bruce，MarkJohnson，NikoSünderhauf，IanReid，StephenGould，and Anton van den Hengel.视觉和语言导航：在真实环境中解释视觉基础的导航指令。在CVPR，2018年。一、二、三、六[5] Somil Bansal，Varun Tolani，Saurabh Gupta，JitendraMalik，and Claire Tomlin.结合最优控制和学习在新环境中的视觉导航。在CoRL，第420-429页二、三[6] Valts Blukis、Nataly Brukhim、Andrew Bennett、Ross AKnepper和Yoav Artzi。在具有模仿学习的模拟四轴飞行器上遵循高级导航指令。在RSS，2018. 二、三[7] Valts Blukis，Dipendra Misra，Ross A Knepper和YoavArtzi。将导航指令映射到具有位置访问预测的连续InCoRL，2018. 2[8] Valts Blukis、Yannick Terme、Eyvind Niklasson、RossA Knepper和Yoav Artzi。学习使用模拟飞行将自然语言指令映射到物理四轴飞行器控制。在CoRL，第1415-1438页，2020中。二、三[9] 约翰·伯卡特截断正态分布。Department of ScientificComputing Website ， Florida State University ，第 1-35页，2014年。5[10] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport3d：从室内环境中的 RGB-D 数据学习。在 3DV ， 2017 年。MatterPort3D 数据集许可证可从以下网址获得：http://kaldir.vc.in。tum.de/matterport/MP_TOS.pdf的网站。二、三[11] Devendra Singh Chaplot ， Dhiraj Gandhi ， SaurabhGupta，Abhinav Gupta，and Ruslan Salakhutdinov.学习使用主动神经系统探索。在ICLR，2020年。7[12] Devendra Singh Chaplot，Dhiraj Prakashchand Gandhi，Ab-hinav Gupta，and Russ R Salakhutdinov.使用面向目标的语义探索的对象目标导航。神经IPS，2020年。2[13] Devendra SinghChaplot ， RuslanSalakhutdinov ，Abhinav Gupta，and Saurabh Gupta.视觉导航的神经拓扑系统。在CVPR中，第12875-12884页，2020年。二、三[14] Changan Chen ， Sagnik Majumder ， Al-Halah Ziad ，Ruo

下载后可阅读完整内容，剩余1页未读，立即下载