视觉里程计在具体点目标导航中的应用及效果

200 浏览量更新于2023-10-13 收藏 1.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16127视觉里程计技术在具体点目标导航中Xiaoming Zhao†，Harsh Agrawal‡，Dhruv Batra‡，§，Alexander Schwing††伊利诺伊大学香槟分校‡乔治亚理工学院§Facebook AI Researchhttps://xiaoming-zhao.github.io/projects/pointnav-vo/摘要对于个人机器人来说，可靠地导航是根本（一）观察致动定位点 - 目标坐标 [0.3 ，0.4]到一个特定的目标。要研究此任务，PointGoal导航已经在模拟的Embodied AI环境中引入最新的进展解决了这个PointGoal导航任务，在逼真的模拟环境中具有近乎完美的准确性（99.6%的成功率）然而，在用于视觉传感器和致动的现实噪声模型1在这项工作中，我们演示了视觉里程计在这个现实环境中用于PointGoal导航任务的惊人效果，即，使用真实的噪声模型进行感知和驱动，无需使用GPS和Compass传感器。我们发现，将视觉里程计技术集成到导航策略中，大幅提高了流行的Habitat PointNav基准的最新水平，将成功率从64.5%提高到71.7%，同时执行速度提高了6.4倍。1. 介绍在室内环境中有效和准确地导航的能力是个人机器人的基础，多年来一直是计算机视觉研究的焦点[37]。为了围绕一个通用框架和标准指标来联合社区，Anderson 等。 [2] 提出了 PointGoal 导航的任务在PointGoal导航中，智能体在先前看不见的环境中随机产生，并且必须导航到相对于智能体的初始位置和方向指定的点目标代理使用离散动作空间（例如，向前移动0.25米，左转或右转30°，并停止）在环境中导航。在无声的自我中心的假设下-Sion（无噪声RGB +深度传感器）、无噪声致动（例如，左转总是正好30○）和完美的低-（b）第（1）款图1：无噪声（a）和有噪声（b）PointGoal导航。在噪声环境中，代理观察到：1）自我中心观测中的传感器噪声; 2）致动扰动。第二列示出了由左转动作引起的取向角度变化的直方图; 3）没有定位信息。智能体使用GPS+指南针传感器进行校准，最近的方法以近乎完美的精度（99.6%成功率）解决了这项任务[53]。然而，这些假设是不现实的。注意，GPS传感器在室内环境中通常不会产生精确的位置.此外，真实机器人的感知和驱动通常严重依赖于环境光照和表面摩擦系数。为了研究这种更现实的设置，在最近的基准测试2中，PointGoal导航被更新为包括来自真实机器人的噪声驱动模型[35]。例如，对于单次左转动作，实际转弯角度显著变化，如图2的第二列所示。1.一、此外，将[9]中的RGB和深度噪声模型合并以模拟真实世界的相机。最重要的是，如图3的第三列所示1，代理不能访问GPS+指南针数据，并且必须仅基于以自我为中心的RGB +深度（RGB-D）测量来导航。在这种更现实的设置下，在无噪声场景中近乎完美的策略的性能[53]急剧下降至0.3%。在此基础上进行改进，现有技术[24]将粒子SLAM结合到视觉导航中，并且在这种现实设置下实现了64.5%的成功率与任务的无噪声版本的99.6%成功率相比，具有噪声感知和致动以及没有定位信息的导航因此仍然具有挑战性。1https://eval.ai/web/challenges/challenge-page/580/排行榜/1631（人居小组）。2https://aihabitat.org/challenge/2020/点目标坐标[？，的问题。16128为了更好地理解在这种现实环境中导航的挑战，我们研究了三种视觉里程计（VO）技术。我们发现这些VO技术是令人惊讶的有效PointGoal导航在这个现实的设置。具体而言，我们1）利用视觉测距法的几何不变性;2）结合离散化和集成以防止噪声;以及3）使用深度信息的自上而下的对于1），我们注意到，给定的一对观测的估计运动与针对置换观测估计的运动相关有两个损失术语支持这种关系。对于2），我们在视觉里程计模型的最后两层中研究Dropout [46]，以防止自运动预测中的不确定性，遵循[25]。我们还发现深度离散化是有效的。对于3），我们从每个单独步骤处的深度信息推断自我中心的自顶向下投影我们发现，这样一个简单的投影，这是本地的每一步，有利于自我运动估计。在人居挑战2020 PointNav基准测试中，我们发现这三种技术非常有效，成功率为71.7%，SPL为52.5%，比现有技术（SOTA）的64.5%和37.7% SPL有了显着此外，在导航策略中使用VO的执行速度也比之前的SOTA快6.4倍我们进行了详尽的消融，以显示三种技术的有效性，并发现所有上述技术有助于更准确的导航。重要的是，我们单独训练这个视觉里程计模型，而不是使用策略在线学习它。使用VO模型作为完美GPS+指南针的直接替代允许重新使用利用完美定位信息学习的导航策略（即，使用GPS+指南针传感器），无需任何昂贵的重新培训。注意，可以使用仅几百万帧的静态数据集针对不同的环境动态来相比之下，导航策略通常使用六个月的GPU时间收集的超过十亿帧来训练[53]。总而言之，我们研究了三种用于现实PointGoal导航的技术：1）通过损失利用几何不变性; 2）离散化与集成相结合;3)使用深度信息的自顶向下投影。我们表明：学习这样的视觉里程计模型离线使用只有几百万帧，并直接取代GPS+指南针输入的导航策略实现SOTA性能的标准PointNav基准。2. 相关工作具体任务的导航。最近，人们对Embodied AI领域重新产生了兴趣。社区已经在3D环境的照片级逼真扫描[27，6，47，56，55]之上构建了几个室内导航模拟器[41，57，40，27]为了测试机器人导航和与环境交互，社区还引入了几个任务[57，5，45，10，52，36，3，28，48，22，21，51，16，34，33，31，32]和基准。特别地，Batraet al.[5]引入对象导航任务的评估细节，要求代理导航到给定的对象类而不是最终的点目标。类似地，房间导航[36]要求代理导航到给定的房间类型。最近，Krantz等人[45，28，48]扩展导航任务以利用自然语言中的指令。VLN [2，28]和ALFRED [45]要求智能体遵循一系列自然语言指令以达到指定的目标。Thomason等人[48]引入视觉和对话导航，需要来回通信才能到达所需位置。Jain等人[22，21]开发FurnLift和FurnMove来研究可视化多智能体导航。虽然这些任务的设置不同，但它们中的每一个都需要代理在环境中准确导航为此，代理的导航策略假设代理的位置和方向的最近，为了减轻这种不切实际的假设，Dattaet al. [11]提出从一对深度图估计自运动。像他们一样，我们也从视觉观察进行自我运动估计。然而，不同的是，我们研究提高鲁棒性的组件。正如我们在SEC中所展示的那样。4.3，在没有提高对观察和致动噪声的鲁棒性的情况下，该模型产生较差的结果。摄像机姿态估计和视觉里程计（VO）。摄像机位姿估计与定位估计有关. 例如，在上述自运动估计[11]之后，研究了直接使用卷积神经网络（CNN）来估计相对相机姿态[59，30这些模型通常不考虑鲁棒性。同时，在过去的几十年中，已经开发了许多方法用于VO[42，14]。流水线通常由几个步骤组成，从摄像机校准，特征选择和匹配到运动估计，异常值检测和光束法平差。最近，已经针对VO提出了各种基于深度学习的架构例如，Wanget al.[49]提出了一种CNN+递归神经网络（RNN），用于从RGB输入估计室外环境中的VO。由于室内导航中的三个连续帧几乎没有重叠，我们发现使用RNN进行顺序训练没有帮助。相比之下，我们使用更快的ResNet- 18 [17]架构从嘈杂的RGB-D输入对中学习VO。Wang等人[50]利用刚体运动的数学组同样，我们还利用几何不变约束作为训练过程中的自我监督信号。此外，我们故意利用表示，使模型对观测噪声具有鲁棒性。为了模拟代理的[25]第46话：每一个人16129Bb·BtB2bC！Cg（BB2不BBtBt2vbt+1 =HbCt！C·vbt。R2在地平面中，并且角度✓bC！C代理的位置和方向改变。这导致Ct！Ct+12个✓Ct！Ct+1编队HC！C，其是以下组的元素模型f$在图1中示出2（b），即，Σreg图2：研究方法。（a）我们估计变换HCt！Ct+12SE（2）inPointGoaln avision（Sec. 第3.1节）。（b）视觉里程计（VO）在两个连续的以视觉为中心的观测（It，It+1）上操作，并产生HCt！Ct+1（秒） 3.5）。（c）（）的说明。为了处理噪声，除了原始RGBt和深度t之外，我们找到离散化d-深度t（Sec. 3.3）和自上而下投影（第3.4节）3.4帮助。卷积层和倒数第二线性层。在测试时，他们的模型使用40个随机样本来获得自我运动的鲁棒估计。当用作导航策略的输入时，在每个时间步长处的模型的40次正向传递是极其昂贵的。此外，由于VO模型的输入已经有噪声，因此将Dropout添加到CNN架构中几乎没有好处。相反，我们添加Dropout然而，转换HCt！Ct+1不可用，因为无法进行完美的位置变化测量。因此，我们需要估计HCt！ Ct+1SE（2）给出了主体的自我中心的观察。使用变换H tt+1，智能体通过以下公式从其先验估计vg计算目标在时间t +1的相对位置G电话+1通过缩放最后两层的参数来平均来自多个模型的预测的效果这允许利用单次前向传递进行鲁棒估计。3. 方法我们研究了一个简单但有效的视觉里程计（VO）模型，适用于嵌入式AI任务，从一对嘈杂的RGB-D帧中预测egomo- tion。该VO模型仅基于经典组件，可用作下游导航任务中完美GPS+指南针传感器的直接替代品。在下文中，在讨论组件之前提供概述。3.1. 概述该模型如图所示二、 PointGoal导航-秒3.2讨论如何估计变换HCt！ Ct+1的几何不变性。秒3.3解释了一个简单的方法来制作一个视觉里程计模型对自运动估计中的不确定性鲁棒。下一个，SEC。3.4讨论了一种简单的方法，利用自我中心观察的自上而下投影作为附加信号。最后，第3.5细节训练。3.2. 视觉里程计的几何不变性我们的目标是学习一个卷积神经网络（CNN），估计变换HCt！Ct+1SE（2）中的一个。对于小的y，SE（2）的元素由一个平移定义。Ct+12不电话+12R，即，动作[2]要求代理导航到点目标Vg，它是相对于代理的当前位置指定的每个时间步长t。在第一次行动后，由于噪音，特工HbCt！C电话+1=RbCt！Ct+1Ct！Ct+11、（二）仅具有相对位置的估计值Vg根据估计的相对坐标vg以及RBC！C=“cos（✓bCt！C电话+1）-sin（✓bCt！C电话+1）2SO（2）btt电话+1sin（✓bCt！C电话+1）cos（✓bCt！C t+1）自我中心的观察It直到时间t，例如，测量从RGB-D传感器中，座席选择下一个操作朝着目标前进为此，代理计算分布在动作空间A ={左转，右转，. ......你好。}的情况下，表示来自特殊正交群考虑到这个参数化，我们发现使用时，通过回归进行的SE（2）估计有效以下损失：L，即， apolic c y（·|vg，It）。在执行操作at2A、KCt！Ct+1-bk k-bk（三）将智能体的局部坐标系从Ct改变Ct+1。y点在这里，Ct！C电话+1Ct！C电话+1（2）第二节：转换为坐标系Ct+1的坐标系，使用反式ponentswhilebCt！Ct+1且✓bCt！Ct+1是tt+1到模型的最后两层，并近似2Ct！Ct+1✓Ct！Ct+1二、#161302D平面中的刚性变换，即，SE（2）。这假定智能体的运动是平面的bCt！Ct+1，bCt！Ct+1=f$（（f（It），f（It+1）））。（四）在单个楼层上定义情节。注意，如果需要，所有技术都可以容易地扩展到SE（3）此外，$是VO模型的参数，fde-注意处理自我中心观察的函数的16131L-Bb22该模型的架构将在第二节中介绍。三点五注意，使用等式中给出的损失。（3）对于学习VO模型的参数是常见的，VO模型经常表现出（一）（b）第（1）款（c）第（1）款Eq.中给出的结构（4），例如，[49，11]。但随着我们在SEC展示。4.3，在没有具体考虑感知和驱动噪声的情况下，纯回归不能很好地工作。我们接下来讨论鲁棒性改进。除了通过给定的损失回归到地面实况数据之外（d）其他事项（e）（f）第（1）款由方程式（3），在一对观测（It，It+1）中可获得更多的信息。要看到这一点，假设智能体观察到（It，It+1），然后是（It+1，It）。在这种情况下，我们知道，一般来说，代理返回到其原始位置。这通过SE（2）不变性HCt更正式地描述！ Ct+1HCt+1！ Ct =I33。这种几何变化是普遍存在的。利用它们除了回归在Eq.（3），我们在VO模型的训练期间发现了两个额外的损失，以帮助：图3：从深度推断自我中心的自上而下投影的步骤。顶行和底行示出了从相同位置处的噪声和无噪声深度图像推断的自上而下投影。（b，e）：自上而下的散点图。（c，f）：软的自上而下投影。可以看出，在处理之后，（c）和（f）比（c）和（f）共享更多的相似性。(b)以及（e），使所述表示对深度噪声更鲁棒预测，因为它们增加了旋转和平移的方差。对于鲁棒性，我们使用两种经典技术：inv反转，旋转反式LCt！Ct+1，LCt！Ct+1+LCt！Ct+1。（五）合奏。为了提高鲁棒性，可以训练en-反转，旋转Ct！Ct+1和反式Ct！Ct+1是旋转和平移模型的集合。对集合上的预测求平均值通常会降低方差。然而，强化学习-方差损失，这将在下面解释。旋转不变性直观地说，如果旋转角度为-gle✓Ct！Ct+1将Ct中的坐标转换为Ct+1中的坐标，然后通过旋转角度-θCt 来实现从Ct +1 到Ct 的逆坐标转换！Ct+1，即 ✓Ct+1！Ct 为✓Ct！Ct+1。因此，VO模型接受自我中心的观察（It，It+1），然后接受观察（It+1，It），应鼓励其预测✓Ct！Ct+1+✓Ct+1！Ct =0。这是通过自监督学习损失来实现的基于RL的导航系统需要数十亿个样本来训练一个好的策略[53]。由于该策略依赖于VO模型来提供代理的当前位置估计，因此提高推理速度并避免不必要的计算是很重要的。因此，我们发现在训练一个CNN架构的同时将Dropout [46]添加到最后两个完全连接（FC）层，而不是将多个模型这在经济上类似于训练大量合奏的行为[4，18]。在训练过程中，Dropout会随机禁用反转，旋转Ct！Ct+1，✓bCt！Ct+1+✓bCt+1！Ct2.（六）概率为p的FC层，基本上从子网络的集合在推理过程中，每个隐藏的平移不变性。平移不变性性质直观上类似于旋转不变性性质。如果从Ct到Ct+1的变换是纯平移的 Ct！Ct+1，则从Ct+1到Ct的逆变换简单地为另一个翻译是Ct+1！Ct=-Ct！Ct+1。这是-FC层中的单元以相同的因子p缩放，以模拟来自多个子网络的预测的平均。深度离散此外，我们发现深度离散化产生更强大的自我表示-kCt！Ct+1Ct+1！Ctk2. 那个关系是距离传感器的中心观察。特别是一个-导致损失b+b2反式Ct！Ct+1，？bCt！Ct+1+Rb Ct！Ct+1·bCt+1！Ct2.（七）在图像坐标（x，y）处的深度像素，我们通过以下方式获得d深度的第i通道的值：我们提供了公式中损失的正式推导（6）及当量（7）在附录中。3.3. 对不确定性除了利用几何不变性之外，我们发现进一步提高模型SE（2）估计的鲁棒性也很重要这一点很重要，因为测量是有噪声的：1）由于观测噪声，即使照相机位置和取向相同，视觉观测也不同。这使得观测的处理变得简单; 2）驱动中的扰动影响VO模型的LLL当变换由旋转和平移组成时稍微更复杂。我们得到通道深度图深度被离散成表示使用独热编码的具有N个通道的d深度。给定161322·-联系我们d-深度i（x，y）={深度（x，y）2[zi-1，zi）}，（8）其中表示指示函数，并且zi-1，zi是离散化区间的端点直观地，这增加了深度不确定性的绝对容差。米尼|zi-zi-1|因为除非深度条目穿过间隔边界，否则将产生相同的表示。根据经验，我们发现使用端点zi=i（zmaxzmin）/N将等距离散化为N个区间以良好地工作。这里，zmax和zmin分别是最大（10m）和最小深度（0m）值。16133BD⇣⇠不b，✓C！C一invinv观测以及地面实况平移和旋转当量（四）、给定相对位置估计vg，3.4. 自顶向下投影作为附加信号直观地，映射应进一步提高模型鲁棒性。然而，我们面临的主要挑战是：深度传感器中的噪声是相当细微的并且通常几乎不可见（参见图3（a、d））。但是，一旦投影到2D布局，噪声表现在总偏差，孔和堵塞，如图所示。3（b，e）. 为了应对这一挑战，我们使用归一化的软投影。归一化的软投影s-projt，如图2所示。3（c，f），类似于由深度图给出的房间布局。请注意，它们也比图1中给出的投影具有更多的相似性。3（b，e）.我们通过以下方式获得软投影：1）将深度观测映射到3D点云中，2）使用2D自上而下的正投影，以及3）相对于每个像素内的点的数量对投影进行归一化。软投影作为输入提供给学习适当地使用它的端到端训练的VO模型。如何计算软投影的细节在附录中给出。3.5. VO模型架构、培训细节以及与导航策略的模型架构。等式（1）中的视觉里程计模型（4）使用ResNet-18 [17]主干来提取视觉特征。为此，我们首先从自我中心的观察计算表示，如图1所示2（c）通过f（It），（RGBt，deptht，d-deptht，s-projt）.（九）然后，我们沿着通道维度堆叠（ f （ It ）， f（It+1））以获得ResNet-18输入。由于RGBt、深度t、d-深度t和s-projt分别具有三个、一个、N个和一个通道，因此ResNet-18的输入是具有（2N+10）个通道的张量。估计HCt！ Ct+1时，我们使用两个全连接（FC）层，并启用DropoutResNet-18特征提取器的顶部。这些FC层对512维特征进行操作，并产生外(a) 图为Ct！Ct+1和Ct！Ct+1来自数据w/o冲突。(b) 图为Ct！Ct+1和Ct！Ct+1来自具有冲突的数据。图4：第2节中描述的VO训练数据序列的三绘图。4.1.不同的动作具有明显不同的SE（2）分布，我们发现使用统一模型不能很好地学习导航政策培训。我们工作的重点是现实条件下的点-目标导航，即，噪声观测和驱动以及无法访问GPU+Compass传感器。为了证明VO技术可以是地面实况GPS+指南针传感器的简单替代品，我们直接使用[53]中的导航策略。具体来说，导航策略由2层LSTM [19]组成，并使用ResNet-18 [17]主干来处理视觉观察。该策略是独立于视觉里程模型学习的，并且可以访问完美的位置数据。在训练期间，在每个时间步骤t，策略ESTA对以自我为中心的观察It、地面实况点目标vg以及先前动作at-1进行操作，并计算putxCt！Ct+1，zCt！Ct+1. Hereztt+1Ct！Ct+1指在动作空间上的分布。学习政策我们使用DD-PPO [53]，PPO的分布式版本[44]。我们使用相同的一组超参数和奖励整形在智能体的前进方向上的平移⇠ˆxCt！Ct+1指的是垂直方向的平移[53]我们将在附录中详细讨论。与地平面上的向前运动有关。VO培训。我们训练视觉里程计模型f$上数据集DΣ训练 =.. （It，It+1），Ct！Ct+1，✓Ct！Ct+1ΣΣ，导航用视觉里程计在推理过程中，在每一个时间t+1，智能体获得一个自我中心的观测It+1。与先前的自我中心观察It一起，VO.dCt！Ct+1. 每个数据点都由一对自我中心的模型f$计算SE（2）估计HbCt！Ct+1使用G角度该模型被优化，以共同最小化重新先前时间btb回归损失和几何不变性损失定义在等式（三）和等式（5），即，我们寻址min$LVO，XhλregLreg+λtransLinv，trans+λ rotLinv，rot i，t时，代理更新当前估计vt+1经由等式（1）并将其作为政策投入。4. 实验dCt！Ct+12D列车Ct！Ct+1invCt！Ct+1invCt！Ct+1我们努力回答以下问题：（1）什么哪里 λreg，λtransλrot是用户指定的超这种视觉里程计（VO）模型在多大程度上有助于导航参数我们将它们设置为1。0在我们的实验中我们使用Adam [26]优化VO模型，学习率为2。510-4。丢弃因子16134是p=0。2在训练中tion？2)是什么促成了其业绩？我们报告的结果在网上生境挑战测试分裂在第二节。4.2节中的离线确认分割进行消融。四点三。16135⇥.Σ⇠DD⇥d初始化（la，l）max（la，l）4.1. 实验装置模拟器规格。所有实验均使用栖息地模拟器[41]进行，并且我们遵循Habi- tat PointNav Challenge [1]指南进行所有研究。我们在这里总结它们，并将细节推迟到附录：数据集。我们利用作为人居挑战的一部分发布的培训数据。它由Gibson数据集[58]中的72个场景组成，评级为4或以上（Gibson-4+）。离线验证分割由14个不同的场景组成，这些场景不是训练数据集的一部分。观察。与LoCoBot 3类似，代理人配备了安装在0.88米高度的RGB-D摄像头。它有一个70°的视场，并记录分辨率为341（宽）192（高）的自我中心观测。视觉观察包含噪声模型[9]。启动。动作空间A由四个动作组成：向前移动，其使药剂向前移动〜25cm，表1：截至2010年3月30日美国中部时间上午1：30的在线评估2021年17日 S、SPL和SoftSPL以%报告。排名球队S“SPL“dG#SoftSPL“时间（h）#1-1我们的w/finetuning71.7 52.50.80266.55.831-2我们的无微调69.8 52.00.82365.76.633Ramakrishnan等[38] 29.0 22.0 2.567 47.35Datta等人[11] 15.7 11.9 2.232 58.62.316cogmodel团队（39）1.3 0.9 4.879 30.4 5.477民间组织1.20.7 4.63224.75.579人居小组确定座席遵循最短路径并成功完成事件的紧密程度。到目标的距离（DG）捕获在情节终止时在所有情节上平均最后，挑战还引入了新的SoftSPL度量[11]：使用到目标的起始测地距离 dinit 和终止测地距离 dG ，SoftSPL被定义为（1-dG）l。它将二进制成功S替换为向左转和向右转，使药剂旋转30°，然后停止。代理表现出在LoCoBot机器人之后建模的致动噪声[35]。在碰撞过程中，允许代理沿着障碍物滑动而不是停止的行为被禁用。这更准确地模仿了真实机器人的运动[23]。图4示出了致动噪声和碰撞如何影响智能体VO数据集。为了训练VO模型，我们从72个训练场景中均匀采样的24，286个轨迹中创建了一个包含100万个数据点的数据集训练。4如上所述节中 3.5，每个数据点dCt！ Ct+1由一对观测值以及真实平移和旋转组成：（It，It+1），Ct！Ct+1，✓Ct！Ct+1。我们通过重复以下三个步骤从每个场景生成数据点during：1）随机采样场景中的代理的起始位置和方向以及可导航PointGoal; 2）遵循从起点导航到点目标的最短路径;以及3）随机采样数据点dCt！Ct+1沿着轨道。我们发现，由于致动噪声，动作导致大约11次碰撞。25%的时间。在这个VO数据集训练中，地面实况平移和旋转的分布如图所示。4.第一章我们观察到向前，左转，右转有不同的分布。这一发现促使我们训练特定于动作的模型，这对这项任务是有效的。指标. PointGoal导航根据Anderson等人总结的几个标准进行评估。[2]的文件。如果代理在目标全局坐标的0.36m（2代理半径）内停止，则发作被认为是成功的（S=1），否则发作被标记为失败的（S=0）。使用最短路径轨迹的长度l进度指示器，用于测量座席接近发作终止时的目标全局坐标。4.2. 在线排行榜选项卡. 1显示了2020年人居挑战PointNav基准测试的测试标准分割5的2020年的获奖者通过将占用预期[38]整合到主动神经SLAM [7]中，取得了29. 0%的成功（表3中排名第3）。①的人。Karkus等人[24]提出了一种端到端的粒子SLAM网络，以生成全局占用图并利用D 来规划路径，将SOTA在11月推高至64.5%。2020年（Tab. ①的人。我们的培训考虑鲁棒性的视觉里程计模型如在第二节讨论的。3和上述动作特异性设计将SOTA提高到71.7%。具体而言，我们在两种设置中评估VO模型质量：1）作为插入模块直接集成到预先训练的导航策略中;2)预训练策略的微调w.r.t. VO使用小预算。6表1-1和表1-2中的等级1验证结合所有讨论的技术，实现了三个四个指标的最先进的性能，无论微调。除了成功率外，它还通过以下方式十四岁8分（37分）7%至52。5%）。关于SoftSPL，它提高了7.9分（从58。排名5至66的6%。5%）。注意，导航策略中的VO执行评估6.4次比排名2 [24]更快（5.83vs.37.50小时），比排名3 [38]快 1.9倍（5.83vs.11.06小时）。4.3. 消融为了更好地理解每种技术的作用，我们在表1中进行了广泛的消融研究（第1 - 19行）。二、具体而言，我们对以下所有组合进行消融：1）视觉座席长度（SPL）被定义为Smax13http://www.locobot.org/. SPL直观地覆盖-5https://evalai.cloudcv.org/web/challenges/challenge-page/580/leaderboard/16316我们使用1470万帧而不是数十亿4轨迹是在地面实况布局图上计算的最短路径。训练策略所需的帧。8UCULab0.80.5 6.55510.415.122Karkus等人[24] 64.5 37.70.69752.1 37.504信息瓶颈16.312.2 2.07556.12.7316136Ct！Ct+1Ct！Ct+1不电话+1Ct！Ct+1Ct！Ct+1不电话+1表2：Gibson-4+验证拆分的评价。VO预测误差以（X）的顺序呈现。报告了使用不同种子的三次评估的结果我们使用D作为深度的缩写，z，✓bC！C）的范围内。2D3.9254±240±11.21±0.0461±1（1.88，1.53，1.38）±（0.01，0.02，0.02）3RGB-D3.9361±146±11.14±0.0562±1（1.72，1.10，1.23）±（0.04，0.00，0.00）4RGB-D33.9368±151±10.78±0.0366±0 （1.42，0.98，1.03）±（0.01，0.01，0.02）5RGB-D3（rnd10）3.9342 ±131 ±11.64 ±0.0757 ±0（1.71，1.35，1.84）±（0.00，0.01，0.01）6RGB-D312.470±152±10.89±0.0465±0 （1.39，1.02，1.01）±（0.01，0.01，0.01）7RGB-D3嵌入式12.472±053±00.83±0.1065±0 （1.36，0.89，0.93）±（0.02，0.01，0.01）8RGB-D3SepAct3 3.9375±056±00.68±0.0666±0 （1.24，0.86，0.82）±（0.00，0.00，0.01）9RGB-D3SepAct33 3.9375±256±10.67±0.0366±0 （1.15，0.85，0.78）±（0.00，0.00，0.01）10RGB-D3SepAct333 3.9377±157 ±00.65 ±0.0467 ±0 （1.13，0.85，0.76）±（0.01，0.00，0.01）11RGB-D53SepAct333 3.9674±257 ±10.70 ±0.0568 ±0 （1.07，1.03，0.69）±（0.01，0.01，0.01）12RGB-D103SepAct333 3.9679±160 ±10.54 ±0.0069 ±0 （1.08，0.90，0.67）±（0.00，0.00，0.00）13RGB-D203SepAct333 3.9679±060 ±00.52 ±0.0369 ±0 （1.06，0.85，0.67）±（0.00，0.00，0.01）14D1033SepAct333 3.9572±155 ±10.72 ±0.0168 ±0 （1.40，0.84，0.86）±（0.00，0.00，0.00）15RGB-D33SepAct333 3.9377±159 ±10.54 ±0.0470 ±0 （1.12，0.91，0.72）±（0.00，0.00，0.00）16RGB1033SepAct333 3.9679±161±10.52±0.0269±0 （1.18，0.78，0.75）±（0.00，0.00，0.01）17RGB3SepAct333.9259±245±10.74±0.0567±0 （2.02，1.73，1.15）±（0.01，0.00，0.01）18RGB-D1033SepAct33 3.9681±162±10.51±0.0370±0 （1.10，0.84，0.68）±（0.00，0.00，0.01）19RGB-D1033SepAct333 3.96382±163±10.48±0.0071±0 （1.08，0.85，0.65）±（0.01，0.01，0.00）20地面实况97 ±071 ±00.42 ±0.0270 ±0传感器（RGB和/或深度）; 2）几何不变性学习，在第二节中讨论。3.2; 3）第3.2节中详述的丢弃和深度3.3;4）软自我中心的投影描述在节。3.4; 5）使用第节中提到的特定行动模型。4.1.注意，VO是行1 - 18中的预先训练的导航策略中的插入式替换（无微调）。对来自14个验证场景的994集进行评价，每个场景提供71集。我们缩写在等式（1）中定义的离散化深度d-深度。（8）通过DD并使用S-Proj来指示使用在第2节中讨论的自上而下的投影三点四分。除了上述指标外，我们还报告了VO预测绝对误差每个vigation步骤中，对于x，x，z，和x，b，C！C、对并且仅深度模型优于RGB-D模型。我们发现，RGB和深度观测对于训练视觉里程计模型都很重要我们假设RGB能够实现帧之间更好的特征匹配此外，这一结果突出了分别训练VO模型和导航策略的优势，因为它们捕获了输入观测的不同特征。在VO模型中添加Dropout学习更鲁棒的自运动估计器。我们发现显着的性能改进，profements时，使用Dropout经济地模仿合奏更强大的自我运动预测。实验结果证明了该设计的有效性，手术成功率和SPL分别提高7和5分（第3排vs.4在Tab。2）的情况。为了证明单一注意，先前的工作表明，如果没有GPS+指南针传感器，因此，该策略在1亿帧训练后达到0 SPL，在25亿帧训练后达到15% SPL [53]。7相比之下，当在噪声观测和驱动下使用完美的GPS+指南针传感器进行评估时（表19中的第192），该策略获得了71%的SPL，成功率为97%。我们现在讨论在何种程度上的每一个技术中详述的第二节。3、第二。4.1缩小了这个差距。S、SPL和SoftSPL以%报告节中讨论三点五VO政策视觉DDS-Proj Dropout ActInfoDataAug GeoInv #param（M）调谐S“SPL“dG#SoftSPL“每个步骤的预测误差（e-2）#0DeepVO [49]100.4950±139±10.93±0.0265±0(2.40，1.83，1.62）±（0.00，0.00，0.01）1个RGB3.9252±139±10.94±0.0164±1(1.96，1.62，1.37）±（0.02，16137⇥RGB和深度观察都有助于视觉里程计。第1 - 3行研究视觉方式对视觉里程计的作用。我们发现，RGB-D模型（行3）具有较低的每一步的预测误差和较高的导航成功率相比，仅RGB（行1）和仅深度（行2）VO模型。这一发现推翻了这个子领域[53，11]中公认的传统智慧，即RGB模型过拟合7注意，[53]不要在观察和致动噪声下训练，15% SPL因此是一个上限。在推理过程中向前传递多个1，我们进行额外的实验（第5行）。我们随机选择在测试时具有比率p的隐藏单元，并对10次向前传递的结果取平均值。除了明显较差的结果（成功率42%vs.第5行为68% vs. 4），VO模型秒）到行5的8.45FPS。学习具体行动的模型会有所帮助。如第4.1，动作特定模型设计（SepAct）将导航的成功率从68%提高到68%（表4.1）。2第4行）至75%（第8行），同时也改善了其他指标此外，SepAct提高了所有三个分量的VO预测的准确性为了验证这种改善是由于SepAct而不是由于参数计数增加，我们增加了两次消融（第6行和第7行）：1）在第6行中，通过增加ResNet，用比单动作模型（3.93M）多3个参数（12.4M）训练 V O 模型。1613818层宽两倍。注意，我们观察到，对于PointGoal导航，更宽的模型比更深的模型工作得更好比较第8行和第6行，我们可以看到，简单地添加更多参数在成功率（75%到70%）、SPL（56%到52%）以及VO预测方面表现较差; 2）在第7行中，我们通过动作嵌入将统一模型暴露给动作信息，而不是训练单独的模型。成功率（70%至72%）、SPL（52%至53%）和VO预测的性能从第6行增加到第7行，表明动作信息对于此类任务很重要。然而，与第8行相比更差的结果（成功和SPL均下降3分）证实了SepAct的有效性在自运动预测中鼓励几何不变性是有帮助的。如第3.2，VO模型可以受益于利用几何不变性性质。第八排vs.表10中的行。2证实了该技术的有效性：成功率和SPL分别提高2和1分。为了验证这种改进确实源于自监督信号而不是数据增强，我们用简单的数据增强进行消融，用于可逆动作，如左转和右转。具体来说，当训练用于左转的VO模型时，除了使用为左转收集的原始帧对之外，我们还通过反转观察对并计算相应的地面实况SE（2）来利用为右转动作收集的帧。当训练用于右转的VO模型时，应用类似的处理。我们不应用数据增强向前移动，因为不存在代理向后移动选项卡. 2显示，单独的数据增强对导航性能没有帮助（成功和SPL在Tab.第九排vs.第8行）。深度离散化和自顶向下的投影占更令人满意的结果。如图所示。3.3，我们增加深度离散化d-depth以获得更鲁棒的自运动估计。实际上，使用d深度将成功率从77%提高到79%，SPL从57%提高到60%（表10）。2第10排vs.第12行）。为了理解性能是否对d深度的通道的数量具有鲁棒性结果验证了粗离散化损害导航性能（第11行与第12行）。第12行）。然而，当粒度增加（20个通道而不是10个）时，增加更多通道的增益并不显著（第12行对第13行）。第13行）。同时，使用软投影在第二节讨论。3.4优点PointGoal导航将成功率和SPL提高了两个点（第12行与第14行相比）。表18中的行2）的情况。每一个表征特征都是VO不可缺少的为了验证每个输入特征都是必需的，我们通过从VO模型中删除每个特征（RGB，D，

下载后可阅读完整内容，剩余1页未读，立即下载