动态环境下鲁棒的视觉定位方法

63 浏览量更新于2023-10-13 收藏 2.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2791动态环境下鲁棒视觉定位的先验引导丢弃算法黄昭阳1，2徐燕2石建平2周晓伟1包虎军1 * Zhang GuofengZhang1浙江大学CAD CG国家重点实验室†2商汤科技研究摘要从单目图像定位摄像机一直是一个长期存在的问题，但它的鲁棒性在动态环境中仍然没有得到充分解决。与经典的几何方法相比，现代的基于CNN的方法（如PoseNet）已经表现出对光照或视点变化的可靠性，但是它们仍然具有以下局限性。首先，前景移动对象没有显式处理，这导致在动态环境中的性能差和不稳定。第二，每个图像的输出是没有不确定性量化的点估计。在本文中，我们提出了一个框架，可以普遍适用于现有的基于CNN的姿态回归，以提高其在动态环境中的鲁棒性。其关键思想是与自注意模块耦合的先验引导丢弃模块，其可以引导CNN在训练和推理期间忽略前景对象。另外，丢弃模块使得姿态回归器能够输出多个假设，根据所述多个假设，姿态估计的不确定性可以被量化并且在以下不确定性感知姿态图优化中被利用以进一步提高鲁棒性。我们达到了平均水平精度为9.98m/3。63◦在RobotCar数据集上，其性能超过最先进的方法62.97%/47.08%。我们实现的源代码可在https://github.com/zju3dv/RVL-Dynamic上获得。1. 介绍定位是包括机器人、AR/VR、自动驾驶等的许多应用中的基本问题。典型定位场景是装备有传感器的机器人，照相机、激光雷达等，是在一个巨大的* 通讯作者：{bao，zhangguofeng}@ cad.zju.edu.cn†作者来自浙江大学CAD CG国家重点实验室，也隶属于ZJU-SenseTime 3D视觉联合实验室这项工作部分由中国国家科学基金会（NSF）支持。61822310和61672457）和中央大学基础研究基金（编号：61822310和61672457）。2018FZA 5011和2019 XZZX 004 -09）。训练图像测试图像图1. RobotCar数据集的示例图像。训练图像和测试图像中的前地目标是不同的，这在学习相机姿态回归器时引入了偏差，并导致不稳定的定位。大规模城市场景。视觉定位仅需要一个摄像头，与其他定位技术相比，其成本低、适用性广，受到越来越多的关注。传统的几何定位方法[32，14，13]主要使用手工制作的特征和描述符，并且对光照变化、视点变化和动态元素相当敏感，这些在无约束环境中是常见的。最近，卷积神经网络（CNN）在物体和位置识别方面表现出了出色的性能，这也促使研究人员利用CNN在视觉定位中的潜力。已经做出了许多努力来解决传统方法的局限性，这将在第2节中讨论。2.在这些探索中，PoseNet [28]是一项开创性的工作，它利用最初为对象识别设计的CNN来解决相机姿态回归，这已经验证了通过端到端神经网络进行视觉定位我们将这种视觉定位方法称为神经姿态回归器，因为它们通过神经网络直接从图像回归6-DOF相机姿态。目前，大多数视觉定位方法假设环境是静态的，这在实际场景中显然是不正确的。虽然神经姿态回归器没有明确地做出这种假设，但前景移动对象将不可避免地降低它们的准确性和可靠性，如图2所示。1.据我们所知，处理神经姿态回归器的动态对象还没有2792公司简介HxWx1空间注意阻滞HxWxC1x1xC1x1xC/161x1xCfc fc1x1xC二维合并通道注意阻断输入先验引导丢弃特征提取器脱落信心M复合自我注意回归器空间注意图像…不原木频道关注6自由度构成空间元素乘法逐通道乘法Sigmoid激活函数特征图数据流图2.拟议的框架。现代神经姿态回归器[4，28]通常包括特征提取器和回归器（黄色框）。我们提出了一个事先指导的辍学模块和一个复合的自我注意模块（红框），它可以普遍嵌入到现有的神经姿态回归器的架构，以减轻在训练和测试阶段的意外的可移动物体的不利影响在特征提取之前，由dropout模块基于从训练中的对象分割获得的先验概率随机丢弃输入像素在特征提取之后，自注意模块对所提取的特征图重新加权，即2-D注意力权重图和1-D注意力权重向量，以过滤掉误导性特征。最后，姿态回归器从重新加权的特征图预测6-D 0 F相机姿态。在文学中被广泛讨论。一种直观的方法是在将图像馈送到CNN之前从图像中检测和减去前景对象，但是我们的经验结果表明，这种方法的性能很差，因为减法导致了显著的图像模式（例如，尖锐边缘），这将影响学习过程。在本文中，我们提出了一个通用的框架，以提高鲁棒性的神经姿态回归器在动态环境中的两个新的模块，如图所示。2.先验引导丢弃模块基于从对象分割方法获得的指定先验分布随机丢弃像素，并且自注意模块对提取的特征图进行重新加权。利用这两个模型，可以引导神经姿态回归器捕获用于定位的基本特征，并且可以减轻来自移动对象的影响。除了实现高精度，一个强大的本地化应提供预测结果的置信在回归问题中，bootstrap- ping [12，18]经常用于渐近分布估计。类似地，由神经网络预测的姿势的分布也难以分析地跟踪，因此我们提出用由先前引导的丢弃生成的多个假设来近似姿势分布，并且通过利用姿势分布（均值和方差）在不确定性感知姿势图优化中进一步提高鲁棒性我们的主要贡献总结如下：• 我们提出了一个事先指导辍学模块和一个复合自我注意模块，可以自然地应用到现有的神经姿态回归器和指导网络忽略来自前方物体的分散注意力的信息，并专注于背景中的重要地标以进行鲁棒定位。• 我们建议量化的不确定性的姿态估计从多个假设所提出的dropout方法，并将不确定性度量馈送到不确定性感知的姿势图优化中，以进一步提高姿势估计的鲁棒性。• 我们在具有挑战性的RobotCar数据集上报告了最先进的结果，并大幅优于现有方法。2. 相关工作给定图像或视频，视觉定位系统尝试计算相机相对于环境的某些表示（通常称为地图）的位置根据定位目标的不同，视觉定位方法可以分为拓扑定位和度量定位。2793拓扑定位，也称为地点识别，旨在发现查询图像拍摄的地点或位置是否在[30]之前被访问传统上，拓扑定位将地图表示为一组图像。然后，问题被公式化为图像检索，其中基于图像描述符（诸如BoW（词袋）[16]、VLAD [23，9]和Fisher向量[24]）将查询图像与数据库图像匹配。在此框架下，为提高准确性和效率做出了一些努力。例如，FAB-MAP 2.0 [7，8]使用具有BoW模型和概率推断的倒排索引。Schindler等[37]通过分层词汇树加快检索速度[34]。度量定位的目标是计算出摄像机的度量位置和方向。针对该问题的一个值得注意的解决方案是视觉同时定位和映射（VSLAM）[32，14，13]，其能够通过连续地估计图像对之间的相对姿态变换来同时构建地图和定位相机。VSLAM中的地图包含多个3D地标，诸如点、边缘和平面，并且可以通过图像中的2D点与地图中的3D点之间的特征匹配来计算6-D 0 F相机姿态虽然已经取得了显着的效果，但由于外观变化和运动目标，动态环境中的视觉定位仍然非常具有挑战性。一些工作提出了更鲁棒的局部特征，如SIFT [29]和边缘特征[11，22]，它们在某些情况下不受照明，方向和尺度的影响，但这些手工制作的描述符仍然具有有限的可表示性和鲁棒性。近年来，CNN已经显示出其学习更强大的特征或表示的能力[35，40]。在拓扑定位中，Chenet al. [5]是第一个用CNN功能取代手工制作的脚本[29，36，2]的人。在度量定位中，PoseNet[28]提出将环境存储为神经网络中的参数，并从单个图像中回归绝对6- DOF相机姿势从那时起，出现了一堆工作来提高基于CNN的姿态回归器的定位例如，Kendallet al. [26]在PoseNet中引入了一个dropout程序来测量模型的不确定性。Clark等人[6]提出通过双向LSTM（长短期记忆）在视频序列中定位相机Kendall等人[27]设法学习最佳减肥以同时回归位置和方向。Tayyab等人[33]利用3D空间数据增强来减少野外场景中标记数据的不足。最近，Abhinav等人[41]提出学习视觉里程计同时和定位和Brahmbhatt等人。[4]利用相对摄像机姿态作为额外的监督信号以及来自未标记数据的约束。可移动物体的存在是另一个挑战在动态环境中。一些努力致力于消除动态对象的影响。例如，Johns和Yang [25]和Hafez等人。[17]采用BoW模型，过滤掉由特征显著性和特征可靠性决定的无用特征。Wang等人[43]和Donget al. [10]提出了检测运动物体以消除其干扰。Yin和Shi [44]分别对场景的静态和动态部分进行推理，以计算图像对之间的相对姿态。Vijayanarasimhan等[42]对动态场景中的运动对象进行分割，以进行运动估计。据我们所知，目前还没有将动态对象纳入神经姿态回归器的工作。类似于[43，10，25]，我们的目标是减少可移动物体的影响。不同的是，它是很容易降低目标像素的优化方法，而不是直接在神经网络中，所以我们提出了一个事先指导辍学的方法来实现它。3. 该方法最近的工作采用CNN来隐式地学习定位和映射，但它们没有解决场景中的动态对象问题，并且不可避免地将它们建模为地图的一部分，这大大降低了定位精度和鲁棒性。在本文中，我们提出了一个包含三个基本组成部分的框架，先验引导丢弃、复合自我关注和具有不确定性感知PGO（姿态图优化）的姿态细化，以提取可靠的地标并过滤掉来自可移动对象的干扰。图2给出了我们的框架的概述。秒3.1详细阐述了先验分布建模和先验引导丢弃，为网络集中于有价值的地标提供了一个先验然后，一个可学习的注意力模块（Sec. 3.2)嵌入在特征提取器之后，赋予模型选择忠实特征和感知空间差异的能力最后，利用由回归量生成的一组6-DOF姿态预测，我们进一步应用不确定性感知PGO来细化整个序列的姿态，这将在第2节中讨论。三点三3.1. 既往引导脱落神经姿态回归器[28，4]的先前工作倾向于在动态对象（例如，行人）存在于训练或测试帧中，这表明移动对象实际上是污染数据的噪声特征。如示于图1，因为可移动车辆占据视图中的显著部分并且总是保持在图像序列中，所以如果不提供特殊监督，则网络将容易地将它们视为地标。我们认为，神经姿态回归器应更多地关注场景的不变特征，并降低污染特征的权重。2794图3.给出了不同阈值T下的丢失概率的CDF。在相同的T下，较大的μ减小P（x T;μ），这意味着属于可移动对象的概率较高的像素将更有可能被丢弃如果T= 0，则丢弃所有像素，如果T= 1，则保留所有像素。Dropout [39，20]是减轻过拟合的常见策略，其中指定给特征的Dropout概率可以被视为重要性权重。另一方面，深度神经网络是一种映射，其中辍学可以被视为后验估计的贝叶斯近似[15]。为了引导神经姿态回归器集中于有价值的特征并评估后验姿态分布，我们添加了Alg. 1在神经姿态回归器的开始处。更具体地，dropout模块为输入图像中的每个像素生成随机数X，并且如果X小于预定义阈值T，则将像素值设置为零。随机数是从高斯分布生成的，其均值和方差是空间变化的，这取决于训练图像中的前景对象所占据的频率。这种先验引导的丢弃模块既提高了模型的鲁棒性，又为每个预测的姿态提供了不确定性测量。信息先验可以有益于回归和贝叶斯推理。在dropout模块中，先验信息由高斯参数表示，高斯参数决定了dropout概率，因此我们还提出了一种统计策略来计算参数。首先，我们应用现成的分割方法，即 Mask R-CNN [19]，为每个训练图像I k生成二进制掩码mk，其中如果像素（i，j）属于前景对象，则m k（i，j）= 1，否则mk（i，j）=0。然后，通过下式从掩模m，k计算像素（i，j）的参数：.μ（i，j）=1n mk（i，j）图4.在自我注意模块之前和之后的激活图使用PGD（先验引导丢弃），注意模块之前的特征图突出显示了图像中被公共汽车占据的区域，而之后的特征图集中在门和墙壁上，这表明我们提出的自我注意模块成功地完全抓住了本质特征。没有PGD的特征图的CDF（累积分布函数）的辍学概率，如图所示。3从Q函数推导出：P（x T;µ）=F（T;µ，σ）=1−Q（T−µ）（2）σ其中F表示高斯分布的CDF。算法1先前引导的脱落输入：I（i，j）：像素（i，j）的图像强度μ（i，j），σ2（i，j）：先验高斯分布参数T：预定义阈值输出值：O（i，j）：输出图像中分配给（i，j）的强度对于所有（i，j）做x←从N（μ（i，j），σ2（i，j））如果x T，则O（i，j）= 0其他O（i，j）=I（i，j）结束if结束for3.2. 复合自注意模块最近，神经姿态回归的网络架构n k=1（一）σ2（i，j）=µ（i，j）（1 −µ（i，j））其中n表示训练图像的数目。问题是先验可能是有偏的，检测器的错误检测或泄漏检测，因此我们设置阈值T以平滑地移动用于偏差补偿的总体概率。理论上，阈值T控制形状SOR主要包括两个阶段，即，一个特征提取器和一个全局平均池化，随后是一个全连接回归器。这些工作利用了来自图像分类任务的迁移学习，但除了好处之外，神经姿态回归器应该对噪声更具鲁棒性并感知空间信息，这些信息被全局池化混淆。考虑到这两个因素，我们建议注意事项前关注后不含PGD关于PGD（2795一期+1我我我我在全局平均池化层之前嵌入包含空间注意力块和信道注意力块的复合自注意力模块。在空间注意力块中，如图2所示。1，网络自发地从输入特征图学习1通道空间权重图，然后在空间上对输入特征重新加权以生成最终输出。该机制赋予模型自动选择要关注的有价值位置的能力。更多- over，灵感来自胡等人的工作。[21]我们雇用相对姿态绝对姿态高方差姿势低方差姿势恒定PGO变分PGO通道注意模块中的SE块，其使模型能够过滤掉无价值的特征通道。图4呈现了视觉上增强的比较，以示出具有/不具有先前引导的丢弃的自我注意模型之前/之后的特征图，这表明先前引导的丢弃帮助自我注意图在合理区域中实现更强的响应，而原始的特征图集中在可移动总线上。因此，复合自我注意模块进一步增强了模型实验结果表明，该方法在移动目标密集的环境下，提高了算法的收敛速度和预测精度图6.我们提出的姿势序列组成的相对姿势从视觉里程计和绝对姿势从神经姿态回归。常数PGO为每个姿势分配相等的权重，而变分PGO中的绝对姿势的权重由优化期间估计的方差的倒数给出。因此，当方差被准确估计时，变分PGO可以有益于准确性。国王学院圣玛丽教堂商店门面全回路（，）图7.我们呈现五个场景的µ参数图像。在国王在RobotCar数据集中，可移动物体更频繁地出现在道路两侧或汽车前方。国王图5.姿态分布估计。我们为每个输入图像生成多个假设，并估计均值和方差。E（p*，θ*）=ΣNwpL（p*，p）+wθL（θ*，θ）i=1ipii我θ ii（三）+ΣN−1wt L（v*， t） +wδ L（r*，δ）3.3. 不确定性感知PGOi=1it ii我δ我我Lp（p*，pi）=虽然我们训练了一个对噪音更鲁棒的模型，但在-塞济岛L（θ*，θ）=由运动物体引起的稳定性仍然无法避免在动态环境中。因此，一个强大的视觉-θiiiiL（v*，t）=Tiiii（四）标定系统不仅应提供照相机姿态，而且测量不确定性，所以我们建议Lδ（r*，δi）=∗ ∗通过先验引导来评估渐近姿态分布v=R（θ）T（p*-pi）rdropout（图（五）。由神经姿态重新提供的定位结果i i+1i其中i表示图像的索引，p*和θ*是绝对的我我gressor长期保持一致性，但偶尔会出现故障，位置和方向有待优化，vi和ri相对较低。而视觉里程计（VO）给出的相对位姿是根据p*，p*，θ*ii+1i可靠的图像对之间，但将与漂移图像序列增长，因此我们提出通过最小化以下能量函数来将姿态与PGO融合：和θi+1。 pi、θi是绝对位置和方向由神经姿态回归器预测ti、δi表示i和i+1的姿态之间的相对平移和旋转不回归器2796回路我我我我场景PoseNetA-PoseNetD-PoseNetAD-PoseNetAD-PoseNet+CPGOAD-PoseNet+VPGO充分46.61m，10.45◦62.46米，11.95◦38.56m，10.45◦33.82m，6.77◦二十七岁35米，6.88◦27.37米，6. 18◦回路7.90m，3. 53◦12.55m，4.63◦7.57米，3. 61◦6.40m，3.09◦7.04米，3. 03◦六、49米，2. 80◦平均27.26米，6.99◦37.51m，8.29◦23.07米，7.09◦20.11m，4.93◦17.20m，4. 96◦十六岁93米，4.49◦场景MapNetA-MapNetD-MapNetAD-MapNetAD-MapNet+CPGOAD-MapNet+VPGO充分44.61米，10.38◦30.02米，6.97◦32.64m，10.07◦19.18米，4.60◦18.84米，13. 73◦十四岁85米，4.30◦回路9.29米，3. 34◦8.41米，3. 41◦9.72米，3. 77◦6.45m，2.98◦6.37m，3. 12◦五、10米，2. 96◦平均26.95m，6.86◦19.22米，5.19◦21.18米，6.92◦12.82米，3.79◦12.61米，8. 43◦9 .第九条。98米，3. 63◦表1.RobotCar数据集上的消融研究PoseNet [27]和MapNet [4]用作基线模型。A和D表示复合自注意力和先前引导的辍学。如表中所示，单独的复合自注意模块实现了微小的改进（A-MapNet），甚至可能导致过拟合（A-PoseNet，图1B）。8），和先前的引导辍学单独带来一定的改善（D-PoseNet，D-MapNet），但这两个模块的合作，提高了性能（ AD-PoseNet ， AD-MapNet ）。此外，我们的 VPGO （变分 PGO ）算法进一步提高了准确性。通过与 CPGO（ConstantPGO）算法的比较，验证了方差估计和VPGO算法的有效性请注意，我们提出的整个框架（AD-PoseNet+VPGO和AD-MapNet+VPGO）分别比基线（PoseNet和MapNet）高出37.89%/35.77%和62.97%/47.08%。场景空间范围PoseNetAD-PoseNet贝叶斯PoseNet密集PoseNetDist. 到NN国王140×40m1.61米，2.95◦1 .一、30米，1. 67◦1 .一、74米，4.06◦3.34米，5. 92◦1.66米，4.86◦圣玛丽80×60m2.14米，5.06◦2.28米，4.80◦二、11米838◦2.45米，7. 96◦4.48米，11.3◦店铺外观35× 25米1.55米，4.64◦1 .一、22米，6. 17◦1 .一、25米，7.54◦1.41米，7. 18◦2.10米，10.4◦平均1.77米，4.22◦1 .一、60米，4. 21◦1 .一、70米，6.66◦1.84米，6. 67◦2.74米，8.85◦表2.与剑桥地标相关作品的比较PoseNet [27]，Bayesian PoseNet [26]和Dense PoseNet [28]是最先进的神经姿态回归器。Dist.到NN是在[28]中引入的拓扑定位方法。我们的框架提高了PoseNet的位置和方向，并实现了最先进的性能。与其他序列相比，国王学院序列中的性能已经得到了很大的改善，因为它的先验提供了更多的信息（见图1）。（七）.充分时代时代图8.训练损失比较。D-PoseNet为PoseNet提供了先验引导丢弃，AD-PoseNet进一步在D-PoseNet中插入复合自注意模块复合自注意力模块有助于PoseNet和MapNet实现更低的训练损失和更快的收敛。由VO提供。Lp，Lθ，Lt和Lδ是损失函数，wp，wθ，wt和wδ是损失权，R将θ映射到旋转矩阵，log将李群SO（3）映射到其切空间，即李代数so（3）.Brahmbatt等[4]介绍了一种恒定的PGO方法，该方法使用等效权重来平滑时间序列中的姿态。该算法的关键缺陷是良好预测的姿势将被错误地拖动。相比之下，我们提出了一种变分PGO，它将估计方差的倒数分配给绝对位姿的损失权重，即wp和wθ。如示于图6、绝对姿势搭配4. 实验在本节中，我们首先介绍了我们实验的数据集，然后展示了一个全面的消融研究，以评估每个拟议的组件。最后与现有技术进行了比较。补充材料中提供了一些实施细节和更多的实验结果。4.1. 数据集我们在两个公开可用的数据集上评估了我们的方法：剑桥地标[28]和牛津机器人。我我高变化将容易地被相对姿势拖动，低方差有助于它们在变化的PGO中保持静止，因此方差的良好测量可以进一步提高预测姿态的准确性。训练损失训练损失训练损失训练损失2797车[31]，并保持与以前的作品一致，我们计算 Cambridge Landmarks 上的中值误差和 OxfordRobotCar上的平均误差。剑桥地标包含几个短的图像序列捕捉在不同的-2798场景DSACORB-SLAM2DBoW3立体声VOPoseNetMapNetAD-MapNet充分N/AN/A222.49米，33.80◦80.32m，13.73◦46.61m，10.45◦44.61米，10.38◦19号。18米，4. 60◦回路N/AN/A7.88m，3. 87◦22.42米，45.50◦7.90m，3. 53◦9.29米，3.34◦六、45米，2.98◦平均N/AN/A115.19米，18.84◦51.37米，29.62◦27.26米，6.99◦26.95m，6.86◦12个。82米，3. 79◦表3.与牛津机器人车相关作品的比较。DSAC [3]需要一个密集的3D模型，所以它不能从RGB图像中找出姿势。ORB-SLAM 2[32]是一种基于几何的定位系统，需要很长时间才能初始化，并且在汽车转弯时无法跟踪DBoW3 [1]是一种拓扑定位方法，它在循环上比在完整上工作得更好，因为完整更具动态性（这也是我们的模型在完整上实现更多改进的原因）。立体VO的轨迹由Oxford RobotCar数据集提供，并且我们在将其与地面实况对齐后计算其准确度。我们的模型（AD-MapNet）优于以前的作品，并在完整和循环上实现了卓越的精度。全回路位置偏差方向方差位置偏差方向方差图9.我们使用AD-MapNet采样9次，以估计RobotCar数据集上的后验姿态分布，包括位置和方向的均值和方差。由平均姿态和方差给出位置和颜色的散射点表明，较高的方差表示较低的定位精度，这意味着由我们的方法提供的方差是一个很好的不确定性度量。详细的差异分析见补充文件。损失函数由下式给出loss（x，x）=||p−p||e−β+β+||θ−θˆ||e−γ+γ（5）1 1表4. AD-MapNet的定位精度，在表中给出了等式T。P和U分别表示先验引导丢弃和均匀丢弃。P和U的精度差异表明，先验引导丢弃优于均匀丢弃，这验证了先验引导丢弃模块的有效性T= 0。2和T= 0。1是全循环和循环的最佳选择，更高和更低的T都会降低性能。证明了T是一种有效的零偏补偿方法。输入位置，以及由结构从运动计算的相应姿势地面实况。国王Oxford RobotCar包含100多个序列，这些序列由配备传感器的汽车从英国牛津的一致路线捕获。视频序列中充满了复杂的交通状况和大量的可移动物体，如车辆和行人。根据Brahmbhatt等的先前工作。[4]我们从构成两个不同场景的整个数据集中提取几个序列来进行实验，即，完整和循环。4.2. 实验装置根据Brahmbhattet al. [4]在我们所有的实验中，我们应用单位四元数的对数，即，θ=log q，以测量相机方向，并使用其中x=（p，θ）表示相机姿态的地面实况由位置p和方向θ组成，x=（p，θ）表示预测的相机姿态，而β和γ是两个可学习的参数以自适应地平衡位置损失和方向损失。具体来说，我们使用Mask R-CNN [19]来分割包括六个类别的可移动物体（即，公共汽车，汽车，人，自行车，卡车和摩托车）生成二进制掩码，基于该二进制掩码，高斯分布的参数（图1）。7）如第2节所述计算。3.1，并且在先前引导的丢弃中使用的丢弃阈值T被设置为0.2。4.3. 消融研究我们进行了彻底的消融研究，以证明每个建议的模块的有效性。为了证明所提出的模块的通用性，我们通过将其应用于最先进的姿态回归器PoseNet [28]和MapNet [4]来测试我们的方法。我们通过将所提出的模块顺序地添加到原始神经姿态回归器来评估我们的方法的有效性，即，PoseNet和MapNet，并逐步评估其性能。更具体地说，表中的D-* 和A-*。1表示在训练中仅应用了先验引导的丢弃或自我注意模块的模型，并且以前缀“AD”命名的模型（self-attention）表示在训练中仅应用了先验引导的丢弃或自我注意模块的模型。场景T=0.05T=0.1T=0.2T=0.4全部（P）◦29.74米，8. 86◦25.20m，9. 31◦19.18米，4. 60◦33.03米，7. 59环（P）◦6.62米，3. 05◦5.65m，2. 53◦6.45m，2. 98◦6.51m，3. 06完整（U）48.35米，12.58◦54.81m，13.95◦53.69米，13.25◦46.53米，11.69◦2799完整：小行星341289562米地面实况地图网GroundTruthAD-MapNet地面实况AD-MapNet+VPGOLoop-Seq 1：3438帧1120米循环Seq2：3040帧1120米44.61（m）/10.38（）8.09（m）/2.71（）10.65（m）/4.05（）19.18（m）/4.60（）4.52（m）/2.27（）8.60（男）/3.79（女）14.85（m）/4.30（）3.96（男）/2.45（女）6.38（m）/3.54（）图10. MapNet、AD-MapNet和AD-MapNet+VPGO在完整和循环上给出的定位结果的比较。由于循环测试中有两个序列（Seq 1为2014-06-23-15-36-04，Seq 2为2014-06-26-08-53-56），我们分别对它们进行PGO。与MapNet相比，AD-MapNet显著减少了故障定位结果，并且AD-MapNet+VPGO由于高度机密的方差估计而收敛了大多数离群值我们的框架将MapNet在2014-12-09-13-21- 02 （完整）上提高了 66.7%/58.6% ，在 2014-06-23-15-36-04 上提高了 51.1%/9.6% ，在 2014-06-26-08-53-56 上提高了40.0%/12.6%。注意和先前引导的丢弃）配备有先前引导的丢弃和自注意模块两者。此外，我们的增强的 PGO 方法（*+VPGO）描述于Sec.2010。3.3通过与Brahmbhatt等人采用的版本（*+CPGO）进行比较，也评估了。[4]，其对等式中的每一项使用恒定权重。（三）、VPGO中使用的均值和方差是通过先验引导的脱落测试来计算的。如表1所示，随着完整性的增加，准确性得到改善。我们研究了阈值T和先验引导丢弃模块对表4中所示的预测结果的影响，这表明先验引导丢弃对过滤掉不相关对象并提高定位精度具有积极影响。此外，我们可视化的预测精度和方差之间的关系如图所在图9中，具有较低方差的预测倾向于更接近地面实况轨迹，而具有高方差的预测偏离轨迹。预测准确度与方差之间的3.3.如图所示。10，我们提出的VPGO纠正预测远离轨迹的全局优化，这意味着-有效地提高了定位精度和鲁棒性。4.4. 与相关作品的比较我们比较了剑桥地标和牛津RobotCar数据集上的最新作品，如表所示。2、桌子。3.3.实验结果表明，现有的神经姿态回归器受动态对象的影响较大，而我们的框架显著提高了神经姿态回归器在动态环境中的鲁棒性，并在具有挑战性的RobotCar数据集上大幅5. 结论提出了一种新的视觉定位框架，该框架显著提高了现代神经姿态回归器在动态环境中的准确性和鲁棒性，特别是在复杂的城市交通中。先验引导丢弃策略和自注意策略的结合是非常有用的，并且可以很容易地结合到现代神经网络中这些模块也可能对其他任务有用，其中数据被粗差污染，粗差的分布可以通过一些其他方法从数据中预先计算出来。2800引用[1] DBoW3.2017.https://github.com/rmsalinas/www.example.com[2] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。SURF：加速了强大的功能。欧洲计算机视觉会议论文集，第404-417页。Springer，2006年。[3] Eric Brachmann、Alexander Krull、Sebastian Nowozin、Jamie Shotton、Frank Michel、Stefan Gumhold和CarstenRother。用于相机定位的DSAC可微分RANSAC在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第6684-6692页，2017年。[4] Samarth Brahmbhatt，Jinwei Gu，Kihwan Kim，JamesHays，and Jan Kautz.用于相机定位的地图的几何感知学习。在IEEE计算机视觉和模式识别会议（CVPR）集，第2616-2625页[5] Zetao Chen ， Obadiah Lam ， Adam Jacobson ， andMichael Milford.基于卷积神经网络的地点识别。arXiv预印本arXiv：1411.1509，2014。[6] Ronald Clark ， Sen Wang ， Andrew Markham ， NikiTrigoni，and Hongkai Wen. Vidloc：一个用于6-DoF视频剪辑重新定位的深度时空模型。在IEEE计算机视觉和模式识别会议，第2652-2660页[7] 马克·卡明斯。高度可扩展的仅外观SLAM-FAB-MAP2.0。在Proceedings of Robotics：科学与系统（RSS），2009年。[8] 马克·康明斯和保罗·纽曼。使用FAB-MAP 2.0进行大规模的仅外观 The International Journal of RoboticsResearch，30（9）：1100[9] JonathanDelhumeau 、 Philippe-HenriGosselin 、 Her ve'Je'gou 和 PatrickP e'rez 。重新访问VLAD 图像表示。在Proceedings of the 21st ACM international conference onMultimedia，pages 653-656中。ACM，2013年。[15] 亚林·加尔和祖宾·加赫拉马尼。Dropout作为贝叶斯近似：在深度学习中表示模型的不确定性。国际机器学习会议论文集，第1050-1059页，2016年[16] DorianGa'l v ez-Lo' pez和JuanDTardos。用于图像序列中快速位置识别的二进制字包 IEEE Transactions onRobotics，28（5）：1188[17] A. H.放大图片作者：Abdul Hafez，Manpreet Singh，K.Madhava Krishna和C.诉贾瓦哈高度拥挤城市环境中的视觉定位在IEEE/RSJ International Conference on IntelligentRobots and Systems 的论文集，第 2778-2783 页中。IEEE，2013。[18] Josiah P Hanna，Peter Stone，and Scott Niekum.引导带型号：政策外评估的置信区间。在第16届Au-Agents和MultiAgent系统会议的会议记录中，第538-546页。国际自治代理和多代理系统基金会，2017年。[19] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick. 面具 R-CNN 。 IEEE InternationalConference on Computer Vision（ICCV），第2980-2988页。IEEE，2017年。[20] GeoffreyEHinton，NitishSrivastava，AlexKrizhevsky，Ilya Sutskever，and Ruslan R Salakhutdinov.通过防止特征检测器的协同适应来改进神经网络。arXiv预印本arXiv：1207.0580，2012。[21] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，7：7132[22] Marco Imperoli和Alberto Pretto杂乱环境中无纹理目标的主动侦测与定位。arXiv预印本arXiv：1603.07022，2016。[23] 她的名字是 MatthijsDouzeCordeliaSchmid 和 Patrick Pérez。将局部描述符聚集成紧凑的图像表示。在IEEE计算机视觉和模式识别会议（CVPR）中，第3304-3311页IEEE，2010。[10]董俊峰、W.Sardha Wijesoma和Andrew P.窝棚-[24]第二十四话Je' gou，FlorentPerronnin，MatthijsDouze，Jorr ge锁.扩展的RAO-Blackwellised遗传算法滤波器SLAM在动态环境中与原始传感器测量。在 IEEE/RSJInternational Conference on Intelligent Robots and Systems的会议记录中，第1473-1478页IEEE，2007年。[11] 伊森·艾德和汤姆·德拉蒙德Monocular SLAM中的边缘标志Image and Vision Computing，27（5）：588-596，2009.[12] 布拉德利·埃夫隆Bootstrap方法：再看一下折叠刀在统计学的突破，第569-593页。Springer，1992年。[13] Ja k obEngel，J o¨r gStu¨ ckle r，andDanielCremers.大规模的直接SLAM与立体摄像机。在IEEE/RSJ智能机器人和系统国际会议（IROS）的会议记录中，第1935-1942页。IEEE，2015年。[14] Christian Forster，Matia Pizzoli，and Davide Scaramuzza.SVO：快速半直接单眼视觉里程计。IEEE机器人与自动化国际会议（ICRA），2014年。桑切斯，帕特里克·佩雷斯，和科迪莉亚·施密德。将局部图像描述符聚集成紧凑代码。IEEE传输模式分析马赫内特尔，34：1704[25] Edward Johns和Guang-Zhong Yang。特征同现图：全天基于外观的定位在 IEEE International Conference onRobotics and Automation（ ICRA）中，第 3212IEEE，2013。[26] 亚历克斯·肯德尔和罗伯托·西波拉在深度学习中对相机重新定位的不确定性在IEEE机器人和自动化国际会议（ICRA）的会议录中，第4762-4769页。IEEE，2016.[27] Alex Kendall，Roberto Cipolla，等.使用深度学习进行相机姿态回归的几何损失函数。在IEE

下载后可阅读完整内容，剩余1页未读，立即下载