基于不确定性估计的视觉里程计

130 浏览量更新于2023-10-16 收藏 2.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2518基于不确定性估计的逐陈浩伟，廖廷轩，杨宣功，李俊义，计算机科学国立清华大学，台湾新竹{jaroslaw1007，tingforun，hellochick，cylee} @ gapp.nthu.edu.tw摘要本文介绍了基于像素预测的视觉里程计（PWVO），这是一个密集的预测任务，评估其输入观测中每个像素的平移和旋转值。PWVO采用不确定性估计来识别输入观测中的噪声区域，并采用选择机制来整合基于估计的不确定性图的逐像素预测以导出最终的平移和旋转。为了以全面的方式训练PWVO，我们进一步开发了用于生成合成训练数据的数据生成工作流程。实验结果表明，PWVO能够提供良好的结果。此外，我们的分析验证了PWVO中所采用的设计的有效性，并表明PWVO估计的不确定性地图能够捕获其输入观测值中的噪声。关键词-视觉里程计，不确定性估计，像素预测。1. 介绍视觉测距是通过分析相关的摄像机图像来推断像素或特征的对应关系，并确定机器人的位置和方向的过程。常规地，VO的过程将原始RGB图像作为输入，从它们导出对应性，并且估计连续图像帧之间的相机视点的平移和旋转的变化。这个过程使机器人能够从一段时间内观察到的图像中获得整个轨迹。在过去的十年中，文献[1-22，22-29]中提出了许多VO方法。然而，从原始图像估计这种变化的要求通常导致这些方法遭受来自移动对象的噪声的存在，因为从那些移动对象提取的对应可能不直接与相机视点的运动相关。这导致执行VO时的准确度降低限制了现有方法的进一步改进。为了解决上述问题，本文的目标有两个：（1）验证运动物体的噪声会降低VO的性能，（2）研究并提出一种有效的方法来减轻它们的影响。在这项工作中，我们没有采用基于原始RGB输入的VO框架[1具体来说，我们的目标是推导和验证我们的方法的基础上明确的中间representations，解耦的影响不准确的功能和对应的特征提取过程。实现上述目标的第一步是开发一种机制，该机制允许过滤掉或抑制来自这些中间表示的移动对象的噪声。过去的研究人员探索了三个不同的方向：（i）语义掩码，（ii）注意机制，和（iii）不确定性估计。其中，语义掩码需要另一个单独的分割模型来发现潜在的移动对象（例如，汽车、行人等）[32-35]。注意机制从中间表征中寻找可能的候选者的线索[21，26-29，32，36-39]。另一方面，不确定性估计隐含地捕获噪声，并使模型能够响应观测中固有的测量随机性[11，22，40-45]。所有这些方向都在VO领域中进行了尝试。尽管如此，以前的努力只集中在预测一组平移和旋转值从他们的输入观察，忽略了丰富的信息隐藏在像素。鉴于这些原因，我们建议采用不确定性估计作为杠杆作用，年龄等信息的手段，并进一步扩展VO基于像素的预测。这个概念可以被视为一个注意力机制的内隐形式。与传统的VO方法不同，2519∈∈∈∈R∈ T ∈RT我我我我我我基于预测的VO（或以下简称为PWVO首先对输入观测中的所有像素进行预测，然后将这些局部预测集成为全局预测。由于PWVO基于逐像素预测，因此这种性质允许其通过使用不确定性图来抑制噪声区域。具有高不确定性的区域很可能是噪声（例如，移动对象），并且在最终的全局预测中不应被考虑。因此，加权和选择策略是专门为PWVO定制的，以聚合来自其输入像素的局部预测。为了验证PWVO的优势，我们进一步开发了一个数据生成工作流程，其特点是高度的自由度，以生成PWVO的中间表示。工作流程是完全可配置的，并且允许相机内在、视点运动、外在范围的各种设置，以及移动对象的数量、大小和速度的各种范围这种灵活性使训练数据更加全面，并防止PWVO过度拟合某些现有数据集的设置。在我们的实验中，我们研究PWVO的有效性，其准确性，显着性地图，以及分解的光学地图。我们进一步提出了一组消融分析，以证明PWVO采用的设计决策本文的主要贡献是在VO中引入像素预测，以及数据集生成工作流程。本文的结构如下。第二节回顾了相关工作。在文献中。第3节介绍PWVO框架及其组件。第4节描述了数据集生成工作流程。第5节报告了实验结果。第6节讨论了限制-位置和方向误差的定义。文献中还介绍了采用几何重投影误差[13]和视觉此外，[17，20]中的作者试图用额外的合成数据训练他们的模型，而[4]中的作者使用递归神经网络从视频中训练他们的VO模型。此外，[5]中提出的技术采用了端到端的方法，使用LSTM网络将相机输入与惯性测量单元（IMU）读数这些基于图像的定位方法大多通过从输入图像中检索信息来执行VO。因此，特征提取对它们的性能至关重要，这反过来又影响它们对具有挑战性的场景的可推广性。为了减少特征提取阶段的影响，一些研究人员[23-25]提出使用光流图作为输入，而不是RGB图像。作者在[24]中进一步提出利用自动编码器网络来学习其光流图的更好表示。为了消除来自输入观测的噪声VO方法[22，41，44，45]也可以从输入观测中减轻移动物体的3. 方法在本节中，我们首先正式定义我们的问题形式，并提供PWVO框架的概述接下来，我们描述PWVO的两个组成阶段。最后，我们介绍了改进策略以及总损失项，并详细说明了它们背后的原理。3.1. 问题形成给定光流场Ftotal∈RH×W ×2，未来的方向和方向。第7节结束了论文。请注意，重要的背景材料，超-地图（Di，D一期+1）∈RH×W×1我二维像素坐标参数设置、附加结果和我们的可复制源代码在补充材料中提供。2.相关工作传统的虚拟现实方法都是基于多视图几何模型的。根据它们采用的算法，这些方法可以大致分为基于特征的方法[46-48]或直接方法[49-51]。前者通过使用纵坐标xRH×W ×2，摄像机固有KiR3×3，所提出的PWVO框架旨在预测相机旋转的元组γiR3和翻译其中i表示帧索引，并且H、W分别表示输入帧的高度和宽度。为了实现上述目标，PWVO首先执行摄像机运动的逐像素预测（pixel-wise prediction），其中iRH×W×3和RHRH×W ×3对应到逐像素旋转和平移映射，分别，活泼地此外，PWVO还生成了一个uncer-稀疏的关键点，而后者试图恢复凸轮，污点映射元组（UR，UT），其中UR∈RH×W ×3，ERA通过最小化图像扭曲的摄影测量误差来构成。如果绝对深度尺度未知，则这两类都遭受尺度漂移问题。作者在[2，3]中，他率先使用卷积神经网络（CNN）来学习具有各种类型的损失函数和模型架构的相机姿态估计作者在[5，10，15，16]中提出通过加权组合直接回归六个自由度（6-DoF）相机姿势UT ∈RH×W×3，以反映不确定性（即，噪声）。预测的（Ri，Ti）然后与（UR，UT）一起使用以得出最终的（γi，γi）。3.2. PWVO框架图图1示出了所提出的PWVO框架，其由两个阶段组成：（i）编码阶段和（ii）逐像素预测阶段。编码阶段的功能是2520我URTU我U我我我我我x通过三个不同的分支，然后按照通过编码器来变换级联的特征Em，LR=我我U/R（p）+logg（UR（p）），（2）LT我=我 +logg（UT（p）），（3）我我对应ii+1LrotL transsoftmax光流F总我！iφi解码器-RT逐像素RT图RiTi补丁程序选择模块刚性流动模块深度图DiDi+1W）conv级联编码器解码器-un不确定性贴图U我自我流量预测iF深度预测˜自我W）convLLflowL深度像素坐标流编码级逐像素预测阶段（H，（H，0）（0，0）（0，1）（0，（1，0）图1：拟议的PWVO框架概述为了对输入进行编码（即， Ftotal，Di，Di+1，和x）通过一系列卷积运算转换成特征嵌入矩阵，该特征嵌入矩阵承载隐藏在输入中的运动信息。然后将该嵌入转发到逐像素的预测阶段，通过两个分离的分支生成（R2i，R2i）和R2i。利用不确定性映射图来重新计算反射输入中包含的噪声。另一方面，在一项研究中，由Ftotal提供的坐标信息和由x提供的坐标信息可以彼此互补。3.4. 逐像素预测阶段逐像素预测阶段首先利用两个解码器Decoder-rt和Decoder-un，如图10所示。图1，分别将上采样到（Ri，Ti）和（UR，UT），我我预测的（Ri，Ti）和Ui随后被馈送到选择中，模块，其采用补丁选择过程来MIT-通过参考α i来计算可能潜在地包含移动对象的区域的影响，并且聚合加权预测以得出最终的（γi，γi）。为了进一步细化预测的（γi，γi），PWV O另外重新并构造了一个电子流预测F∈ go∈RH×W×2活泼地在下面的小节中，我们将详细介绍分布学习过程和选择模块。3.4.1分布式学习PWVO中的分布学习过程旨在学习旋转的后验概率分布，作为深度ma pD<$i+1∈我RH×W×1基于（γi，γi）。的每个像素的平移。假设噪声是mod-然后将重构的F_ ego，D_i+1和（γ_i，γ_i）与它们的i个地面真值标签F_ego，D，和（γi，γi）分别对模型参数进行该过程可以通过杠杆化[40]中讨论的深度神经网络（DNN）的异方差任意不确定性的概念来执行更具体地，（R，T）和（UR，UT）一起学习，最小化所有像素的损失项LR和LT，3.3.编码级我我可以表示如下：编码级首先转发Ftotal、Di、Di+1和Di +1，1Σ我NER（γ，Rp）我我从三个分支的输出中取出床层，在除了流量和深度信息，最后一个分支1ΣET（，Tp）我我的编码阶段是设计来封装的位置，X的基本线索这种封装过程允许PWVOINp=1UT（p）学习翻译依赖性[52]，并表示为：Xp=K−1xp，Ki∈R3×3，xp∈R3，N∈R（H×W），（1）其中，ER（x，y）=<$x−y <$$>和ET（x，y）=<$x<$− <$y <$$>+（<$x<$2− <$y<$2）2用作旋转和平移的损失函数分别表示欧几里得正规化，我我我其中，（Rp，Tp）和（UR（p），UT（p））表示哪里表示像素索引，p表示三个di，我我我pXi在胶片空间中的三维坐标，并且N是像素编号H×W。当量(1)揭示了第三支分别是像素p处的旋转和平移请注意（UR（p），UT（p））是隐式学习的，第二个编码阶段允许摄像机的信息trinsic和x将被带入εr。这可能有助于PWVO更好地理解位置和平移依赖性，因为运动特征在Eqs。(2)（3）规范其规模。损失函数允许PWVO针对不同像素调整其不确定性估计，这反过来又增强了其对噪声数据或错误注释的鲁棒性。NPWVO中的θ通过反向传播。Np=12521×××我LW我ΣΣL<$R=1<$exp（−s<$R（p））·ER（γ，R<$ p）+s<$R（p），（四）我我我我我我我我我我我我很我很我很N我我WlT，m·ntl，m（pTl，m），Di+1我我我我Σ2UULL我我LLLLRNl=1m=1（七）在实践中，解码器-un被修改为预测对数方差，并且等式（2）-（3）改写如下：INip=1N我我我逐像素预测逐块选择图2：选择LT=1<$exp（−s<$T（p））·ET（n，T<$ p）+s<$T（p）。（五）module.INip=1我我我和D一期+1优化两个阶段其中s<$Ri（p）=lo g（<$R（p）），s<$Ti（p）=lo g（<$T（p））。这种修改允许PWVO的训练进度比原始公式更稳定，因为它避免了重新计算的错误。由除以零得到的。此外，指数映射使得PW_V_O能够回归无约束的s_R_i（p）和s_T（p），因为e_xp（·）保证了输出是无约束的。的PWVO。PWVO的总损失可以用公式表示为：L总=LR+LT+LD+LF，（8）式中，EHD和EHF分别表示自我流和深度重建请注意，两个损失函数LD和LF的详细公式我我我在补充材料中提供。3.4.2选择模块图图2说明了选择模块背后的机制，其目的是从（Ri，T i）导出（γi，γi），（UR（p），UT（p））。它采用了一个分层的定义过程-增加两个损失术语（即，（D）在Eq. (8)可以从两个不同的角度来解释-观点。首先，从2D坐标到3D坐标的重新投影可能潜在地导致模糊问题如果不考虑深度信息。秒-在此期间，首先将帧的H W像素分组为大小为k k像素的h W块，其中h=H/k，w=W/k。然后可以直接从原始图像中提取每个面片1，并且表示为（u_rl，m，u_tl，m）和（u_Rl，m，其次，由于PWVO的逐像素设计，优化目标对于每个像素坐标应该是不同的，因为每个像素的位置和深度是不同的。作为一个重新-结果，只优化（R，T）而不考虑深度其中l和m表示a某个补丁选择模块接下来选择每个块内具有最低不确定性值的像素，表示为：=a rgmin（u<$R），pT=a rgmin（uT），并且位置信息可能不足。这些是PWVO的最终优化目标中包含了CNOD和CNOF第5.2.3节提供了消融分析，以验证这些损失项的有效性。其中R我很不我很我很我很有趣的是，优化目标的部分设计p1，m和p1，m是对应于patch（l，m）的像素索引。y用于将最终的（γi，γi）定义为：[53][54][55][56][57][58][59这是因为LF中的重投影误差Ei可以是我γ=100WR ·Δr（pR），exp（u∈Rl，m（pRl，m））计算为Fe go和Fego之间的L2损失，通过以下公式计算：Ei=Fe go（p）−Fego（p）<$2Wl，m=Hhl=1wm=1 exp（u）Rl，m.（pRl，m））我我p=1NΣ Σ=Σǁ(1KM Xp−xp)−(Fego(p))ǁ,(9)exp（u∈Tl，m（pTl，m））WT=.因此，LF隐式地引入了几何约束我很hl=1wm=1 exp（u）Tl，m（pTl，m））改进了（γi，γi）的估计。argminSoftmax层l=1m=1（六）ϕ˜i=p=12522分层过程的优点在于，它强制从来自整个图像的所有块导出（γi，γi），而不是聚焦于某个局部区域。3.5. PWVO采用的细化和总损失为了进一步改进预测的（γi，γi），PWV O另外基于（γi，γi）重构Fego和Di+14. 数据生成工作流在本节中，我们将介绍用于生成合成训练数据的数据生成工作流程。工作流程被开发为完全可配置的，目的是提供相机固有K、背景深度Dt的各种设置，其中t表示当前时间步长，以及相机的运动和运动的各种组合。我自我并将它们与它们的地面真值标签Fiing对象。图3示出了数据生成工作流程，2523·我我=Di+1KM（Di）K0|L1随机初始化摄像机固有3变换矩阵γx凸轮γyγz凸轮凸轮φ凸轮凸轮凸轮xφy φ zr（γ）φ[0T31]变换矩阵模块M凸轮2随机初始化背景深度φ ，φ ，φγ，γ ，γobjobj objxyzr（γ）φ模块莫奥布日objxyzobjobj[0 1]T354自我流动刚性流动模块总流量刚性流动模块对象流γ天体 φobj：物体运动γcamφcam：相机运动Mobj：对象运动变换矩阵Mcam：相机运动变换矩阵4×44×4：摄像机内置：深度图3×3图3：数据生成工作流的图示它由五个不同的步骤组成。步骤1通过从分布中采样来计算K，这在补充材料中有详细说明。步骤2基于K中的焦距随机生成D。步骤3随机地计算摄像机和一组移动对象的旋转γ和平移γ，并使用它们来导出它们对应的变换矩阵M。在步骤4中，每个将变换矩阵与K和Di一起转发到- 刚性流模块，用于导出刚性流图F_rigid。推导过程可以公式化为：表1：PWVO与基线在R误差、T误差、和EPE。可以观察到，PWVO以明显的余量优于两个基线以及PWVO（初始）。刚性1−1[化][化][化]1训练数据集在补充MA中提供材料。然后，使用以下方法评估经过训练的PWVO：3个降低指标：（1）平均旋转误差Rerr 和其中r（）表示将欧拉角变换为旋转矩阵的函数请注意，从相机运动导出的刚性流图被称为自我流图Fego，而从移动对象的运动导出的刚性流图对应于对象obj翻译误差T_（err），定义为（γi，γi）和（γi，γi）之间的L_1误差;（2）终点误差（EPE）用于测量重建的Fe go的质量，可以作为评价VO性能的另一个指标。在我们的实验中，EPE被定义为Fego和Fe go之间的平均L1误差，这是通常采用的流图F.最后，步骤5将所有流图i i一起获得总流量图Ftotal。所生成的F、K、D和M都用于等式（1）中。(8)用于在PWVO中训练模型参数。5. 实验结果在本节中，我们将介绍设置、定量和定性结果以及一组分析。5.1. 实验装置为了评估PWVO的性能，PWVO的每个组件的有效性，以及提出的数据生成工作流程，我们设计了一些实验的基础上，以下实验设置。我们在由所提出的数据生成工作流程生成的10万个样本的数据集上训练PWVO，并在Sintel [54]和TartanAir [55]的验证集上评估训练后的PWVO。生成的详细配置通过流量估计方法。5.2. 定量结果在本节中，我们首先将PWVO与两个基线进行比较，这两个基线采用不同的机制来抑制输入观测中的噪声区域接下来，我们消融检查PWVO中的组件的有效性。最后，我们验证了在PWVO优化的重要性，CNOF。本文的主要目的是研究一种有效的VO方法，用于抑制输入中包含的运动目标噪声虽然TartanAir数据集[55]由大量训练数据组成，但其光流样本不包含移动对象，因此不适合我们的实验。因此，我们所有的定量结果都是在Sintel [54]的验证集上进行评估的，因为它包括光流数据样本中的移动对象。Fx−x， M=（十）EPE犯错误特尔VONet [56]0.9090.1100.061VONet + self-att. [27日]0.8940.1170.076PWVO（初治）0.8290.0910.0612524RTL我LLLUU我UU我EPE犯错误特尔w/L无水乙醇不含L/Fw/L无水乙醇不含L/Fw/L无水乙醇不含L/FVONet [56]0.9091.2760.1100.1130.0610.069表3：附加损失期L/F的有效性验证表2：PWVO中组件有效性的消融研究如果不采用选择模块，则逐像素预测被平均以通过故障生成最终输出。(1) 输入FTotal（3）VONet的显著性图(2)+（3）5.2.1PWVO与基线在这个实验中，我们比较了PWVO与VONet [56]及其具有自我注意机制的变体[27]，它们被用作基线，并被表示为VONet和VONet+self-att。分别表示。VONet使用与PWVO的编码阶段类似的架构来实现，并直接预测旋转和平移。F或PWV O，我们考虑两种不同的配置：PWVO（naive）和PWVO，其中前者直接依赖于从（i，i）中恢复（γi，γi），而不是使用选择模块。此外，委员会认为，PWVO（naive）不考虑其LD和LF中的不确定性图，并且在优化其Di+1和Fgo时简单地诉诸L1和L2损失。比较结果示于表1中。可以观察到，两个版本的PWVO都能够超越在Rerr、Terr和EPE方面的基线，验证逐像素预测机制的有效性。5.2.2PWVO组件的有效性在本节中，我们将通过逐步将PWVO的每个组成部分纳入框架来彻底检查它们的有效性。结果报告于表2中。请注意，D和F是在CNOD和CNOF中使用的不确定度图，详细信息见补充材料。可以观察到，当简单地将逐像素设计并入VONet而没有不确定性估计时，性能略微下降。然而，当结合像素级设计和R和T的不确定性估计时，PWVO（naive）变得能够优于VONet，这表明所提出的像素级设计是对不确定性估计策略的补充。结果还表明，当每个新组件被添加时，模型的性能不断增加，验证了它们对PWVO都是至关重要的。5.2.3重建损失LF的重要性在本节中，我们将验证3.5节中讨论的反射损失的重要性。我们的假设是，在合并一个额外的重建损失项BNF可以引入几何约束，以提高PWVO的性能为了验证这个假设，我们训练(2) 对象流Fobj（4）PWVO的显著性图（2）+（4）图4：VONet和PWVO通过其显着图中的高亮像素进行比较基线和PWVO，有和没有重建损失PWIF，并分析其结果，总结在表3中。可以观察到，在重构损失的帮助下，几乎所有的方法都能够进一步提高它们在EPE、Rerr和Terr方面的性能。因此，这一证据支持我们的假设，即用LΔF优化PW V O确实是有益的。5.3. 定性结果在本节中，我们将检查验证PWVO采用的设计的定性结果5.3.1用显著图图图4 从显着性图的角度比较了 PWVO 和基线VONet，显着性图突出了与（γi，γi）的预测相反的像素。第一列显示来自Sintel的输入Ftotal及其对应的Fobj，第二列使用其集成梯度描绘VONet和PWVO的显着性图[57]，第三列与F obj重叠显着性图。可以观察到，VONet的显著性图的突出显示的像素是广泛分散的，并且覆盖对象区域和背景两者。相比之下，PWVO的显着性图的高亮像素只落在背景上。因此，这一观察结果证实了我们的假设，PWVO是能够有效地抑制噪声的影响，当执行VO任务。5.3.2不确定度图为了检查PWVO预测的不确定性地图是否可以正确地从其背景中捕获移动对象，我们进一步展示了从Sintel中选择的示例，并将其输入Ftotal，Fego和Fobj可视化在配置EPE犯错误特尔VONet [56]0.9090.1100.061+像素级1.070.1060.055+UR+UT（即，PWVO（初治））+UD+UF0.8290.7660.6260.0910.0870.0810.0610.0620.0432525UUUUU−U输入F总自我流自我对象流F对象不确定性图Error map of错误地图图5：PWVO预测的不确定性图与误差映射和Fobj.图的第一行图5中第二行的PWVO预测的不确定度图和误差图。五、可以观察到，Rk与误差图和Fobj高度相关，这意味着Rk确实能够捕获输入观测中的噪声。以来BURR和BURT 在这种情况下是相似的，我们只描绘了一个他们在Fig. 五、5.3.3Sintel验证集的评价图 6给出了几个示例，用于演示PWVO在Sintel验证集上的定性评估结果。可以观察到，预测的Fego和F obj与地面实况注释紧密对齐，并且估计的不确定性图与Fego的误差图高度相关。因此，该实验证据证实了在由所提出的数据生成工作流程生成的数据集上训练的PWVO可以在Sintel数据集的验证集上提供有利的结果的事实，这些区域为der iv e（γi，γi）。请注意，在这两个数字和图。 5的主要手稿，错误地图Fe go将F_g_o归一化到以下所有区域：由于原始误差值相对较小，因此可以将差异可视化。6. 局限性和未来方向尽管有效，但PWVO在某些硬场景中仍然存在局限性。例如，在移动物体覆盖输入观测中的大部分区域的情况下，PWVO可能会被误导并将其视为Fe go。这是由于缺乏足够的参考信息来导出相机的运动，这可能会导致严重的负面影响，以及对其他当代VO技术。本研究的未来方向是进一步扩展PWVO以将随机遮挡掩模或噪声并入到输入观测中，并将更具挑战性的场景引入到数据生成工作流程中以反映更困难的场景。从本文中提出的实验证据，我们相信，逐像素预测是一个很有前途的途径，探索和研究领域的VO，并可能导致进一步突破，在许多基准。7. 结论在本文中，我们提出了利用像素级预测的概念，为了实现这一目标，我们设计了一个PWVO框架，该框架基于估计的不确定性图集成了逐像素预测，以确定最终的（γ，γ）。为了让我看到你，好. 请注意，其他示例的可视化在补充材料中提供。7.1.1Tartan验证集的评价Sintel和TartanAir数据集的不同之处在于，来自TartanAir的数据样本仅涉及相机的运动，而来自Sintel的数据样本可能涉及相机和对象的运动。虽然TartanAir数据集的光流数据样本中没有包含移动对象，但我们仍然在其上评估我们的PWVO，因为定性结果揭示了一些有趣的见解。从图中可以看出。6.运动目标的不确定区域与运动目标的区域高度相关。另一方面，图图7显示，当在TartanAir数据集上进行评估时，不确定区域变得稀疏，没有特定的目标可供关注。这一证据表明，大多数区域可以被PWVO用来生成最终的（γi，γi），因为在数据样本中不存在由移动对象引起的噪声区域。这两个例子验证了我们的假设，即PWVO采用的不确定性图确实可以反映输入观测中的噪声区域，从而允许选择模块抑制为了训练PWVO，我们设计了一个完全可配置的数据生成工作流程，用于生成合成训练数据。在我们的实验中，我们提出了Sintel的验证集上评估的结果。结果表明，PWVO可以优于基线的R错误，T错误，和EPE。此外，分析还验证了PWVO所采用的器件的有效性，证明了PWVO所采用的设计确实能够捕获噪声，抑制噪声的影响。确认作者感谢台湾国家科学技术委员会（NSTC）在MOST 111-2223-E-007-004-MY 3和MOST 111-2628-E-007-0 下的支持台湾作者还要感谢 NVIDIA 公司和NVIDIA AI技术中心（NVAITC）捐赠的GPU用于本研究工作。作者感谢国家高性能计算中心（NCHC）提供的计算和存储资源。2526FTotalegoFegoFobjFobjFegoFego图6：在Sintel验证集上评估PWVO。(a)（c）第（1）款(b)（d）其他事项egoFegoFegoFegoF ego FegoFegoFego图7：TartanAir验证集上的PWVO评价2527引用[1] Kishore Konda和Roland Memisevic。用卷积网络学习视觉里程计。2015年VISAPP计算机视觉理论与应用[2] PulkitAgr awal，Jo aBocoCarreira，andJitendraMa l ik. 学习通过移动来观察。正在进行IEEE国际计算机视觉会议（ICCV），2015年。[3] Dinesh Jayaraman和Kristen Grauman学习与自我运动相关的图像表示。正在进行IEEE国际计算机视觉会议（ICCV），2015年。[4] Sen Wang ， Ronald Clark ， Hongkai Wen ， and NikiTrigoni. Deepvo ： Towards end-to-end visual odometrywith deep re-current convolutional neural networks.正在进行 IEEE 国际 Conf.onRoboticsandAutomation（ICRA），2017.[5] FlorianWalch ， CanerHazirbas ， LauraLeal-Taixe´ ，TorstenSattler ， SebastianHilsenbeck ， andDanielCremers.使用lstms进行结构化特征相关的基于图像的定位。正在进行 IEEE 国际 Conf. on Computer Vision（ICCV），2017.[6] Yu Xiang，Tanner Schmidt，Venkatraman Narayanan，Dieter Fox. Posecnn：一种卷积神经网络，用于在杂乱场景中进行6D物体姿态估计在proc 机器人：科学与系统（RSS），2018年。[7] Vassileios Balntas、Shuda Li和Victor Prisacariu。Reloc-net：使用神经网络的连续度量学习重新定位。在Proc.European Conf.计算机视觉（ECCV），2018年。[8] Zakaria Laskar ，Iaroslav Melekhov，Surya Kalia，andJuho Kannala.通过使用卷积神经网络计算成对相对姿态的在 proc IEEE 国际 Conf.计算机视觉研讨会（ICCVW），2017年。[9] Iaroslav Melekhov、Juha Ylioinas、Juho Kannala和EsaRahtu。使用卷积神经网络的相对相机姿态估计。在2017年智能视觉系统先进概念国际会议[10] AlexKendallMatthewGrimes 和 RobertoCipollaPosenet：用于实时6-dof相机重新定位的卷积网络正在进行IEEE国际计算机视觉会议（ICCV），第2938-2946页，2015年10月。[11] 亚历克斯·肯德尔和罗伯托·西波拉在深度学习中对相机重新定位的不确定性正在进行 IEEE 国际 Conf. onRobotics and Automation（ICRA），2016.[12] 蔡明，沈春华，伊恩·里德。摄像机重定位的混合概率模型在proc 英国机器视觉会议（BMVC），2018.[13] 亚历克斯·肯德尔和罗伯托·西波拉使用深度学习进行相机姿态回归的几何损失在proc IEEE会议计算机视觉和模式识别（CVPR），第6555-6564页，2017年。[14] 托尔斯滕·萨特勒，周群杰，马克·波勒费斯和劳拉·里尔-塔克斯。理解基于cnn的绝对相机姿态回归的局限性在proc IEEE会议计算机视觉和模式识别（CVPR），2019年。[15] Samarth Brahmbhatt，Jinwei Gu，Kihwan Kim，JamesHays，and Jan Kautz.用于相机定位的地图的几何感知学习正在进行 IEEE 会议计算机视觉和模式识别（CVPR），2018。[16] Iaroslav Melekhov、Juha Ylioinas、Juho Kannala和EsaRahtu。使用沙漏网络的基于图像的定位。在proc IEEE国际Conf. 计算机视觉研讨会（IC-CVW），2017年。[17] Tayyab Naseer和Wolfram Burgard。室外环境下基于单目摄像机的6-dof全局定位的深度回归。正在进行IEEE国际智能机器人和系统（IROS），2017年。[18] Noha Radwan ， Abhinav Valada 和 Wolfram Burgard 。Vlocnet++：用于语义视觉定位和里程计的深度多任务学习。IEEE Robotics Autom. Lett. ，2018年。[19] Abhinav Valada、Noha Radwan和Wolfram Burgard。视觉定位和里程计的深度辅助学习。正在进行IEEE国际Conf. on Robotics and Automation（ICRA），2017.[20] 吴健，马立伟，胡小林。深入研究卷积神经网络用于相机重新定位。正在进行IEEE国际Conf. on Robotics andAutomation（ICRA），2017.[21] Fei Xue ， Qiuyuan Wang ， Xin Wang ， Wei Dong ，Junqiu Wang，and Hongbin Zha.用于深度视觉里程计的引导特征选择。在 Proc. Asian Conf. 计算机视觉（ACCV），2018年。[22] Nan Yang，Lukas von Stumberg，Rui Wang，and DanielCre- mers.D3vo：单眼视觉里程计的深度、深度姿势和深度不确定性正在进行IEEE会议计算机视觉和模式识别（CVPR），2020年。[23] Gabriele Costante，Michele Mancini，Paolo Valigi，andThomas A.恰弗格利亚利用cnns探索帧到帧自我运动估计的表示学习。IEEE Robotics Autom. Lett. ，2016年。[24] Gabriele Costante和Thomas A.恰弗格利亚LS-VO：学习稠密光学子空间，用于鲁棒视觉里程估计。IEEERobotics Autom. Lett. ，2018年。[25] 彼得·穆勒和安德烈亚斯·萨瓦基斯。Flowdometry：基于光流和深度学习的视觉里程计方法在proc IEEE冬季会议计算机视觉应用（WACV），2017年。[26] 王兵，陈昌浩，陆晓轩，赵培军，尼基·特里戈尼，安德鲁·马卡姆。注意力引导摄像机定位. arXiv预印本arXiv：1909.03557，2019。2528[27] Hamed Damirchi，Rooholla Khorrambakht，and Hamid D.塔吉拉德探索自我注意力的视觉里程计。 arXiv，abs/2011.08634，2020。[28] Emilio Parisotto，Devendra Singh Chaplot，Jian Zhang，and Ruslan Salakhutdinov.使用基于注意力的递归网络进行全局姿态估计。正在进行IEEE会议计算机视觉和模式识别研讨会（CVPRW），第237-246页，2018年。[29] 陈昌浩，Stefano Rosa，苗亦姝，Chris Xiaoxuan Lu，Wei Wu，Andrew Markham，Niki Trigoni.神经视觉-惯性里程计的选择性传感器融合。在proc IEEE会议计算机视觉和模式识别（CVPR），第10542-10551页，2019年。[30] Thomas A. Ciarfuglia，Gabriele Costante，Paolo Valigi，and Elisa Ricci.视觉里程计非几何方法之评估机器人Auton系统，62（12）：1717[31] 张天广，刘晓东，寇佳.自治城市探索者的视觉里程计。正在进行IEEE国际Conf. on Intelligent Robots andSystems（IROS），pages 3513 -3518，2009.[32] Xin-Yu Kuo，Chien Liu，Kai-Chen Lin，Evan Luo，Yu-Wen Chen，and Chun-Yi Lee.基于动态注意力的视觉里程计正在进行IEEE国际智能机器人和系统（IROS），第5753-5760页，2020年。[33] 金子雅也，岩见和也，小川彻，矢正树俊彦，相泽清春.Mask-slam：通过使用语义分割进行掩蔽的基于鲁棒特征的单目SLAM。在proc IEEE会议计算机视觉和模式识别研讨会（CVPRW），第258-266页，2018年。[34] 波塔是我，乔是我。法蒂玛，贾维耶·西弗埃拉，还有乔·塞·内拉。Dynaslam：动态场景中的跟踪、映射和修复。IEEE Robotics Autom. Lett. ，3（4）：4076[35] Ting Sun，Yuxiang Sun，Ming Liu，and Dit-Yan Yeung.通过弱监督语义分割的可移动对象感知视觉SLAM。CoRR，abs/1906.03629，2019。网址http://arxiv.org/abs/1906.03629。[36] 陈昌浩，Stefano Rosa，苗亦姝，Chris Xiaoxuan Lu，Wei Wu，Andrew Markham，Niki Trigoni.神经视觉-惯性里程计的选择性传感器融合。在proc IEEE会议计算机视觉和模式识别（CVPR），2019年。[37] Feng Gao，Jinjeng Yu，Hao Shen，Yu Wang，and华中杨.用于动态场景中自监督深度姿势学习的注意力分离和聚合网络。CoRR，abs/2011.09369，2020。[38] 李斌、王淑玲、叶海峰、龚晓津、向智宇。深度保密单目视觉里程计的跨模态知识提取。IEEE Robotics andAutomation Letters，7（

下载后可阅读完整内容，剩余1页未读，立即下载