D3VO：单眼视觉里程计的深度、深度姿势和深度不确定性估计

155 浏览量更新于2023-10-24 收藏 1.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1不D3VO：单眼视觉里程计的深度、深度姿势和深度杨楠1，2Lukas von Stumberg1，2 Rui Wang1，2 Daniel Cremers1，21慕尼黑工业大学2Artisense摘要我们提出D3 VO作为一个新的框架，单眼视觉里程计，利用深度网络的三个层次-深度，姿态和不确定性估计。我们首先提出了一种新的自监督单目深度估计网络训练立体视频没有任何外部监督。特别地，它将训练图像对对准到具有预测亮度变换参数的类似照明条件中。此外，我们对输入图像上像素的光度不确定性进行建模，这提高了深度估计的准确性，并为直接（无特征）视觉里程计中的光度残差提供了一个学习的加权函数。评估结果表明，该网络优于最先进的自监督深度估计网络。D3VO将预测的深度、姿态和不确定性紧密结合到直接视觉里程计方法中，以增强前端跟踪以及后端非线性优化。我们在KITTI里程计基准和EuRoC MAV数据集上评估了单眼视觉里程计方面的D3VO。结果表明，D3VO表现出最先进的传统单眼VO方法的大幅度。它还实现了与KITTI上最先进的立体/LiDAR里程计和Eu-RoC MAV上最先进的视觉惯性里程计相当的结果，同时仅使用单个相机。1. 介绍深度学习已经席卷了计算机视觉的大部分领域-然而，在从图像序列估计相对相机姿态的同时定位和映射（SLAM）或视觉测距（VO）领域中，传统的基于几何的方法[16，17，53]仍然主导该领域。虽然单目方法[16，52]具有硬件成本低和校准工作量少的优点，但它们无法实现EuRoC MAVV2_03_困难图1：我们提出了D3 VO-一种新的单眼视觉圆顶（VO）框架，它在三个层面上利用深度神经网络：深度深度（D）、深度姿态（T t-1）和深度不确定性（T）估计。D3VO将这三个估计紧密集成到稀疏直接测距框架的前端跟踪和后端非线性优化中[16]。与立体声[53，74]或视觉惯性里程计（VIO）[44，54，56，72]相比，由于尺度漂移[62，77]和低鲁棒性，具有竞争力的性能。最近，已经有许多努力通过利用深度神经网络来解决这个问题[48，68，80，83]。已经表明，深度单目深度估计网络[26，27，43，78]，单目VO的性能得到了提升，因为深度网络能够通过从大量数据中学习先验知识来估计具有一致度量尺度的深度图[42]。然而，通过这种方式，深度神经网络仅在有限程度上使用。自我和无监督单目深度估计网络的最新进展[26，86]表明，相邻单目帧的姿态可以与深度一起预测。由于来自深度神经网络的姿态估计显示出高鲁棒性，因此出现了一个问题：深度预测的姿势是否可以用来提升传统的VO？另一方面，由于1281前端跟踪后端非线性选择1282SLAM/VO本质上是一个状态估计问题，其中不确定性起着重要作用[19，63，69]，并且意味着-虽然许多基于学习的方法已经开始估计不确定性，但下一个问题是，我们如何将这种不确定性预测纳入基于优化的VO？在本文中，我们提出D3VO作为单目直接（无特征）视觉VO的框架，其在三个层面上利用自监督单目深度估计网络：深度，姿态和不确定性估计，如图所示。1.一、为此，我们首先提出了一个用立体视频训练的纯自监督网络。所提出的自监督网络使用DepthNet预测单个图像的深度，使用PoseNet预测两个广告帧之间的姿态。这两个网络通过最小化源自具有校正基线的静态立体变形和使用预测姿态的时间变形的光度误差来桥接。以这种方式，时间信息被并入深度的训练中，这导致更准确的估计。为了处理训练图像对之间的光照不一致，我们的网络预测亮度变换参数，该参数在训练过程中对齐源图像和目标图像的亮度。在EuRoC MAV数据集上的评估表明，该亮度变换显著提高了深度估计精度。为了将深度集成到VO系统中，我们首先用具有度量尺度的预测深度初始化每个新的3D点。然后，我们采用深度虚拟立体测距法（DVSO）[78]中提出的虚拟立体项，将预测的姿态纳入非线性优化。与DVSO不同，DVSO使用依赖于从最先进的立体VO系统提取的辅助深度的半监督单目深度估计网络[74]，我们的网络仅使用立体视频，而没有任何外部深度监督。尽管照明变化被明确建模，但它不是可能违反亮度恒定性假设的唯一因素[40]。其他因素，例如，非朗伯表面、高频区域和移动物体也会破坏它。受深度神经网络最近对任意不确定性的研究的启发[35，40]，所提出的网络将光度不确定性估计为以输入图像为条件的预测方差。结果，源自可能违反亮度恒定性假设的像素的误差被降权。光度残差的学习权重也促使我们将其纳入直接VO的想法-鲁棒性是VO算法设计的重要因素之一.然而，传统的单目视觉VO在面对低纹理区域或快速移动时缺乏鲁棒性 [72] 。典型的解决方案是引入惯性测量单元（IMU）。但这增加了校准工作量，更重要的是，在恒定速度下，IMU无法以恒定速度提供度量标度[50]。我们建议通过将来自深度网络的估计姿态纳入前端跟踪和后端非线性优化来提高单目VO的鲁棒性。对于前端跟踪，我们用来自网络的估计姿态代替来自恒速运动模型的姿态。此外，除了直接图像对准之外，估计的姿态还用作平方正则化器[66]。对于后端非线性优化，我们提出了一个姿态能量项，它与直接VO的光度能量项共同最小化。我们在KITTI [25]和EuRoC MAV [5]上评估了所提出的单目深度估计网络和D3VO。我们在单目深度估计和相机跟踪方面都实现了最先进的性能。特别是，通过结合深深度、深不确定性和深姿态，D3 VO实现了与KITTI Odometry上最先进的立体/LiDAR方法相当的结果，以及与EuRoC MAV上最先进的VIO方法相当的结果，同时是一种单目方法。2. 相关工作单目深度估计的深度学习。支持学习[15，43，45]在单目深度估计上表现出很好的性能。Eigen等人[14，15]提出使用多尺度CNN，其直接从单个输入图像回归像素级深度图。 Laina等人[43]提出一种鲁棒损失函数来提高估计精度。Fu等人。[24]将单目深度估计网络重新构建为有序回归问题，并实现卓越的性能。最近的工作开始通过使用光度误差[27，28，49，73，81，82，86]学习深度图并采用可微插值[32]来以自监督和无监督的方式解决这个问题。我们的自监督深度估计网络建立在MonoDepth 2 [26]的基础上，并通过预测亮度变换参数和光度不确定性对其进行扩展。用于不确定性估计的深度学习。深度学习的不确定性估计最近在[35，36]中进行了研究，其中提出了两种类型的不确定性。Klodt等人[40]建议利用任意不确定度的概念来估计光度和深度不确定度，以提高深度估计精度。然而，当制定的照片度量的不确定性，他们不考虑亮度的变化1283不不不在不同的图像上，实际上可以明确地建模我们的方法预测亮度对齐图像上的光度不确定性条件，这可以提供更好的光度不确定性估计。此外，我们还寻求更好地利用我们学习到的不确定性，并提议将其纳入传统的VO系统[16]。VO / SLAM的深度学习已经探索了端到端学习的深度神经网络，以直接预测具有监督[70，75，85]或无监督学习[46，73，82，86]的图像之间的相对姿态。除了pose在估计中，CodeSLAM [2]通过与相机姿势一起联合优化密集几何体的学习先验来提供密集重建。然而，在姿态估计精度方面，所有这些端到端方法都不优于经典的基于立体或视觉惯性的VO方法。在深度单目深度估计成功的基础上，一些工作将预测的深度/视差图集成到单目VO系统中[68，78]，以提高性能并消除尺度漂移。CNN-SLAM [68]将有监督的深度神经网络预测的深度融合到LSD-SLAM [17]中，并使用贝叶斯过滤来细化深度图，从而在室内环境中实现卓越的性能[29，64]。其他作品[10，67]探索了深度神经网络在基于特征的方法上的应用，[34]使用生成对抗网络（GAN）作为图像增强方法来提高VO在弱光下的鲁棒性。与我们最相关的工作是深度虚拟立体测距（DVSO）。DVSO提出了一个虚拟立体声项，它将半监督网络的深度估计引入到直接VO管道中。特别是，DVSO在很大程度上优于其他单眼VO系统，甚至达到了与最先进的立体视觉里程计系统相当的性能[53，74]。虽然DVSO仅仅利用深度，但是所提出的D3VO在多个级别上利用深度网络的能力，从而将更多信息并入到D3VO中。图2：KITTI Odometry Seq 上D3VO 提供的点云和轨迹示例。00，EuRoCMH 05困难和V1 03困难。EuRoC上的插图显示了低照度和运动模糊的场景，这是导致传统纯视觉VO系统失败的主要原因之它使用视频序列同时使用DepthNet学习深度和PoseNet学习运动[26，86]。通过最小化时间立体图像和静态立体图像之间的光度重投影误差的最小值来实现自监督训练：L=1μminr（I，I ′）。（一）直接VO管道。自我|V|�系p∈V不t→t3. 方法我们首先介绍一种新的自我监督神经网络，它可以预测深度，姿态和不确定性。该网络还估计仿射亮度变换参数，以自监督的方式对齐训练图像的照明。基于每个像素的可能亮度值[35，40]的分布预测光度不确定性。此后，我们引入D3VO作为一个直接的视觉里程框架，将预测的属性合并到跟踪前端和光度光束法平差后端。3.1. 自监督网络所提出的单目深度估计网络的核心概念是自监督训练方案其中V是It上的所有像素的集合，并且t是所有源帧的index在我们的设置中，It是左图像，It是左图像。包含它的两个相邻的时间帧和它的操作。右（右）帧，即，�系我�� ∈{It−1，It+1，Its}。在Monodepth 2 [26]中提出了像素最小损失，以便处理不同源帧之间的遮挡。为了简化符号，我们在本节的其余部分使用I而不是I（p）。是通过将时间立体图像与预测深度D进行比较而合成的It�摄像机姿态Tt、摄像机本征函数K和dif-可参考的双线性采样器[32]。注意，对于Its→t，变换Tts是已知的且恒定的。DepthNet还通过馈送来预测右图像Its的深度图Dts如[27]中所提出的，仅对左图像It进行处理训练Dts需要综合It→ts并与Its进行比较。为了简单起见，我们将在下面只详细说明损失1284不��Iat�，bt��′预测每个像素的后验概率分布，该后验概率分布用像素的平均值以及像素的方差p（y|y，σ）在地面真值标签y上。例如，通过假设噪声是拉普拉斯算子，要被最小化的负对数似然是图3：EuRoCM A V[5]上的仿射亮度变换的示例。最初的源图像（It）和目标图像显示不同的亮度。对于预测的参数a，b，-logp（y|y（σ）=|y−y|+logσ+cons t.（六）σ注意，对于训练，不需要σ的地面真值标签��变换后的目标图像la，b亮度与ing. 预测的不确定性使网络能够适应源图像，这有助于基于亮度恒定性假设的自监督训练关于左边的图片。一般的做法[27]是把照相网公式化，残差的加权取决于数据输入，这提高了模型对噪声数据或错误标签的鲁棒性[35]。在我们的例子中，误差为r（Ia，Ib）=α（1−SSIM（Ia，Ib））+（1− α）||Ia−Ib||第一章（二）2对于可能违反亮度恒定性假设的It上的像素区域，σ更高。与[40]类似，我们通过转换等式来实现这一点。（4）至基于亮度恒定性假设。然而，在这方面，它可能会因照明变化和自动1Lself=Σmint�r(Ittt，It�→t）+logt，（7）L1和SSIM [76]都不是不变的相机曝光。因此，我们建议明确建模的相机曝光的变化与预测亮度变换参数。亮度变换参数。由于摄像机曝光的调整而引起的图像强度的变化可以建模为具有两个参数a，b的仿射变换I a，b=a + b.（三）|p∈ V|p∈V其中t是I t的不确定性图。图4分别显示了KITTI [25]和EuRoC [5]数据集上预测不确定性图的定性结果。在下一节中，我们将展示学习的Rawt对D3VO的光度残差加权有用。总损失函数是多尺度图像上的自监督损失和正则化损失的总和：尽管其简单，但该公式已被证明是L=1（Ls+λLs），（8）在直接VO/SLAM中有效，例如，[16，18，33，74]，全硫S自我reg也建立在亮度恒定性假设受这些工作的启发，我们提出预测变换参数a，b，使亮度条件其中s=4是尺度数，Lreg=Lsmooth+βLab（9）我的t与t。我们重新公式化方程。（1）作为与Σ2 21Σ��不Lab=（at�−1）+bt�（10）与Lself= |V| p∈V minr（It�系t，It�→t）（4）�系是亮度参数的正则化子，t=at→t�It+bt→t�，（5）是Dt上的边缘感知平滑度[27]。总而言之，所提出的深度网络预测Dt，Dts和Σ�一个输入I。 PoseNet预测T，其中t→t bt→t 是变换参数ttt将I t的照明对准It′。注意，两个参数都可以在没有任何监督信号的情况下以自我监督的方式进行训练。图3显示了来自EuRoC MAV [5]的仿射变换示例。光度不确定性。仅建模仿射亮度变化不足以捕获亮度恒定性假设的所有故障情况。其他案件，如非-朗伯曲面和移动对象是由相应对象的内在属性引起的，这些属性对于分析建模来说并不平凡[40]。由于这些方面可以被视为观察噪声，因此我们利用了Kendall等人提出的[35 ]第35段。关键的想法是�Σt1285不�� bt→t 使用通道级级联（It，It�）作为输入。DepthNet和PoseNet都是卷积网络，遵循广泛使用的类似UNet的架构的国家网络[59]。有关网络架构和实施细节，请参阅我们的补充材料。3.2. D3VO在上一节中，我们介绍了自监督深度估计网络，该网络预测深度图D、不确定性图D和相对姿态。�TT在本节中，我们将介绍D3VO如何集成将这些预测转化为如[16]中提出的加窗稀疏光度计束调整公式注意1286��系� ��i−1i−1i−1�系我�p��在下文中，我们使用·将来自网络的预测表示为D、T和Tt以避免歧义。光度能量。 D3VO旨在最大限度地减少测光误差E照片定义为虚拟立体声项优化来自VO的估计深度dp，以与所提出的深度网络预测的深度一致[78]。构成能源不像传统直接 VO ap-Ephoto=（11）第十一章：[19]第23话：一个人的未来每个新帧都具有恒定速度运动模型，我们i∈Fp ∈Pij∈obs（p）其中，F是所有关键帧的集合，Pi是关键帧i中托管的点的集合，obs（p）是其中点p是可观察的关键帧的集合，并且Epj是当p被投影到关键帧j上时的加权照片度量能量项：利用连续帧之间的预测姿态来构建非线性因子图[41，47]。具体来说，我们创建一个新的因子图，每当最新的关键帧，这也是前端跟踪的参考帧，更新。每一个新的帧都被尊重地跟踪Epj：=Σp∈Np�P于我�（Ij[p�]−bj）−eajei （Ii[p]−bi）��γ直接图像对齐的参考关键帧[66]。另外，来自深度网络的预测的相对姿态被用作当前帧与当前帧之间的因子（十二）其中N是p的8个相邻像素的集合，在[16]中，a、b是通过如[ 16 ]中的非线性优化联合估计的仿射亮度参数，并且|| · ||γ是Huber范数。In [16], the residual is down-weighted when the pixels are with high image gradient tocompensate small independent geometric noise [16].在现实场景中，存在更多的噪声源，例如，反射[40]，这需要被建模，以提供准确和鲁棒的运动估计。我们建议使用学习的不确定性来制定加权函数最后一帧。优化完成后，我们将最后一帧边缘化，因子图将用于下一帧的前端跟踪。请参阅我们的supp。用于因子图可视化的材料。从跟踪前端估计的姿态然后用于初始化光度光束法平差。端我们进一步使用预测的姿态Ti引入相对关键帧姿态Ti的先验。注意，Ti通过连接关键帧i-1和i之间的所有预测帧到帧姿态来计算。让α2E=Log（TiTi−1）T−1 Log（T�iTi−1），wp=第二章（13）构成i−1i�系我��i−1iα2+�（p）��i∈F−{0}i−1（十八）这不仅取决于局部图像梯度，也在更高水平的噪声模式上。如图4、所提出的网络能够预测反射率区域的高不确定性，例如，车辆的窗户、像骑自行车的人这样的移动对象以及发生深度不连续的对象边界。p ′ 的投影点位置为 g iv en ，公式为p′=<$J <$−1（p，dp），其中dp是点p在关键帧i坐标系中的深度，<$J（·）是具有已知摄像机本征函数的投影函数。我们不是像传统的单目直接方法[16，17]那样随机初始化dp，而是用dp= Di[p]初始化点，这提供了度量尺度。[78]我曾发誓，其中Log：SE（3）→ R6从李群SE（3）中的变换矩阵T∈R4×4映射到李代数SE（3）中相应的扭坐标R∈R6.对角逆协方差矩阵-1由下式获得：i−1传播每个连续序列之间的协方差矩阵被建模为恒定对角质量的有效帧对。总能量函数定义为：E共计 =E照片+wE姿势。（19）将姿态先验项E pose包括在等式（19）中。19可以被视为集成预集成IMU的类比姿态先验与高斯噪声模型的系统将虚拟立体声项Et引至等式Eq.（十一）E共计使用高斯-牛顿法最小化到Σ Σ†Σ总结，我们通过引入-与E照片=i∈Fp∈PiλEp+��j∈obs（p）��中国（14）将所预测的姿态作为对跟踪前端和优化后端，以及将它们作为正则化器添加到照片的能量函数E<$=wp�I<$[p<$]−Ii[p]�，（15）米制光束法平差piγ††−1−1††Ii[p]=Ii[（Ts（p，Dis[p]））]（16）4. 实验其中Ts是用于训练深度网络的从左到右图像的变换矩阵，、21287我们评估了所提出的自监督单目深度估计网络以及D3VO上的两个p† =（T−1（p，d））。（十七）[25]和EuRoC MAV [5]数据集。S p1288RMSERMSE（log）ARDSRDδ<1。25δ<1。252δ<1。253接近列车越低越好越高越好[27]第二十七话MS4.7500.1960.1060.8180.8740.9570.979我们的叔叔MS4.5320.1900.1010.7720.8840.9560.978我们的，abMS4.6500.1930.1050.7910.8780.9570.979我们的，满的MS4.4850.1850.0990.7630.8850.9580.979Kuznietsov等人[第四十二届]DS4.6210.1890.1130.7410.8620.9600.986DVS [78]D*S4.4420.1870.0970.7340.8880.9580.980我们MS4.4850.1850.0990.7630.8850.9580.979表1：KITTI本征分裂的深度评估结果[15]。M：自我监督的单眼监督; S：自我监督立体监督; D：地面实况深度监测; D*：稀疏辅助深度监督。上半部分显示了在相同设置下与SOTA自监督网络Monodepth 2 [26]的比较以及亮度转换参数（ab）和光度不确定性（uncer）的消融研究下半部分显示了与使用立体声以及深度监督的SOTA半监督方法的比较我们的方法在所有指标上都优于Monodepth2，并且还可以提供与SOTA半监督方法DVSO [78]相当的性能，该方法还使用立体声DSO [74]的深度作为稀疏监督信号。4.1. 单目深度估计凯蒂我们训练和评估建议的自我监督深度估计网络上的分裂的本征在el。[15 ]第10段。该网络是训练立体声序列与预处理提出的周等人。[86]，它给了我们39，810个训练四元组，每个训练四元组包含3个（左）时间图像和1个（右）立体图像，以及4，424个用于验证。表1的上半部分显示了与Monodepth 2 [26]的对比，Monodepth 2是使用立体和单目设置训练的最先进方法，以及对所提出的亮度变换预测（ab）和光度不确定性估计（uncer）的消融研究。结果表明，所提出的深度估计网络在所有指标上都优于Monodepth2。消融研究揭示了Monodepth 2的显著改善主要来自于不确定性，可能是因为在KITTI中有许多具有非朗伯表面的物体，如窗户，以及独立移动的物体，如汽车和树叶，这违反了亮度恒定性假设。表格的下半部分显示了与最先进的半监督方法的比较，结果表明我们的方法可以在不使用任何深度监督的情况下实现有竞争力的性能。图4：KITTI和EuRoC MAV的定性结果。从左到右分别示出了原始图像、预测深度图和不确定性图特别是，该网络能够预测物体边界，移动物体，高反射和高频区域的高度不确定性。RMSERMSE（log）ARDSRDδ<1。25单深度20.3700.1480.1020.0650.890我们的，ab0.3390.1300.0860.0540.929我们的叔叔0.3680.1440.1000.0650.892我们的，满的0.3370.1280.0820.0510.931表2：V2 01在EuRoC MAV中的评价结果[5]。提出的预测亮度变换参数大大提高了单目深度估计的性能在图4中，我们展示了一些定性的结果，[15]第15话，从左到右，分别示出了原始图像、深度图和不确定性图。有关Cityscapses数据集[8]的更多定性结果和一般化能力，请参考我们的supp。材料.EuRoC MAV. EuRoC MAV数据集[5]是一个包含11个序列的数据集，根据照明和相机运动分为容易，中等和困难。这个数据集是非常具有挑战性的，由于强烈的运动和显着的照明变化之间的立体和时间图像。我们认为这是一个很好的RMSERMSE（log）ARDSRD δ<1。25[28日]0.9710.3960.3320.3890.420我们0.9430.3910.3300.3750.438表3：使用所有MH序列训练的模型在EuRoC MAV [5]中对V2 01的评价结果第由Gordon et al.[28]他最近通过投影所提供的Vicon 3D扫描并过滤掉遮挡点来生成序列V2 01的地面真实深度图，我们也使用该序列进行深度评估1。我们的第一个实验设置为与[28]一致，为此，我们训练模型，用于验证我们预测的有效性的测试台架，深度预测的亮度变换参数-1我们感谢[28]的作者提供处理代码。EuRoC MAVKITTI1289MH序列和对V2 01的测试，结果见表3。在第二个实验中，我们使用5个序列MH 01，MH02，MH 04，V1 01和V1 02作为训练集，以检查我们的方法的性能在一个相对宽松的设置。我们删除了用于训练的静态帧，这导致了12，691张图像，其中11，422张图像用于训练，1269张图像用于验证。我们用不同的消融训练我们的模型，以及Mon-odepth 2 [26]作为基线。表2中的结果表明，我们所有的变化都优于基线，并且与KITTI的情况相反，所提出的ab显着改善了该数据集的结果。请参阅supp。为更多的AB实验提供材料。事实上，值得注意的是，表3中的结果（在一个场景MH上训练并在另一个场景V上测试）比表2中的结果（在MH和V两者上训练）更差，这意味着在非常不同的场景中提高单目深度估计的泛化能力仍然是一个挑战。4.2. 单眼视觉里程计我们评估了D3VO在KITTI Odometry和EuRoC MAV上的VO性能，网络在前一节中描述的分裂上进行了训练。KITTI里程计。KITTI里程计基准包含11（0-10）个序列，并提供了地面实况姿态。如[78]中所总结的，序列00，03，04，05，07在所提出的网络使用的本征分裂的训练集中，因此我们将其余序列视为用于评估D3VO的姿态估计的测试集。我们使用[25]中提出的相对平移（trel）误差作为评估的主要指标。表4显示了与其他最先进的单声道（M）以及立体声(S)其余序列上的VO方法。我们指[78]比较方法的结果。传统的单目方法在大规模的户外场景中显示出很高的误差，如KITTI中的序列，由于尺度漂移。尽管D3VO也是一种单目方法，但平均而言，它实现了最佳性能。该表还包含关于深度（Dd）、姿态（Dp）和不确定性（Du）的整合的消融研究。可以注意到，与表1中的结果一致，预测的不确定性对KITTI有很大帮助。我们还将测试序列（ 11-20 ）的结果提交给 KITTIOdometry评估服务器（链接）。在提交时，D3VO的性能优于DVSO，并实现了最佳的单目VO性能，可与其他最先进的LiDAR和立体方法相媲美。我们进一步比较了D3VO与最先进的端到端深度学习方法和其他最近的混合方法，并在表5中显示了结果。请注意，这里我们只显示Seq.09和10的结果，因为大多数端到端方法只提供这两个序列的结果表4：我们的KITTI里程计测试分割结果SOTA单眼（M）方法的结果显示为基线。与SOTA立体（S）方法的比较表明，D3VO实现了比其他方法更好的平均性能，同时是一个单目VO。我们还显示了深深度（Dd），姿态（Dp）以及不确定性（Du）的积分的烧蚀研究Seq. 09Seq. 10[46]第四十六话7.0110.63SfMLEarner [86]17.8437.91Zhan等人[八十二]11.9212.45Struct2Depth [6]10.228.9Bian等[1]第一章11.210.1SGANVO [21]4.955.89Gordon等人[28日]2.76.8[48]第四十八话10.694.84Yin等人[80个]4.141.70Zhan等人[八十三]2.612.29DVS [78]0.830.74D3VO0.780.62表5：与其他混合方法以及端到端方法对KITTI Odometry的Seq.09和10的比较。我们参考[28，78，83]比较方法的结果。D3VO比所有端到端方法都有更好的性能。一般来说，将深度学习与传统方法相结合的混合方法比端到端方法提供更好的结果。EuRoC MAV.如在第二节介绍。 4.1，由于强烈的运动和显著的照明变化，EuRoC MAV对于纯粹基于视觉的VO非常具有挑战性。VIO方法[44，56，71，72]通过整合IMU测量来获得姿态或运动，从而在此基准中占主导地位。先验知识，同时估计绝对规模。我们比较了D3VO与其他最先进的单眼VIO（M+I）以及立体VIO（S+I）方法在序列MH 03中等，MH 05困难，V1 03困难，V2 02中等和V2 03困难。所有其他序列都用于训练。关于M+I方法的结果，我们参考文献[9]。DSO和ORB-SLAM的结果显示为基线。我们还显示了从拟议的PoseNet（端-端VO）的结果。对于评估指标，我们使用绝对轨迹误差（ATE）的均方根（RMS），在将估计值与地面实况对齐之后。表6中的结果表明，利用所提出的框架，将深度、姿态和来自提议的不确定性整合在一起，01 02 06 08 09 10平均值DSO [16] 9.1711442.217728.124.065.8ORB [52] 10810.314.611.59.302.57三十七点零S. LSD [18] 2.131.091.281.241.220.75一点二九ORB 2 [53] 1.380.810.821.070.820.580.91S. DSO [74]1.430.780.670.980.980.490.89Dd1.160.840.711.010.820.73 0.88Dd+Dp1.150.840.701.030.800.72 0.87Dd+Du 1.100.810.691.030.780.62 0.84D3VO1.070.800.671.000.780.62 0.82MSEnd-to-end混合1290单声道DSO单声道ORB-SLAM VI-DSO端-端VOD3VO估计地面实况差图5：欧洲RoC MAVMH 05困难型和V1 03困难图5示出了从DSO [16]、ORB-SLAM [52]、视觉惯性DSO [72]、来自我们的网络的端到端预测姿态以及MH03和V1 03序列上的D3 VO获得的轨迹的定性比较。这5种方法对MH05型难治性脑膜炎均能取得较好的治疗效果.在V1 03困难的运动更强，有很多亮度不一致的时间和立体图像之间，D3 VO仍然可以提供可比的结果，以VI-DSO，而只使用一个相机。5. 结论我们提出了D3VO作为一种单目VO方法，通过在三个层面上利用深度网络的预测能力，整合单目深度、摄影测量不确定性和相对相机姿态的预测，增强了几何VO方法的性能。为此，我们首先介绍了一种新的自监督单目深度估计网络，它明确地解决了照明问题，表6：关于EuRoC MAV的评价结果[5]。我们给出了DSO和ORB-SLAM的结果作为基线，并将D3 VO与其他SOTA单眼VIO（M+I）和立体VIO（S+I）方法进行了比较。请注意，对于立体方法，V2 03困难被排除在外，因为其中一个摄像机丢失了许多图像[71]。尽管是一种单眼方法，D3 VO显示出与SOTA单眼/立体VIO相当的结果。单色方法中的最佳结果显示为黑色粗体，立体方法中的最佳结果显示为蓝色粗体。消融研究表明，Dd+Dp对V1 03困难和V2 03困难有很大改善，其中摄像机运动非常强烈。D3VO显示出高精度和鲁棒性，并且能够仅用单个相机提供与其他最先进的VIO方法相当的结果。我们还显示了对预测深度（Dd）、姿态（Dp）和不确定性（Du）的集成的消融研究，并且姿态预测的集成显著提高了V103困难和V2 03困难的性能，其中发生剧烈的相机运动。利用预测亮度变换参数来确定训练集中的亮度变化。该网络在KITTI和EuRoC MAV上取得了最先进的结果。预测的深度，不确定性和姿态，然后纳入到前端跟踪和后端的直接VO流水线的非线性优化。我们在两个数据集上系统地评估了D3VO的VO性能。D3VO在KITTI里程计上树立了新的艺术水平，并在欧洲联盟的MAV上实现了最先进的性能，与领先的单惯性和立体惯性方法相媲美，同时只使用一台相机。致谢我们感谢 Niclas Zeller 、 LukasKöstler 、 OlegMurato v和Ar-tisense的其他同事此外，我们还要感谢Jakob Engel和Tao Wu在项目早期阶段进行的富有成效的讨论。最后但并非最不重要的是，我们也要感谢评论家和克劳斯H.感谢他们的建设性意见。M03M05V103V202 V203DSO [16] 1.42 0.12 0.56ORB [52]0.08 1.48 1.72 0.17VINS [57] 0.13 0.350.13 0.08 0.21OKVIS [44] 0.24 0.470.24 0.16 0.29Rovio [3] 0.25 0.520.14 0.14 0.14MSCKF [51]0.230.480.24 0.160.13SVO [22] 0.12 0.16 X XVI-ORB [54]0.090.08X0.04 0.07[第72话]0.12零点一二 0.100.060.17端-端VO1.80 0.881.00 1.24 0.78Dd0.12 0.110.63 0.07 0.52Dd+Dp 0.09 0.090.130.060.19Dd+Du0.08 0.090.550.080.47D3VO0.08 0.090.110.050.19VINS [57] 0.11 0.10-OKVIS [44] 0.23 0.360.13 0.17-玄武岩[71]0.06 0.120.100.05-D3VO0.08 0.090.110.05-是说0.480.720.180.280.240.250.14+X0.07+X0.111.140.290.110.250.100.170.220.080.08MH_05_困难V1_03_困难M+IS+IM1291引用[1] Jia-Wang Bian，Zhichao Li，Naiyan Wang，HuangyingZhan，Chunhua Shen，Ming-Ming Cheng，and Ian Reid.来自单目视频的无监督尺度一致深度和自我运动学习。在第三十三届神经信息处理系统会议（NeurIPS），2019年。7[2] Michael Bloesch 、 Jan Czarnowski 、 Ronald Clark 、Stefan Leutenegger和Andrew J Davison。CodeSLAM-学习密集视觉SLAM的紧凑，可优化的表示arXiv预印本arXiv：1804.00874，2018。3[3] Michael Bloesch ，Sammy Omari ，Marco Hutter，andRoland Siegwart.使用基于EKF的直接方法的鲁棒视觉惯性里程计。2015年IEEE/RSJ智能机器人和系统国际会议（IROS），第298IEEE，2015年。8[4] G.布拉德斯基OpenCV库。Dobb博士14[5] Michael Burri、Janosch Nikolic、Pascal Gohl、ThomasSchneider 、Joern Rehder 、Sammy Omari 、 Markus WAchte-lik和Roland Siegwart。EuRoC微型飞行器数据集。国际机器人研究杂志，2016年。二四五六八十三[6] Vincent Casser、Soeren Pik、Reza Mahjourian和AneliaAngelova。没有传感器的深度预测：利用结构进行单目视频的无监督学习在AAAI人工智能会议论文集，第33卷，第8001-8008页7[7] Djork-Arne 'Clevert ， Thomas Unterthiner ， and SeppHochre- iter.通过指数线性单元（elus）进行快速准确的深度网络学习 arXiv 预印本 arXiv ： 1511.07289 ，2015。13[8] Marius Cordts，Mohamed Omran ，Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，UweFranke ， StefanRoth ， andBerntSchiele.Cityscapes数据集用于语义城市场景理解。IEEE计算机视觉与模式识别会议（CVPR），2016年。6、十五[9] 杰弗里·德尔梅里科和大卫·斯卡拉穆扎。飞行机器人单目视觉-惯性里程计算法的基准比较在2018年IEEE国际机器人与自动化会议（ICRA）上，第2502IEEE，2018年。7[10] Daniel DeTone ， Tomasz Malisiewicz ， and AndrewRabi-novich. 自我改善视觉里程计。 arXiv 预印本arXiv：1812.03245，2018。3[11] Daniel DeTone ， Tomasz Malisiewicz ， and AndrewRabi-novich. SuperPoint：自监督兴趣点检测和描述。在IEEE计算机视觉和模式识别研讨会会议论文集，第224-236页1[12] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser 、 Caner Hazirbas 、 Vladimir Golkov 、 Patrickvan der Smagt 、 Daniel Cremers 和 Thomas Brox 。FlowNet：使用卷积网络学习光流在IEEE计算机视觉集，第2758-2766页1[13] Mihai Dusmanu、Ignacio Rocco、

下载后可阅读完整内容，剩余1页未读，立即下载