单目深度SLAM中的关键帧选择和视觉里程计的无监督协同学习

158 浏览量更新于2023-10-12 收藏 1.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4302关键帧选择视觉里程计我 It−1我不电话+1IpIn面向单目深度SLAM的关键帧检测和视觉里程计的无监督协同学习路胜1徐丹2欧阳万里3王晓刚41北京航空航天大学软件学院2英国牛津大学3悉尼大学，SenseTime计算机视觉研究小组，澳大利亚4香港中文大学-商汤科技联合实验室，香港lsheng@buaa.edu.cn，danxu@robots.ox.ac.uk，wanli. sydney.edu.au，xgwang@ee.cuhk.edu.hk摘要在本文中，我们解决了联合学习问题的关键帧检测和视觉里程单目视觉SLAM系统。关键帧选择是视觉SLAM中的一项重要任务，有助于有效地进行摄像机重定位和视觉里程的有效增强为了从中受益，我们首先提出了一个用于关键帧选择的深度网络设计，它能够可靠地检测关键帧并定位新帧，然后进一步提出了一个端到端的无监督深度框架，用于同时学习关键帧选择和视觉odom。：关键帧：连续帧相机轨迹完成任务。据我们所知，这是第一个在单个深度框架中联合优化这两个互补任务的工作。使这两项工作相互促进在学习过程中，提出了一种基于几何和视觉度量的协同优化损失。在公开可用的数据集上进行了广泛的实验（即KITTI原始数据集及其里程分裂[12]）清楚地证明了所提出的方法的有效性，并且在单目视频的无监督深度和姿态估计上建立了新的最先进的结果。1. 介绍虽然3D几何场景的感知对于与真实世界环境的交互特别重要，但作为一个重要的主题，视觉同步定位和映射（SLAM）[10]近年来受到了越来越多的关注。然而，由于任务复杂性和有限的注释数据，深度学习的能力仅在现有视觉SLAM系统上部分探索[5，28]。在这项工作中，我们专注于单目视觉SLAM系统的技术，它通常包含几个子任务，如深度预测和相机运动估计的局部3D场景结构恢复，和关键帧选择。*同等缴款。图1.说明我们的动机：在单目视觉SLAM中，关键帧选择和视觉里程计是相互关联的。关键帧可以改善视觉里程计的深度预测和我们希望在单个深度模型中对这两个任务进行联合学习，使它们彼此受益。选择和管理全局地图构建和本地化。作为单目SLAM中的重要部分，关键帧选择已经在用于辅助视觉里程计和场景匹配的传统方法中被广泛研究[30，9]。尽管各种证据表明，使用具有几何约束的深度模型明显提高了深度、相机运动和光流估计的性能[51，49]，但据我们所知，没有实验工作考虑了用于关键帧选择任务的基于深度学习的在本文中，我们认为，联合优化的关键帧选择和视觉里程计应该大大受益于彼此。鲁棒的关键帧选择不仅为快速定位和映射提供了一种有效的方式，而且对于视觉odom任务中的相机运动和深度预测的有效细化特别有用直观、更好的视觉里程计能够促进更准确的关键帧识别。此外，本发明还提供了一种方法，4303深度学习中的多个任务的同时学习已经证明了其在计算机视觉任务中的有效性，例如检测和分割[4，13]。因此，自然期望在单个深度网络中解决关键帧选择和视觉里程计也可以受益于联合优化的优点。基于上述观察结果，我们提出了一种面向单目SLAM的无监督深度模型，由三个子网络提供动力，以处理三个不同但互补的任务，即关键帧选择，相机运动估计和深度预测。关键帧选择子网络学习一对观察到的图像和关键帧之间的联合视觉和几何相似性。如果该相似性低于阈值，则观察图像被视为新的关键帧，并且被存储在受管理的关键帧池中。相机运动和深度预测子网络学习预测观察到的图像的深度和来自其附近帧的相对运动。为了共同学习这三个任务，我们提出了一种协作学习策略，使用从深度和相机运动估计网络估计的几何度量以及从关键帧选择网络直接估计的视觉度量来预测关键帧选择的最终相似性。针对不同的观察和关键帧对添加最终排名损失。通过这样做，整个网络以无监督的端到端方式进行训练，并且三个任务基于它们的视觉几何关系相互约束，以便更好地优化整个模型。总之，这项工作的贡献有三个方面：• 我们设计了一个关键帧选择网络，用于估计视觉和几何线索之间的组合相似性度量关键帧的学习进一步为视觉里程计网络的学习提供了额外的监督。• 我们提出了一个统一的无监督深度学习框架，以端到端的方式同时学习关键帧选择和视觉里程计任务。据我们所知，这是第一个在单个深度模型中联合优化这两个互补组件的工作。协同优化损失旨在加强相互之间的约束，使它们能够在联合优化中相互受益。• 我们在KITTI原始数据集及其odome-try分裂[12]上广泛证明了所提出的方法的有效性，显示了联合学习的好处，并在无监督单目深度和相机运动估计任务上实现了新的最先进的结果。2. 相关作品SLAM作为一种核心的三维场景理解技术，近年来得到了广泛的研究。它可以大致分为立体声[35，27，15，42]，RGB-D [44，17，21]和基于单眼的SLAM [8，7]。我们将回顾最相关的单眼视觉SLAM方法。传统的基于关键帧的方法关键帧选择包含一个检测步骤来识别关键帧和一个匹配步骤定位。关键帧选择已经在几种最先进的传统SLAM方法中被采用，例如RDLAM [39]和ORB-SLAM [30，31]。LSD-SLAM [8]提出了一种实时视觉SLAM系统，该系统通过跟踪刚性姿态的变化来更新关键帧，并相应地改进深度图估计。Forster等[9]使用直接跟踪将类似的策略应用于LSD-SLAM ，同时在半密集深度图上操作最近，Hsiaoet al.[19]提出了一种基于密集平面提取和匹配的基于关键帧的SLAM方法，在实时SLAM上产生优异的性能。基于传统视觉里程计的方法单目视觉里程计利用单目摄像机从2D数据估计3D场景结构和自我运动[37]。它主要包含具有显著特征跟踪的基于特征的方法[33，32]，具有像素级图像/补丁匹配的基于外观的方法[50，38]以及基于特征和外观的策略组合的混合方法[34]。还有其他探索相机几何建模和回归模型学习的作品[16]。然而，传统的方法大多依赖于手工制作的表示或浅模型，这导致SLAM性能较差。基于监督的深度学习方法为了克服传统方法的局限性，最近的工作集中在设计深度学习模型来解决问题。已经提出了几种监督模型，并显着提高了场景深度[45，23，46]，相机姿势[2]和场景流估计[26]的性能。Eigen等人 [6]介绍了一种具有多尺度融合的粗到细网络结构，用于从单个图像进行深度预测。Kendall等人。 [20]提出了一种PoseNet结构来解决6-DoF相机重新定位问题。CNN-SLAM [40]检测关键帧并使用它们来校正深度预测的规模，然而，关键帧检测仅基于使用手工制作的特征的现成方法，并且不与单个深度模型中的其他子任务联合学习。基于无监督深度学习的方法除了有监督模型之外，文献中还存在一些基于无监督深度学习的方法[24，22，48，36]。Garg等人[11]提出了一种利用视图合成误差进行优化的编码器-解码器差异学习网络。考虑到从不同的观点，戈达尔等相互约束。[14]进一步引入两分支重构网络，并采用左右一致性损失进行监督。然而，这些方法4304目标图像CφC{ω，参考图像在他们的模型中只学习一个任务。SfMLEarner [51]提出使用来自不同附近视图的光度合成损失来联合无监督学习来自单目视频的深度和摄像机姿态。在SfM-Learner上，GeoNet [49]进一步学习光流任务，以解决视图重建中的非刚性运动问题。我们的模型探索了从单眼视频中进行无监督学习，并且与这两种方法更相关，然而，我们的重点是设计关键帧选择网络和概率协作学习框架，以使关键帧选择和视觉测距在单个深度模型中相互受益。3. 所提出的方法我们提出了一个端到端的系统，旨在联合学习的关键帧选择和视觉里程在一个单一的深度网络对单目SLAM。它主要由视觉里程计和神经网络实现的关键帧选择模块在本节的剩余部分，我们首先介绍了设计的深度关键帧选择和视觉里程计模块，然后介绍了（D）（E）DφDDφDqt参与者如何在建议的无监督协作学习框架中共同学习。3.1. 基于关键帧的视觉里程计我们的视觉里程计模型包括一对帧之间的单目深度预测器DΦD和相机运动估计器CΦCφD和φC是网络参数。图像对Ir和It，DφD的网络规范和CφC定义为Dt=DφD（It），θt→r=CφC（It，Ir），（1）其中Dt是It的预测深度，θt→r是从目标图像It到参考图像Ir的相机自运动。摄像机运动由旋转矢量ω =[ω x，ωy，ω z]<$和平移矢量t =[t x，t y，t z]<$组成。我们的模型遵循与SfM-Learner [51]中类似的网络结构，但我们的相机运动估计器仅使用任何两个图像It和Ir作为其输入，而不是连续帧。因此，我们的相机运动估计是灵活的，并不固定到本地相邻帧。关键帧的必要性最先进的基于学习的视觉里程计方法[51，49]仅解释了小的几何变化，因为它们是通过短长度的连续帧（约2-15帧）学习的。因此，它们通常无法捕获大的几何变化，例如关于目标图像与关键帧的情况。由于相关的关键帧选择任务，我们发现，关键帧是有用的额外的训练数据，以增强视觉里程模型的几何描述。在这种情况下，相机运动估计器CΦC必须图2. 深度预测器DφD、相机运动估计器CφC和关键帧选择器SφS的网络结构。捕获目标图像和关键帧之间更具挑战性的运动模式，并且深度预测器DφD必须找到准确的场景几何形状以满足它们之间的几何一致性3.2. 配备几何体的关键帧选择关键帧记录最具代表性的几何图或地标（密集深度、姿态等）在其相邻帧之间。它的核心功能是一个关键帧选择器SφS，当一个新的关键帧相对于先前的关键帧包含相当大的几何变化或视觉变化时，它通过识别该新的关键帧来建立关键帧集。它还同时将任何帧定位到其最近的关键帧（如果存在），以便完成相机定位。φS表示关键帧选择器的网络参数。假设目标图像为It，参考图像为Ir（可能是现有的关键帧）。关键帧选择器用于测量It和Ir在视觉和几何视点两者中是否相似。 SφS具有双流结构，并自适应地结合视觉和几何相似性以进行最终决策，如图所示。2，其中（1）可视流应用连接的It和Ir作为其输入。（2）几何流接收从视觉测距模块获得的一系列几何数据的通道级级联。它包括预测的深度图Dt和Dr，以及从Ir到It的扭曲残差图ΔIt←r和从Ir到It的扭曲残差图ΔIr←t。视觉提示几何线索DφDCφC基极层基极层间隙视觉特征fvvG几何特征FG跨通道注意间隙融合相似性回归4305K2k=1翘曲残差映射（以t为例）为他们一起协作学习这些任务。但如何I（x）=|I（W（x;D，θI（x）|（二）将它们合并到一个统一的学习框架中并不容易，t←rrt t→r t这是一个非常重要的问题，需要对培训程序进行特殊设计其中W（x;Dt，θt→r）是由预测深度Dt和相机运动θt→r解释的刚性翘曲场。总之，关键帧选择器是qt参与者=SφS（It，Ir;Dt，Dr，It <$r，Ir<$t），（3）其中，相似性qtParticipir对于It和Ir的阶是鲁棒的。两个流共享相同的网络架构，但不共享其网络参数。每个流中的基础层都是从ResNet-18 [18]复制的，而每个层后面都有一个全局平均池和几个全连接层。从每个流中提取的视觉特征fc和几何特征fg在跨模态注意力的帮助下融合在一起。注意力αc和αg通过使用级联的fc和fg作为输入的附加全连接层来学习。使用以下进一步组合关注的视觉特征fc<$αc和fg<$αg如图3（b），建议的协作学习计划将在下文中详细描述。培训数据准备。关键帧选择和视觉里程计需要不同的训练数据构造，因为它们遵循不同的学习逻辑。在每个训练示例中，我们有一个短的训练序列Is（|Is|= 3），其中中心帧是目标图像It。并且我们收集一个类内样本Ip，其被挑选为关键帧集合PK中的时间上最近的关键帧，并且选择第二时间上最近的样本In作为硬负样本。因此，训练示例为IK={Is，Ip，In}。视觉里程计的优化损失。在组合的训练图像集Ivo={Is，Ip}中学习视觉odom-模型。对于Ivo中的每个图像对{It，Ir}，我们在存在刚性对应的区域内优化两个图像的光度一致性以生成最终的相似性得分。3.3. 关键帧在线更新和管理Lpc=Σ{It，Ir}∈IvoΣ（1−Mt（x））·ρ（It←r（x），It）+X我们设计了一个在线的关键帧更新和管理策略，在训练阶段维护一个关键帧池PK。在训练开始时，PK使用几个随机选择的帧作为初始化。每个关键帧F_K用包含对应于输入视频序列的帧索引t_k、RGB_k、RGB_k的三元组来表示。图像IK和深度估计图DK，深度估计图D K由（ 1−Mr（ x ））·ρ （ Ir←t（ x ）， Ir） + （ Mr（x）+Mt（x））·τ（四）其中 ρ （ x ， y ） =α （ 1−SSIM （ x ， y ）） +（1−α）σ（x-y）是一个鲁棒的感知图像相似性度量。 SSIM 是结构相似性指数 [43] ， σ （ x ） =（x2+ε2）0。45是稳健的Charbonnier损失[3]。It←r（x）=K K视觉里程计网络，即，FK={tk，IK，DK}，Ir（W（x;Dt，θt→r））是后向扭曲参考im。k k kPK={FkK}K，其中K是密钥而我，则是一个被遗忘的人，一个被遗忘的人。跳转关键帧更新包括插入和合并操作。在几次训练迭代之后，对输入目标帧进行确定。我们在实现中使用了200次迭代如果其在最近的关键帧之间的相似性得分高于阈值，则将其插入到PK中。在每个epoch之后，我们开始合并由训练好的关键帧匹配网络提供的选定关键帧。将PK 中的相邻关键帧组织成对并传递到网络中进行相似性测量。如果两者足够相似，则只保留其中一关键帧深度估计也被用来帮助优化视觉里程计子网络。与目标帧最接近的关键帧的深度图用于经由加权平均操作从深度估计网细化深度预测。在测试阶段，得到图像Ir←t（x）=It（W（x;Dr，θr→t））。注意，θr→t是θt→r的逆运动，其是解析计算的，但不是再次通过相机运动估计器C（Ir，It）。通过检测其中双向扭曲场之间的周期一致性的区域，即，Wt（x）=|是一种暴力行为。|is vi- olated. I r中的非刚性掩模Mr以类似于阈值的方式计算|W （ x;DR ， θr→t ）+W （ W（x;DR，θr→t）;DT，θt→r）|.阈值根据扭曲场的每像素幅度进行缩放，类似于[29]。添加附加常数τ以去除任何像素为非刚性的平凡解为了增强几何一致性，我们在刚性区域中也实施了周期一致性最新的关键帧总是与目标帧进行比较，如果它们的相异性大于阈值，则将新的关键帧插入到PK中。请检查Figure。3（a）说明。3.4. 无监督协作学习Lcc=Σ{It，Ir}∈IvoΣ（1−Mt（x））·Wt（x）X+（1−Mr（x））·Wr（x）。（五）如前所述，关键帧选择和视觉通过Lds进一步平滑p阶映射，4306里程计是彼此互补的。这是一个很好的-It∈IvoX|t（x）|exp（−|nt（x）|），其中是一4307(i) 关键帧合并（b）培训管道(a) 关键帧管理关键帧共识新关键帧链接视觉里程计损失视觉里程计和深度融合的损失图3.（a）关键帧管理，包括训练阶段的关键帧合并和关键帧插入，以及关键帧集建设在测试阶段。(b)协作学习计划。训练图像元组由目标图像周围的连续帧以及两个随机采样的类内图像Ip和类间图像In组成。关键帧选择任务使用完整的训练元组，但视觉里程计不使用类间样本。边缘感知视差平滑损失，其中视差被简单地定义为dt（x）= 1/Dt（x）。关键帧选择的优化损失关键帧选择的学习集中应用三元组损失来衡量帧之间的相似性具体来说，构建两种三元组：（1）Is，Ip，其中Is是训练序列I s中的一个图像，（2）I s，In，其中Is是视觉里程计训练图像集Iv o中的一个图像。第一个三元组用于对相似性进行排序w.r.t. 在目标图像It周围的间隔内的样本之间的It，其中It应该比具有小余量γp的Ip更类似于Is。第二种方法以较大的幅度γn对相似度进行排序，表明It与Ivo中任何样本的相似度都比负样本In大得多。为此，关键帧丢失被写为Σ4. 实验4.1. 实验装置网络架构。我们的模型主要包含三个组件，深度预测器DφD，相机运动估计器CφC和关键帧选择器SφS。深度预测器遵循跳跃连接的编码器-解码器结构作为SfMLEarner [51]，并输出4尺度深度预测。相机运动估计器通过8个卷积层回归6- DoF相机运动，然后是全局平均池化，如[51]中的结构关键帧选择器的结构有两个并行分支，其网络规范在第2节中描述。3.2.我们在除输出层之外的所有卷积层之后采用批量归一化和ReLU激活函数数据集。我们在由EigenetLkf=max{0，γp−qt参与+qt参与}Is∈Is/{ It}al. [6]在KITTI原始数据集上，所有静态帧都是，包括在内。此数据集包含立体视图，我们使用它们Σ+Is∈Ivo/{ It}max{0，γn-qt参与者+qt参与{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}（六）独立地train/val比为9：1，遵循Zhouet al.[51 ]第51段。为了测试我们的视觉里程计和关键帧选择的性能，我们还将我们的系统转移到相似度得分是根据我们的关键帧生成的选择器在Eq.（三）、样本内裕度为γ p= 0。1，样本间裕度为γ n= 0。8.总体优化目标我们协作学习的最终损失是上述损失的加权组合，写为KITTI里程计数据集。我们使用00-08序列进行训练，使用09-10序列进行测试。培训详情。我们的实验是使用TensorFlow框架进行的[1]。我们通过专门设计的训练数据准备以端到端的方式训练我们的模型。在训练过程中，我们调整图像序列的L总=λpc LPC+λcc LCC+λds LDS+λkf Lkf.（七）关键帧集Ip我t−1阳性样本我不In目标帧阴性样本It+1图像流我t−1我不IKIKk−1KIt（iii）关键帧检测（ii）关键帧插入ItIKIKk−1kIKIKk−1Kk+1训练阶段测试阶段4308分辨率为128×416，并执行几个预处理技巧，如随机裁剪和裁剪，并运行-权重是为了平衡每个项的贡献在我们的实验中，我们设置λ pc= 1。0，λ cc= 0。05，λ ds= 0. λ kf= 1。0的情况。请注意，我们的深度预测器DφD使用多尺度深度预测来释放局部梯度问题[51]，因此损失Lpc，Lcc和Lds也适用于较粗尺度，但权重相应地衰减。dom brightness [49，51]. 网络由Adam solver训练，β1= 0。9 和β2= 0 。999 学习率简单地固定为0。0002，批量大小为8。该网络在单个NVIDIA Titan XGPU上进行训练训练过程通常需要大约30个epoch。评价方案。深度预测性能4309图4.与Zhou等人的单眼深度预测比较。[51]，GeoNet [49]和DDVO [41]。地面实况被插值用于可视化。我们的方法捕捉更多的几何细节，保持结构的一致性，并避免在无纹理区域的文物方法设置帽数据绝对值相对值平方相对RMSERMSE（log）δ1。25δ1。252δ1。253Eigen等人[6]Liuet al. [25]第二十五话[14] Xuetal. [47个]深度-gt立体声深度-gt80米-80米-80米-80米-0.203 1.548 6.3072014年12月31日2017年12月31日2009年12月31日0.702 0.890 0.9580.895 0.9650.803 0.922 0.9640.828 0.952 0.984Zhou等[五十一]单80mIs0.2081.7686.8560.2830.6780.8850.957Zhou等[51]*单80mIs0.1831.5956.7090.2700.7340.9020.959[49]第四十九话单80mIs0.1641.3036.0900.2470.7650.9190.968DDVO [41]单80mIs0.1511.2575.5830.2280.8100.9360.974Klodt等人[22日]单克隆抗体/SfM80mIs0.1661.4905.998–0.7780.9190.966我们的无CC单80mIK0.1681.2595.9370.2470.7550.9200.969我们单80mIK0.1391.0215.4180.2090.8030.9370.976Godard等人[14个]立体声50m-0.1400.9764.4710.2320.8180.9310.969Garg等人[第十一届]波斯湾50m-0.1691.0805.1040.2730.7400.9040.962Zhou等[五十一]单50mIs0.2011.3915.1810.2640.6960.9000.966[49]第四十九话单50mIs0.1570.9904.6000.2310.7810.9310.974我们单50mIK0.1310.8054.0210.2020.8200.9470.982表1.KITTI数据集[12]上的单目深度预测结果使用Eigen等人的分裂。[6]的文件。我们报告7指标建议Eigen等人。[6]的文件。我们还指出了训练设置和训练数据结构。Is表示连续帧，IK是我们的关键帧增强序列。粗体表示总体最佳结果。“w/o CC”是指在没有循环一致性的情况下训练的我们的视觉里程计模块。* Zhouet al网站上提供的更新结果。[51 ]第51段。在设置中，depth-gt和post-gt意味着这些方法需要深度和姿势地面实况在监督设置。在来自Eigen等人的测试分割的697个图像上进行评估。[6]，涵盖了KITTI原始数据集中的29个场景在[51]之后，预测的深度图通过将其中值与其地面实况数据相匹配而以因子进行缩放，即，Dpred=中位数（Dgt）/中位数（Dpred）。我们使用与Eigen等人相同的深度评估指标。[6]的文件。注意，大多数参考单目深度预测方法使用连续的|Is| =3帧，但是我们的方法需要两个额外的类内/类间样本，例如集合IK。摄像机运动评估在KITTI里程计分割中的09-2010序列在[51]之后，所有报告的结果都根据5帧片段进行评估。为了解决在单目视觉里程计或SLAM系统中经常发生的尺度模糊，我们调整结果的缩放因子以最佳地与地面实况轨迹我们使用绝对轨迹误差（ATE）来评估5帧片段的轨迹漂移。对于关键帧选择评估，我们收集其起始帧是参考关键帧并且伪GT关键帧位于片段中间的片段。如果重叠区域与参考关键帧的比率刚好低于50%，则检测到伪GT关键帧，其中重叠区域由地面实况相机运动和内插深度图定义。我们将此策略应用于KITTI里程计测试分裂。4.2. 总性能分析单目深度估计的性能。如Tab.所示。1，如果截断深度预测80米，我们提出的无监督方法优于所有的com-我们DDVOGeoNet周GT输入4310方法绝对轨迹误差关键帧序列09序列10ORB-SLAM（full）0.014± 0.0080.012± 0.011ORB-SLAM（短）0.064± 0.1410.064± 0.130卑鄙的奥多姆。0.032± 0.0260.028± 0.023Zhou等[五十一]0.021± 0.0170.020± 0.015Zhou等[51]*0.016± 0.0090.013± 0.009[49]第四十九话0.012± 0.0070.012± 0.009Klodt等人[22日]0.014± 0.0070.013± 0.009我们的×0.012± 0.0060.010± 0.008表2.KITTI里程计上的绝对轨迹误差（ATE）测试分割在所有5帧片段上平均（越低越好）。×我们的方法不是由5帧片段训练，而是由3帧片段和两个额外的帧内/帧间样本训练。* 更新结果。OursZhouetal. [46]第四十四章：一个人的世界0.002图6.关键帧的选择伴随着视觉上的odom。在KITTI里程计测试拆分中，测试顺序为0910.750.0020.0010.50.250序列09序列100∆ =1=2图5.KITTI里程计测试分割的平均旋转误差（越低越好）。ORB-SLAM-S和ORB-SLAM-F分别是ORB-SLAM的缩写和全称。在大多数评估指标上使用无监督单目深度预测方法，包括[51，49，22]，甚至一些最近的方法使用校准的立体数据[11，14]或直接由地面实况深度[25，6]监督。DDVO [41]在评分δ<上有轻微改善1 .一、25和RMSE，但是我们的方法在与1的平方相对差（sq rel）上有显著的增益。257比1 021如果将预测截断50m，我们的模型在所有指标上都达到图7.结合视觉里程计的关键帧检测的检出率评估。在KITTI里程计测试拆分中，测试顺序为09方法错误（日志Wer是bet（三）rel平方相对RMSERMSE（log）[51]第51话0.2081.7686.8560.283Ours w/o KFS0.1811.5876.6890.264Ours w/ KFS（离线）0.1711.3896.2370.251Ours w/ KFS（固定长度）0.1511.1275.9410.223Ours w/ KFS（在线更新）0.1391.0215.4180.209表3.定量比较不同的变体的提议的方法w.r.t.单目深度估计任务的误差评估指标。KFS表示关键帧选择。摄像机姿态估计的性能。我们将我们的方法与传统的单目SLAM系统ORB-SLAM（完整）[30]及其本地版本ORB-SLAM（短）进行比较，用于5帧片段，其结果来自 Zhou 等人的网站。 [51 ] 第 51 段。我们也与SfMLEarner [51]和GeoNet [49]合作。在Tab。二、方法[51] 2016年第51届中国国际航空航天博览会Ours w/ KFS（离线）Ours w/KFS（定长）Ours w/KFS（在线更新）绝对轨迹误差序列09序列100.021±0.017 0.020 ± 0.0150.018±0.012 0.017 ± 0.0120.015±0.008 0.014 ± 0.0110.014±0.007 0.012 ± 0.0090.012±0.006 0.010 ± 0.008我们的方法优于一个简单的基线（平均odome-尝试）和传统的方法 ORB-SLAM （短）和 ORB-SLAM（全）。关于基于深度学习的方法，我们的相机运动估计器优于Zhou [51]提出的SfM-Learner，但其性能略逊于GeoNet [49]。我们相信，如果我们的模型由更长的片段训练，这个差距可以消除。我们还显示了所有5帧片段的平均旋转误差，其中误差被计算为预测和地面实况的旋转角度之间的102范数，如图所示。五、虽然我们的方法只在较短的序列上训练，但其预测的旋转比其他基于学习的方法更准确表4.定量比较KITTI里程计测试拆分中所提出方法的不同变体的绝对轨迹误差（ATE）。proaches [51，49]，其揭示了关键帧在帮助正则化里程学习中的重要性，特别是在具有来自旋转的几何变化的情况下。注意，ORB-SLAM的两个变体提供了比基于学习的模型更好的旋转预测。这可能是因为ORB-SLAM的结果来自Zhouet al.[51]短于5帧，因此仅包含较小的摄像机运动。关键帧选择的性能。我们也给一些估计摄像机轨迹关键帧关键帧：关键帧位置随机仅Visual-Net0.96仅几何网络全网络（视觉+几何）0.740.850.590.510.430.140.23平均旋转误差检出率4311（a）与基线的比较（a）与DDVO的比较图8. (a)循环一致性提高了预测深度图的几何可靠性。DDVO[41]（b）的一些示例显示了纹理复制伪影和不需要的纹理模糊。关于我们的关键帧选择模块的质量的示例性实验。首先，当我们对KITTI里程计测试分割中的测试序列09执行完整的视觉里程计时，我们显示选定的关键帧集。当汽车沿着街道直线行驶时，选定的关键帧通常是均匀分布的，例如图1左侧所示的关键帧。六、然而，当汽车向左/向右转弯时，突然的几何变化在捕获的帧中引起大的视觉差异，因此我们的关键帧选择鼓励在转弯拐角处的短间隔中更频繁的关键帧它还揭示了我们的关键帧选择对基于几何的视觉变化更敏感。我们还通过报告检测到的关键帧在伪GT关键帧周围的固定范围[− 1，− 2]内的比率来定性测试我们的关键帧选择器，如图所示。7.第一次会议。提出的关键帧选择器结合了视觉和几何线索的优点，并以较大的幅度改进了它们的唯一模型。定性评价。我们比较我们的预测深度图与周等人。[51][52][53][54][55][56][57][58][59][54.第一章地面实况深度图是从Velodyne激光扫描仪重新投影稀疏点云。所提出的方法在现有技术中具有最好的视觉质量它可以成功地恢复具有挑战性的区域中的可靠深度（例如，无纹理区域在图的第一列。4）保留分段平滑的结构细节，但不引入来自输入图像的纹理映射。DDVO具有最可比的性能，更经常地解决小对象，但它通常遭受严重的纹理映射伪影，如图8（b）所示。4.3. 模型分量分析基线模型。为了评估不同模块的性能效果，我们有几个基线：（i）SFM-学习者[51]，其在视觉里程计中不使用任何关键帧选择;（ii）我们的w/o KFS，它比[ 51 ]提高了性能，但仍然没有使用关键帧选择;（iii）我们的w/ KFS（离线），其仅使用视觉线索来预训练关键帧选择子网络，并且产生一组关键帧用于使用视觉里程测量子网络进行训练;（iv）我们的 w/KFS（固定长度），该方法采用固定帧长确定关键帧，关键帧选择子网络与视觉里程子网络联合优化;（iv）我们的w/ KFS（在线更新），其使用所提出的关键帧人工智能策略来在线更新关键帧池，并且多个子任务被联合学习。关键帧选择对视觉里程计的影响。选项卡. 图3和图4示出了不同基线模型对单目深度和姿态估计任务的结果。可以观察到，即使我们使用离线关键帧信息，仍然可以提高深度和姿态估计的性能。通过联合学习两个任务，特别是采用在线关键帧更新，获得了明显的性能增益，证明了所提出的关键帧检测对视觉里程计任务的有效性视觉里程计对关键帧选择的影响。图5显示了KITTI里程计上不同方法的平均旋转误差。与我们的直接竞争者[51]相比，我们的模型具有显著的关键帧选择通过以较大幅度减少错误，这意味着视觉里程计网络提供了更好的几何输出，帮助学习更好的关键帧检测器，从而证实了我们最初的直觉。周期一致性的有效性。我们也进行一项关于循环一致性的消融研究，如表10所示。1.一、在没有循环一致性的情况下，我们的深度预测器的学习类似于Zhou等人。[51]但具有来自“关键帧”的附加长期连接。其性能优于Zhou等。[51]并与最近的先进方法进行了比较，显示了关键帧在帮助视觉里程计模块中的进步如图所示，周期一致性明显增加了预测的可靠性。8（a），它大大提高了我们模型的定量结果。但是我们需要提到的是，周期一致性在检测非刚性运动区域时可能不是最佳的，因此我们可能不可避免地发现移动对象（诸如图1中的汽车）周围的深度失真。4.第一章5. 结论在本文中，我们提出了一种学习方法，单目视觉SLAM。具体来说，我们设计了一个用于关键帧选择的深度网络，它能够检测关键帧，管理关键帧并定位新帧。我们进一步提出了一个端到端的非监督学习框架，以同时优化关键帧选择和视觉里程计任务在一个单一的深度模型。为了约束和优化网络学习过程中的各个任务，设计了一种无监督的协作我们清楚地证明了所提出的方法在KITTI原始数据集和KITTI Odometry数据集上的有效性，在基线模型上有显著的增益，并在单目视频的深度和姿态估计上创造了新的最先进的结果。含CC基线输入我们DDVO输入4312引用[1] Mart´ın Abadi， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，etal. Tensorflow：一个大规模机器学习系统。在OSDI，第16卷，第265-283页，2016中。5[2] Samarth Brahmbhatt，Jinwei Gu，Kihwan Kim，JamesHays，and Jan Kautz.用于相机定位的地图的几何感知学习在CVPR，2018年。2[3] PierreCharbonnier， LaureBlanc-Fe' raud ， GillesAubert ，andMichel Barlaud.计算成像的两种确定性半二次正则化算法见ICIP，第2卷，第168-172页IEEE，1994年。4[4] 戴季峰、何开明、孙建。通过多任务网络级联的实例感知语义分割。在CVPR，2016年。2[5] Daniel DeTone，Tomasz Malisiewicz，and Andrew Rabi-novich. 向几何深 SLAM 。 arXiv 预印本 arXiv ：1707.07410，2017。1[6] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度在NIPS，2014。二五六七[7] Jakob Engel，Vladlen Koltun，and Daniel Cremers.直接稀疏测距法。TPAMI，40（3）：611-625，2017年。2[8] Ja k obEngel，ThomasScho¨ ps，andDanielCremers. LSD-SLAM：大规模直接单眼SLAM。2014年，在ECCV。2[9] Christian Forster，Matia Pizzoli，and Davide Scaramuzza.SVO：快速半直接单眼视觉里程计。InICRA，2014.一、二[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。4[19] Ming Hsiao ， Eric Westman ， Guofeng Zhang ， andMichael Kaess. 基于关键帧的密集平面 SLAM 。在ICRA，2017年。2[20] AlexKendallMatthewGrimes 和 RobertoCipollaPosenet：用于实时6-DOF相机重新定位的卷积网络在ICCV，2015年。2[21] ChristianKerl，JürgenSturm，andDanielCremers. RGB-D摄像机的测距估计。见ICRA，第3748-3754页。IEEE，2013。2[22] Maria Klodt和Andrea Vedaldi监督新与旧：从可持续森林管理中学习可持续森林管理在ECCV，2018。二六七[23] Iro Laina、Christian Rupprecht、Vasileios Belagiannis、Federico Tombari和Nassir Navab。使用全卷积残差网络进行更深的深度预测。在3DV，2016年。2[24] Ruihao Li，Sen Wang，Zhiqiang Long，and DongbingGu. UnDeepVO：通过无监督深度学习的单眼视觉里程计。在ICRA，2018年。2[25] Fayao Liu，Chunhua Shen，Guosheng Lin，and Ian DReid.使用深度卷积神经场从单目图像学习深度。TPAMI，38（10）：2024-2

下载后可阅读完整内容，剩余1页未读，立即下载