没有合适的资源?快使用搜索试试~ 我知道了~
深度虚拟立体测距:利用深度预测的单目直接稀疏测距方法
深度虚拟立体测距:利用深度预测的单目直接稀疏测距杨楠1、2[0000−0002−1497−9630],王瑞 1、2[0000−0002−2252−9955],J¨orgStu¨ckler1[0000−0002−2328−4363]和DanielCremers1,21慕尼黑工业大学2 艺术感{yangn,wangr,stueckle,cremers} @ in.tum.de抽象。纯粹依赖于几何线索的单目视觉里程计方法易于发生尺度漂移,并且在连续帧中需要足够的运动视差以用于运动估计和3D重建。在本文中,我们建议利用深单目深度预测,以克服基于几何的单目视觉里程计的局限性。为此,我们将深度预测直接稀疏测距法(DSO)作为直接的虚拟立体测量。对于深度预测,我们设计了一种新的深度网络,该网络在两阶段过程中从单个图像中我们以半监督的方式训练我们的网络在立体图像中的照片一致性和与立体DSO的精确稀疏深度重建 我们的深度预测优于KITTI基准上最先进的单眼深度方法。此外,我们的深度虚拟立体测距法在准确性上明显超过了先前的基于单眼和深度学习的方法。它甚至实现了与最先进的立体方法相当的性能,同时仅依赖于单个相机。关键词:单眼深度估计·单眼视觉里程计·半监督学习1介绍视觉里程计(VO)是计算机视觉中一个非常活跃的研究领域,在自动驾驶、机器人和增强现实等领域有大量的应用。使用传统几何方法的具有单个相机的VO固有地遭受相机轨迹和地图不一致的事实。只能估计到未知的尺度,这也导致尺度漂移。此外,需要足够的运动视差来从连续帧估计运动和为了避免这些问题,通常采用更复杂的传感器,诸如有源深度相机或立体装置然而,这些传感器在校准中需要更大的努力,并且增加了视觉系统的成本。如果使用关于对象的典型尺寸或外观的先验知识,则也可以从单个图像恢复度量深度基于深度学习2N. 是的,R。 Wang,J. Stu¨cklerandD.Cremers图1:DVSO在KITTI上实现了与最先进的立体方法相当的单眼视觉里程计。它使用基于深度学习的左右差异预测(左下)用于基于优化的直接视觉里程计流水线中的初始化和虚拟立体约束。这允许恢复准确的度量估计。一些方法通过在大量数据上训练深度神经网络来解决这个问题在本文中,我们提出了一种新的方法,单目视觉里程计,深度虚拟立体里程计(DVSO),它将深度预测到一个几何单目里程计管道。我们在窗口直接光束法平差的框架内将深度立体视差用于虚拟直接图像对准约束(例如,直接稀疏测距法[8])。DVSO在KITTI里程计基准上实现了与最先进的立体视觉里程计系统相当的性能。它甚至可以优于最先进的几何VO方法时,调整规模相关的参数,如虚拟立体基线。作为一个额外的贡献,我们提出了一个新的堆叠残差网络架构,细化视差估计在两个阶段,并在半监督的方式进行训练在典型的监督学习方法[6,25,24]中,需要获取深度需要大量这样的标记数据是限制对新环境的推广的额外负担。另一方面,自监督[11,14]和无监督学习方法[49通常,他们在光度一致性上训练网络,例如在立体图像中[11,14],这减少了收集训练数据的工作量。尽管如此,目前的自我监督方法并不像监督方法那样准确[23]。我们将自我监督和监督训练相结合,但在我们的方法中避免了昂贵的LiDAR数据收集。相反,我们利用立体直接稀疏测距法(立体DSO [40])来在训练集上提供我们的深度预测网络在KITTI上的表现优于当前最先进的方法。演示我们的方法以及结果的视频可在https://youtu.be/sLZOeC9z_tw网站。1.1相关工作单目深度估计的深度学习。基于深度学习的方法最近在单目深度估计方面取得了巨大进展DVSO:利用深度预测进行单目DSO3采用深度神经网络避免了先前方法中使用的手工特征[36,19]。监督深度学习[6,25,24]最近在单目深度估计方面取得了巨大成功。Eigen等人[6,5]提出了一种双尺度CNN架构,其直接从单个图像预测深度图。Laina等人[24]提出了一种具有鲁棒回归损失函数的基于残差网络[17]的完全卷积编码器-解码器架构[27]。上述监督学习方法需要大量的地面实况深度数据用于训练。自监督方法[11,44,14]通过利用光一致性和几何约束来定义损失函数,例如在立体相机设置中这样,训练仅Godard等人[14]实现了用于完全自监督方法的最先进的深度估计精度。Kuznietsov等人提出的半监督方案[23]将自监督损失与具有稀疏LiDAR地面实况的监督相结合它们不需要多尺度深度监督或左右一致性,并且比[14]中的自监督方法 这种半监督方法的局限性是需要收集成本高昂的LiDAR数据。在我们的方法中,我们使用立体直接稀疏测距来获得稀疏深度地面实况,用于半监督训练。由于提取的深度图甚至比LiDAR数据更稀疏,因此我们还采用了多尺度自监督训练和左右一致性,如Godard等人所述。[14 ]第10段。受[20,34]的启发,我们设计了一个利用剩余学习概念的堆栈网络架构[17]。VO/ SLAM的深度学习近年来,在单目VO和SLAM方法的开发中已经取得了很大的进展[31,9,8,32]。由于投影几何学,无法使用单个相机[37]观察公制刻度,因此,一种流行的方法是使用立体相机用于VO [10,8,31],其避免了尺度模糊性并利用具有固定基线的立体虽然立体VO提供更可靠的深度估计,但它需要自校准以用于长期操作[4,46]。第二相机的集成也引入了额外的成本。一些最近的单眼VO方法已经集成了单眼深度估计[46,39]以通过尺度匹配来恢复度量尺度CNN-SLAM [39]通过使用CNN预测深度并使用贝叶斯滤波[9,7]细化深度图来扩展LSD-SLAM [9]他们的方法在室内数据集[15,38]上显示出优于单目SLAM [9,30,45,35Yin等人。[46]提出使用卷积神经场和连续帧来改进CNN的单眼深度估计。使用细化的深度来估计相机运动。CodeSLAM [2]专注于密集3D重建的挑战。它共同优化了学习的紧凑表示的密集几何与相机姿势。我们的工作解决了单目相机的里程计的问题,并集成了深度预测与多视图立体,以提高相机姿态估计。另一条研究路线训练网络直接预测自我运动端到端使用监督[41]或非超4N. 是的,R。 Wang,J. Stu¨cklerandD.Cremers简单,sStackNetSimpleNetResidualNet输出图2:StackNet架构概述。学习[49,26]然而,这些方法的估计的自我运动仍然远不如几何视觉里程计方法。在我们的方法中,我们将视觉里程计作为几何优化问题,但将光一致性约束与最先进的深单目深度预测结合到优化中。这样,我们获得了一个高度准确的单眼视觉里程计,是不容易规模漂移,并取得了可比的结果,传统的立体VO方法。2半监督的单目深度估计在本节中,我们将介绍我们的半监督方法来进行深度单眼深度估计。它建立在三个关键要素之上:类似于[14]的立体设置中的来自光一致性的自监督学习,基于立体DSO的精确稀疏深度重建的监督学习,以及堆叠编码器-解码器架构中的网络预测的两阶段细化。2.1网络架构我 们 将 我 们 的 架 构 称 为 StackNet , 因 为 它 堆 叠 了 两 个 子 网 络 ,SimpleNet和ResidualNet,如图2所示。两个子网络都是采用DispNet [28]的全卷积深度神经网络,具有编码器-解码器方案。ResidualNet具有较少的层,并将SimpleNet的输出作为输入。其目的是通过学习加性残差信号来细化由SimpleNet预测的视差图。类似的残差学习架构已成功应用于相关的深度学习任务[20,34]。详细的网络体系结构在补充材料中进行了说明。SimpleNet。SimpleNet是一种编码器-解码器架构,具有基于ResNet-50的编码器和相应编码器和解码器层之间的跳过连接解码器将特征图上投影到原始分辨率,并且生成4对视差图displeft权简单,s 在不同情况下-解s∈[0,3].上投影通过调整卷积实现[33],即,以因子2的最近邻上采样层,随后是卷积层。跳过连接的使用使得解码器能够恢复具有细粒度细节的高分辨率结果。和显示DVSO:利用深度预测进行单目DSO5简单,0简单,0重组子重组子重组子重组子剩余净ResidualNet的目的是进一步细化SimpleNet预测的视差图。ResidualNet将残差信号disp_res,s学习到视差图disp_simple,s(左和右以及所有分辨率)。受FlowNet 2.0 [20]的启发,ResidualNet的输入包含关于SimpleNet的预测和错误的各种信息:我们输入Ileft,左简单,0右重建左recons 和el,其中右重建是通过使用dispright向左扭曲I而重建的右图像。左recons 是通过反向扭曲I右使用左显示。–对于扭曲,需要校正的立体图像,而不需要立体相机的intrin-sics和extrinics,因为我们的网络直接输出视差。最终的细化输出disps是disps=dispsimple,sdispres,s,s∈[0, 3],其中是逐元素求和。ResidualNet的编码器总共包含12个残差块,并且将残差视差图的4个尺度预测为SimpleNet。在我们的实验中,添加更多的层并不能进一步提高性能。值得注意的是,只有左图像被用作SimpleNet和ResidualNet的输入,而右图像不是必需的。然而,网络输出左立体图像和右立体图像的细化视差图。这两个事实对于我们的单眼视觉里程计方法都很重要。2.2损失函数WΣedefineealosLsateachoutputsales,resultinthetotalosL=3s=0 Ls. 每个尺度的损失Ls是五项的线性组合,在左图像和右图像中是对称的,Ls=αU .ΣL左+L右+αS .ΣL左+L右+αlr .ΣL左+L右U U.左SΣ权S. 左lrlr右舵(一)+α平滑L光滑+L光滑+αocc Locc+Locc,其中,L_U是自监督损失,L_S是监督损失,L_Ir是左右一致性损失,L_smooth是促使预测的视差局部平滑的平滑项,并且L_occ是遮挡正则化项。在下文中,我们详细描述了每个尺度下损失函数左侧的左侧分量L右分量L右被对称地定义。自我监督损失。自监督损失度量重建图像的质量。通过将输入图像扭曲到另一校正立体图像的视图中来生成重建图像这个过程对于双线性采样是完全(次)可微的[21]。受[14,47]的启发,重建图像的质量是通过结合RIS1损失和单尺度结构相似性(SSIM)来测量的[42]:L左=1Σ1− SSIMα. 我离开Σ(x,y),我离开(x,y)UN2x为oh(二)+(1−α)Ileft(x,y)−Ileft(x,y)1,disp,我,我––6N. 是的,R。 Wang,J. Stu¨cklerandD.Cremers光滑OCC1ΣSSIM使用3 × 3箱式滤波器,α设置为0。84.监督损失。监督损失测量预测视差图与由立体DSO在稀疏像素集合处估计的视差的偏差:左1Σ.左Σ左Ls=Nβǫ(x,y)∈ΩDSO,左disp(x,y)−dispDSO(x,y)(三)其中,ΩDSO , left是具有由DSO和β(x)是在[24]中引入的反向Huber(berHu)范数,它让训练更多地关注更大的残差。霸王阈值自适应地设置为。批 次 相关值= 0。2最大. displeft(x,y)− displeft.(x,y)∈ΩDSO,左。DSO(x,y)。.左右视差一致性损失。仅给定左图像作为输入,网络预测左图像和右图像的视差图,如[14]所示。如[14,47]中所提出的,通过以下方式来提高左视差图像和右视差图像之间的一致性:1Σ。.L左=. displeft(x,y)− dispright(x − displeft(x,y),y). .(四)lrN..x为oh视差平滑正则化。基于立体图像匹配的深度重建本身就是一个不适定问题:不能确定均匀纹理区域和遮挡区域的深度。对于这些区域,我们应用正则化项Σ。.¨ ¨2左。¨.¨2¨左¨L左=1. 2天left.−¨xI(x,y)<$。 2左. −yI(x,y)¨光滑N.Xx为oh(x,y)。e+。电子显示(x,y)。e(五)这假定预测的视差图应该是局部平滑的。我们使用二阶平滑先验[43],并在图像梯度较高时对其进行降权[18]。遮挡正则化。我离开本身往往会产生阴影区域其中由于立体声,值从前景到背景逐渐改变闭塞为了支持背景深度和遮挡处的硬过渡[48],我们施加Lleft,其惩罚绝对视差的总和。平滑和遮挡正则化器的组合优选直接采用(较小的)邻近背景视差,这更好地对应于背景部分未被覆盖的L左=... 向左显示。(六)OCCN.x为oh(x,y)。.3深度虚拟立体测距深度虚拟立体测距(DVSO)建立在单目DSO的加窗稀疏直接光束法平差公式的我们通过两种关键方式使用DSO的视差预测:首先,初始化新关键帧的深度图DVSO:利用深度预测进行单目DSO7fbL R′pIJIJ没有没有初始化是的初始化?跟踪是的新KF?使KF联合优化边缘化精炼KFs图3:DVSO的系统概述每个新帧用于视觉里程计,并输入到所提出的StackNet中以预测左右视差。预测的左视差和右视差用于深度初始化,而右视差用于形成直接稀疏光束法平差中的虚拟立体项。从差异中。除了这种相当直接的方法,我们还在公司的虚拟直接图像对准约束到DSO的窗口直接光束法平差我们通过扭曲图像来获得这些约束,其中图像具有通过束调整估计的深度和通过我们的网络假设虚拟立体设置预测的右视差。如图3中所展示,DVSO整合左图像的经预测左视差及右视差两者。立体设置的右图像在任何阶段都不用于我们的VO方法,使其成为单目VO方法。在下文中,我们使用DL和DR作为简写来分别表示尺度s= 0处的预测的左视差图(disp_left)和右视差图(disp_right)0 0当使用纯几何线索时,尺度漂移是主要的误差来源之一由 于 尺 度 不 可 观 测 性 , 单 眼 VO [37] 。 在 DVSO 中 , 我 们 使 用 由StackNet预测的左视差图DL进行初始化,而不是像在单眼DSO [8]中那样随机初始化深度具有坐标p的图像点的视差值使用StackNet [16]的训练集的经校正的相机本征和立体基线被转换成逆深度dpd= DL(p)。以这种方式,DVSO的初始化变得比DVSO更稳定。X单目DSO和深度用一致的度量尺度初始化。DVSO的点选择策略类似于单目DSO [8],同时我们还引入了左右一致性检查(类似于等式(4))以过滤掉可能位于遮挡区域..Σ Σ⊤..e=D(p)−D(p)其中p′ = p−DL(p)0.(七)湖.elr>1的像素不被选择。每个新帧首先相对于参考关键帧使用直接图像对齐以粗到精的方式进行跟踪[8]。之后,DVSO决定是否必须为在cri之后的新帧创建新的关键帧这是由[8]提出的。当ΣanewΣkeyframΣe为created时,能量函数Ephoto:=i∈Fp∈Pij∈obs(p)p需要被优化,其中,F是包含活动关键帧的固定大小的窗口,从其主关键帧中选择的具有索引i和j∈obs(p)的点是索引观察到p的关键帧。Ep是点pE8N. 是的,R。 Wang,J. Stu¨cklerandD.Cremers¨¨CCC我¨IJ当从主关键帧Ii投影到另一关键帧Ij上时:¨ ¨péeajéEij:=ωp¨(Ij[p~]−bj)−eai(Ii[p]−bi)¨γ 、(8)其中,rep是指在使用reel时预先执行的图像编码。iverotationmatrinxR∈SO(3)anddtranslationvectort∈R3[16],p~=ΠcRΠ−1(p,dp)+t,其中Πc和Π−1是相机投影和反投影函数。这些参数ai、aj、bi和bjj用于改进仿射贝叶斯变换[8]。权重ωp惩罚具有高图像梯度的点[8],直觉上,源自于该方向的精确图像值的双线性插值的误差是大的。 ·关于能量函数的详细说明,请参见[8]。为了进一步提高DVSO的准确性,受立体DSO [40]的启发,立体DSO [ 40 ]将静态立体项与时间多视图能量函数相耦合,我们为每个点p引入了新的虚拟立体项EpE†p=ω¨I†Σp†Σ¨-I[p]¨与I†Σ p †Σ= IΣp†− Σ。 ΣDRp†Σ⊤Σ0、 (9)ipéiiüiiγ其中,pt =Πc(Π-1(p,dp)+ tb)是p的虚拟投影坐标,使用表示在StackNet的训练期间已知的虚拟立体基线的向量tb这个术语背后的直觉是优化视觉里程计的估计深度,以与StackNet的视差预测一致我们不是直接将一致性强加于估计和预测的视差上,而是用photoconsistency来表示残差,这更好地反映了StackNet预测的不确定性,并且还使残差的单位与时间直接图像对齐项保持一致然后我们优化总能量Ephoto:= ΣΣi∈Fp ∈PiλE†p+Σj∈obs(p)(10)其中耦合因子λ平衡时间项和虚拟立体项。使用高斯牛顿法[8]联合优化总能量的所有参数。为了保持活动窗口的固定大小(在我们的实验中N= 7个关键帧),通过使用Schur补[8]进行边缘化来从系统中移除旧的关键帧。与滑动窗口光束法平差不同,优化窗口之外的参数估计(包括边缘化先验中的相机姿态和深度)也被并入到优化中。与MSCKF [29]相比,像素的深度被显式地保持在状态中并被优化。在我们的优化框架中,我们使用鲁棒规范来权衡预测深度和三角测量深度4实验我们在公开可用的KITTI数据集上使用其他最先进的单目深度预测方法定量评估了我们的StackNet [12]。在DVSO:利用深度预测进行单目DSO9InputGTOursKuznietsov等人[23日]Godard等人[14]Garg et al.[11]Eigen et al.[6]美国图4:与现有技术方法的定性比较。为了更好的可视化,对地面实况进行插值。我们的方法显示出比自监督方法更好的薄结构预测[14],并且比使用LiDAR数据的半监督方法提供更详细的视差图[23]。补充材料,我们展示了Cityscapes数据集[3]和Make3D数据集[36]的结果,以显示泛化能力。对于DVSO,我们评估其跟踪精度的KITTI里程计基准与其他国家的最先进的单眼以及立体视觉里程计系统。在补充资料中,我们还将其结果应用于Cityscapes数据集的Frankfurt序列,以展示DVSO的推广性。4.1单目深度估计数据集。 我们使用Eigen等人的train/test split(K)来训练StackNet。[6]的文件。训练集包含来自28个场景的23488个图像,属于类别“城市”、“乡村”和“道路”。 我们使用了22600张图像进行验证,其余图像用于验证。我们进一步将K分成2个子集Ko和Kr。Ko包含出现在KITTI里程计基准的训练集(但不是测试集)中的序列的图像,我们使用Stereo DSO [40]来提取稀疏的地面实况深度数据。K r包含K中剩余的图像。具体地,KK0包含KITTI里程计基准的序列01、02、06、08、09和10的图像实作详细数据。StackNet在TensorFlow[1]中实现,并在单个TitanX Pascal GPU上从头开始训练。 我们将图像大小调整为512 × 256进行训练,包括I/O开销在内,推理时间不到40 ms。权重设置为α u=1,α s= 10,α lr= 1,α smooth= 0。1/2 s和α occ= 0。01,其中s是输出比例 。 正 如 [14] 所 建 议 的 , 我 们 为 SimpleNet 使 用 指 数 线 性 单 元( ELU ) , 而 我 们 为ResidualNet使 用 泄 漏 整 流 线 性 单 元 ( LeakyReLU)。 我们首先使用Adam优化器[ 22 ]以半监督的方式在Ko上训练SimpleNet 80个epoch,批量大小为8。 学习率最初设置为λ = 10 −4,用于前50个epoch,然后每15个epoch减半,直到结束。 然后,我们在Kr上以没有LS的自监督方式训练λ = 5 × 10 −5的SimpleNet 40个epoch。最后,我们再次在没有LU的情况下使用λ= 10−5训练5个epoch。我们在补充材料中详细解释了数据集时间表以及参数调整。在 训 练 SimpleNet 之 后 , 我 们 冻 结 其 权 重 并 通 过 cas-cadingResidualNet来训练StackNetStackNet在相同的数据集中使用λ= 5× 10−5进行训练10N. 是的,R。 Wang,J. Stu¨cklerandD.Cremers时间表,但具有较少的时期,即30、15、3个时期。我们应用随机伽马、亮度和颜色增强[14]。我们还采用戈达尔等人提出的左视差后处理。[14]以减少立体不遮挡的影响。在补充材料中,我们还提供了对各种损失项的烧蚀研究。凯蒂表1显示了使用误差度量的评估结果[6]。我们裁剪的图像应用Eigen等人。[23][24][25][26][27][28][29][我们的网络的最佳性能是通过如上所述的数据集调度Ko→Kr→Ko我们优于戈达尔等人提出的最先进的自我监督的方法”[14]大部分的。我们的方法也优于国家的最先进的半监督方法,使用激光雷达地面实况Kuznietsov等人提出的 [23]除了限制较少的δ 1外,所有指标<都是如此。252和δ<1。253.图4示出了与其他现有技术方法的定性比较与半监督方法相比,我们的结果包含更多的细节,并提供类似的预测薄结构,如极。 虽然Godard et al.[14]在某些部分上显得比较详细,它们实际上并不准确,这可以通过定量评价来推断。一般而言,Godard et al.[14]对薄物体的测量并不准确作为我们的方法。在补充材料中,我们展示了预测的深度图。图5进一步显示了我们的方法与最先进的自监督和半监督方法相比的优势。Godard et al.[14]由使用Cityscapes数据集和KITTI数据集训练的网络预测。在左图中远处建筑物的墙壁上,我们的网络可以更好地预测表面上的一致深度,而自监督网络的预测显示出强烈的棋盘格伪像,这显然是不准确的。半监督方法还显示棋盘伪影(但更轻微)。图的右侧显示了Godard等人的方法的阴影伪影。[14]周围的交通标志的边界,而Kuznietsov等人的结果。[23]无法预测结构。请参阅我们的补充材料了解进一步的结果。我们还展示了我们训练的深度预测网络如何推广到补充材料中的其他数据集。4.2单眼视觉里程计KITTI里程计基准。 KITTI里程计基准包含11(0-10)个训练序列和11(11-21)个测试序列。为训练序列提供地面实况6D姿态,而对于测试序列,通过提交到KITTI网站获得评估结果。我们使用[12]中提出的误差度量。我们首先提供了一个消融研究DVSO显示在我们的方法中的设计选择的有效性。在表2中,我们给出了具有以下组分的不同变体中的DVSO的结果:用左视差预测(in )初始化深度,在窗口束调整(vs)中使用虚拟立体项的右视差,检查左右视差一致性DVSO:利用深度预测进行单目DSO11RMSE RMSE(log)ARD SRDδ<1。25 δ<1。25 2δ<1。253方法数据集低越好越高越好Godard等人[14],ResNetCS→K4.9350.2060.114 0.8980.8610.9490.976Kuznietsov等人[23日]K4.6210.1890.1130.7410.8620.9600.986我们的,SimpleNetKo4.8860.2090.112 0.8880.8620.9500.976我们的,SimpleNetKo→ Kr4.8170.2020.108 0.8620.8670.9500.977我们的,SimpleNetKr→ Ko4.8900.2080.115 0.8700.8630.9500.977我们的,SimpleNetKo→ Kr→ Ko4.7850.1990.107 0.8520.8660.9500.978我们的,StackNetKo→ Kr→ Ko4.4420.1870.097 0.7340.8880.9580.980Garg等人[11] L12 Aug8×K5.1040.2730.169 1.0800.7400.9040.962Godard等人[14],ResNetCS→K3.7290.1940.108 0.6570.8730.9540.979Kuznietsov等人[23日]K3.5180.1790.1080.5950.8750.9640.988我们的,StackNetKo→ Kr→ Ko3.3900.1770.092 0.5470.8980.9620.982表1:Eigen等人的KITTI [13]原始测试分割的评价结果[6]的文件。CS指的是Cityscapes数据集[3]。上部:深度范围0-80 m,下部:1-50 m。所有结果均使用来自[6]的作物获得。我们在Ko上训练的SimpleNet优于在CS和K上训练的[14StackNet在大多数指标上也优于LiDAR [23OursGodard et al. [14] Kuznietsov et al. [23日]F ig. 5:E i g e n e t al上的Qualitativer esults。这是我的生日礼物。Godardet al.[14]显示了物体轮廓周围的强烈阴影效果,而我们的结果没有。Kuznietsov [23]的结果表明预测交通标志失败其他两种方法[14,23]都预测了远处建筑物上的棋盘状伪影,而我们的方法预测的此类伪影较少。用于点选择(LR)和调谐虚拟立体声基线TB。虚拟立体基线背后的直觉是,StackNet是在各种相机参数上训练的,因此为平均基线提供了深度尺度因此,对于tb,使用一个训练序列上的网格搜索,针对训练集中的3个不同相机参数集中的每一个单独地调谐基线。具体而言,我们调整了序列00、03和05上的基线,这些基线对应于3个不同的相机参数集。测试集包含与训练集相同的相机参数集,并且我们相应地映射tb的虚拟基线单眼DSO(Sim(3)对齐后)也显示为基线。结果表明,我们的完整方法达到了最佳的平均性能。与使用[14]的深度预测相比,我们的StackNet还显著提高了DVSO的性能我们还比较DVSO与其他国家的最先进的立体视觉里程计系统的序列00-10。具有标记*的序列用于训练StackNet,而具有标记†的序列不用于训练网络。在表3和下表中,DVSO表示我们的完整方法12N. 是的,R。 Wang,J. Stu¨cklerandD.CremersMonoDSOinin,vs in,vs,lr in,vs,tb DVSO '([ 14 ])DVSOSeq.trelrrelt相对rrel trel rrel t相对rrel t相对rrel t相对rrelt相对rrel00†1880.2513.10.30 0.95 0.24 0.93 0.24 0.730.251.020.280.71 0.2403†17.70.179.100.29 2.56 0.19 2.56 0.180.78 0.19 4.780.180.790.1804†0.820.160.830.29 0.69 0.06 0.67 0.070.36 0.06 2.030.140.35 0.0605†72.60.2312.70.230.67 0.23 0.64 0.230.61 0.23 2.110.210.58 0.2207†48.40.3218.50.91 0.85 0.410.80 0.38 0.81 0.40 1.090.390.73 0.3501∗9.170.124.300.41 1.50 0.11 1.52 0.121.15 0.11 1.230.111.18 0.1102∗1140.229.580.26 1.08 0.23 1.05 0.230.860.230.870.230.84 0.2206∗42.20.2011.20.30 0.84 0.23 0.80 0.240.730.230.870.240.71 0.2008∗1770.2614.90.28 1.110.261.10 0.261.050.261.050.261.03 0.2509∗28.10.2114.20.231.03 0.21 0.95 0.21 0.88 0.210.870.210.83 0.2110∗24.00.229.930.27 0.58 0.230.590.220.740.220.680.210.74 0.21平均†65.50 0.23 10.85 0.40 1.14 0.23 1.12 0.220.660.23 2.210.240.63 0.21平均值 *65.75 0.2110.69 0.29 1.02 0.21 1.00 0.210.900.210.930.210.89 0.20总体平均65.64 0.2110.76 0.34 1.08 0.22 1.06 0.220.79 0.22 1.510.220.77 0.20表2:DVSO的消融研究。和†分别表示用于和不用于训练StackNet的序列。trel(%)和rrel(◦)分别是平移和旋转RMSE。trel和rrel均为100至800 m间隔的平均值。in:DL用于深度初始化。vs:虚拟立体声术语与DR-起使用。LR:使用预测来检查左右视差一致性tb:使用一个虚拟行。 DVSO’([ 14 ]):f ul 1(i n,v s,l r,t b),其中从[ 14 ]得到。DVSO:来自StackNet的完整深度最好的结果显示为粗体,第二好的斜体。DVSO明显优于其他变体。具有基线调谐(in、vs、lr、tb)。没有基线调谐的DVSO的平均RMSE优于Stereo LSD-VO,但不如Stereo DSO [40]或ORB-SLAM 2 [31](立体声,没有全局优化和环路闭合)。重要的是,DVSO仅使用单眼图像。通过基线调谐,DVSO在旋转和平移误差方面都比所有其他立体声系统实现了更好的平均性能。图6示出了序列00上的估计轨迹。单目ORB-SLAM 2和DSO都存在很强的尺度漂移,而DVSO在消除尺度漂移方面具有优异的性能我们还显示了估计的轨迹00运行DVSO使用的深度图预测戈达尔等人。[14]模型在Cityscapes和KITTI数据集上训练。对于图6中的结果,我们的深度预测更准确。图7示出了序列11-21的评估结果,其通过将具有和不具有基线调谐的DVSO的结果提交到KITTI里程计基准来进行。注意,在图7中,立体声LSD-SLAM和ORB-SLAM 2都是具有全局优化和循环闭合的全立体声SLAM方法。关于进一步估计轨迹的定性比较,请参阅我们的补充材料。我们还将DVSO与DeepVO [41],UnDeepVO [26]和SfMLEarner [49]进行了比较,这些都是基于深度学习的视觉里程计系统,在KITTI上进行了端到端的训练。如表4所示,在所有可用序列上,DVSO实现了比其他两种端到端方法更好的性能。表4还示出了与由Yin等人提出的用于单眼VO的基于深度学习的尺度恢复方法的比较。[46 ]第46段。DVSO也优于他们的方法。在补充材料中,我们还显示了CityscapesFrankfurt序列的估计轨迹,以证明泛化能力。DVSO:利用深度预测进行单目DSO13St. LSD-VO [10] ORB-SLAM2 [31] St. DSO [40]in,vs,lrDVSOSeq.t相对rrelt相对rrelt相对rrelt相对rrelt相对rrel00†1.090.420.830.290.840.260.930.240.710.2403†1.160.320.710.170.920.162.560.180.770.1804†0.420.340.450.180.650.150.670.070.350.0605†0.900.340.640.260.680.190.640.230.580.2207†1.250.790.780.420.830.360.800.380.730.3501∗2.130.371.380.201.430.091.520.121.180.1102∗1.090.370.810.280.780.211.050.230.840.2206∗1.280.430.820.250.670.200.800.240.710.2008∗1.240.381.070.310.980.251.100.261.030.2509∗1.220.280.820.250.980.180.950.210.830.2110∗0.750.340.580.280.490.180.590.220.740.21平均†0.960.440.680.260.780.221.120.220.630.21平均值 *总体平均1.291.140.360.400.910.810.260.260.890.840.190.201.001.060.210.220.890.770.200.20表3:与最先进的立体视觉里程计的比较。DVSO:我们的完整方法(in,vs,lr,tb)。对于立体ORB-SLAM 2和立体LSD-SLAM,全局优化和循环闭合被关闭DVSO(单眼)实现了与这些立体方法相当的性能。图 6 : 关 于 KITTI 测 距 法seq. 00.顶部:与单眼方法(Sim(3)对齐)和立体方法的比较。DVSO提供了显着更一致的轨迹比其他单目方法和比较立体的方 法 。 下 图 : 使 用StackNet 的 DVSO 比 使 用[14]生成更准确的轨迹和地图。4003002001000-100-400-300-200-1000100200300x[m]450400350300250200150100500GT立体声ORB立体声DSOin,vs,lrDVSO-300两百-1000100200300x[m]5结论我们提出了一种新的单目视觉里程计系统,DVSO,恢复度量尺度和减少尺度漂移的几何单目VO。深度学习方法预测用于将DSO中的稀疏深度初始化为一致度量尺度的输入图像的单眼深度图通过一个新的虚拟立体项进一步改进了测距法对于单目深度预测,我们已经提出了一种半监督深度学习方法,其利用来自立体DSO的自监督图像重建损失和稀疏深度预测作为用于监督的地面真实深度。堆叠的网络架构预测最先进的细化差异估计。我们对KITTI里程计基准进行的评估表明,DVSO优于最先进的单眼方法的大幅度,并取得了与立体VO方法相当的结果虚拟基地-我们Godard等人[6]美国y[m]GTMono ORB单通道DSO输入,vs,lrDVSOy[m]14N. 是的,R。 Wang,J. Stu¨cklerandD.Cremers1.81.61.41.210.80.60.50.40.30.20.6100 200 300 400 500 600 700 800路径长度[m]0.1100 200 300 400 500 600 700 800路径长度[m]图7:KITTI里程计测试装置的评估结果我们示出了相对于路径长度间隔的平移和旋转误差。对于平移误差,DVSO实现了与StereoLSD-SLAM相当的性能,而对于旋转误差,DVSO实现了与StereoDSO相当的结果,并且比所有其他方法都更好。请注意,通过虚拟基线调整,DVSO在所有评估的方法中实现了最佳性能[26 ] Jiangsu Zhuang et al.[49]第四十九话:一个人in,vs,lrDVSOSeq.t相对rrelt相对rrelt相对rrelt相对rrelt相对rrelt相对 rrel00†−−4.411.92−−66.356.130.930.240.710.2403†8.496.895.006.17−−10.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功