没有合适的资源?快使用搜索试试~ 我知道了~
4898VOLDOR:Log-logistic密集光流恢复的视觉里程计杨志祥闵一丁恩里克邓恩史蒂文斯理工{zmin1,yyang99,edunn}@ stevens.edu摘要我们提出了一个密集的间接视觉里程计方法作为输入外部估计光流场,而不是手工制作的功能对应。我们将我们的问题定义为概率模型,并开发了一个广义EM公式,用于联合推断相机运动,像素深度和运动轨迹置信度。与传统的假设高斯分布观测误差的方法相反此外,对数逻辑残差模型很好地推广到不同的国家的最先进的光流方法,使我们的方法模块化和不可知的光流估计的选择。我们的方法在TUM RGB-D和KITTI odom-Benchmark上都取得了一流的结果我们的开源实现1本质上是GPU友好的,只有线性的计算和存储增长。1. 介绍视觉里程计(VO)[60,21,22]解决了从输入视频序列中重新制作相机姿势的问题,这支持诸如增强现实,机器人和自动驾驶等应用。传统的间接VO [47,64,57]方法依赖于稀疏关键点对应的几何分析来确定输入视频帧之间的多视图关系。 此外,由于依赖于局部特征检测和相应的预处理模块,间接方法将VO问题作为重投影误差最小化任务。相反,直接方法[58,16,45]致力于联合确定跨图像的(半)密集配准(扭曲)以及相机运动模型的参数。直接法通过计算稠密的对应域,力求使配准图像间的光度误差最小。虽然这两种截然不同的方法在实践中都取得了成功,但仍有重要的局限性需要解决。一个开放的问题在indi-1https://github.com/htkseason/VOLDOR图1:VOLDOR概率图模型。 光流场序列被建模为观测变量,受到Fisk分布的测量误差。相机姿态,深度图和刚度图建模为隐变量。正确的方法,是如何在VO [41,40,39,93]的上下文中表征特征定位误差,其中运动模糊,深度遮挡和视点变化可能会破坏这种估计。然而,最小二乘法通常在零均值高斯分布观测误差的假设下使用另一方面,直接方法的有效性依赖于严格遵守小运动和外观恒定性假设(或依赖于对此类变化鲁棒的配准模型的开发),这说明了在这种情况下充分建模数据变化的难度,并且反过来减少了其适用范围。使用监督学习的光流估计[77,35]的最新发展然而,这样的性能益处尚未渗透到姿态估计任务,其中标准多视图几何方法仍然提供这项工作开发了一个密集的间接框架monocular VO作为输入外部计算光流从监督学习估计。我们根据经验观察到,光流残差倾向于符合对数逻辑(即,Fisk)分布模型。我们利用这种洞察力来支持-4899提出了一个概率框架,融合了密集的光流序列,并通过广义EM公式联合估计相机运动,像素深度和运动轨迹置信度。我们的方法是稠密的,因为每个像素对应于我们估计的随机变量的一个实例;在我们将各个像素视为最小的基于特征的多视图几何模型(即,用于相机姿态的P3 P,用于像素深度的3D三角测量)并且隐式地优化重新投影误差。从一个确定性的引导的相机姿态和像素深度从光流输入,我们迭代交替的推理的深度,姿态和跟踪的信心在一批连续的图像。我们的框架的优点包括:1)我们提出了一个模块化框架,该框架与光流估计器引擎无关,这使我们能够充分利用最近的深度学习光流方法。此外,通过用学习到的密集光流替换稀疏的手工特征输入,我们获得了纹理不良(即,无特征)区域。2)通过利用我们经验验证的对数逻辑残差模型,我们获得了高度准确的场景深度和相机运动的概率估计,这不依赖于高斯误差假设。在KITTI [25]和TUM RGB-D [76]基准上的实验在视觉里程计和深度估计任务上都取得了最佳性能。我们的高度并行化的方法也允许实时应用程序的商品GPU为基础的架构。2. 相关作品间接方法。间接方法[92,32,59,20,13,29]依赖于输入视频帧之间的稀疏关键点对应的几何分析,并将VO问题作为重投影误差最小化任务。VISO [47]采用具有基于RANSAC的离群值拒绝的卡尔曼滤波器来鲁棒地估计帧到帧的运动。PTAM [64]将跟踪和映射拆分到不同的线程,并在后端应用昂贵的捆绑调整(BA),以实现更好的准确性,同时保持实时应用。ORB-SLAM [56,57]进一步引入了一种通用的SLAM系统,该系统具有更强大的后端,具有全局重新定位和循环关闭,允许大型环境应用。直接方法。 直接法[61,71,98,46,45,44,70,86]保持(半)稠密模型,并估计通过找到使光度误差w.r.t.视频帧。DTAM [58]介绍了一种基于GPU的实时密集建模和跟踪方法,适用于小型无人机。LSD-SLAM [16]切换到半密集模型,允许大规模CPU实时深度学习VO. 最近,深度学习在视觉里程计问题上取得了蓬勃发展。在[89,52,79]中已经提出了通过基于学习的深度预测的几何先验来增强VO将深度表示集成到诸如特征点、深度图和优化器之类的组件中已经在[78,5,11,12]中提出。联合估计深度、光流和相机运动的深度学习框架已经在[102,91,94,80,81,54,103,36,84,66,72,6,9,97]。在[82,83,88,49]中提出了进一步添加用于学习时间信息的然而,深度学习方法通常不太容易解释,并且在传输到具有不同校准的看不见的数据集或相机时有困难。此外,这种方法的精确度仍然低于现有技术。深度学习光流与基于学习的单目深度方法[23,28,27,96,31]相反,该方法开发并施加强语义先验,用于光流估计的学习可以通过光度学来通知错误并实现更好的泛化。最近的深度学习工作在光流估计[85,33,90,65,38,51,34,101,35,14,77]已经显示出令人满意的准确性,鲁棒性和泛化,优于传统方法,特别是在具有挑战性的条件下,如无纹理区域,运动模糊和大遮挡。FlowNet[14]介绍了一种用于光流的编码器-解码器卷积神经网络。FlowNet2 [35]通过堆叠多个基本FlowNet来提高其性能。最近,PWC-Net [77]将空间金字塔、扭曲和成本卷集成到深度光流估计中,从而提高了性能并推广到当前最先进的水平。3. 问题公式化理由。光流可以被看作是与相机运动和场景结构相关的刚性流以及描述一般对象运动的无约束流的组合[87]。我们的VO方法输入一批外部计算的光流场,并推断出底层的时间一致的上述场景结构(深度图)、相机运动以及每个光流估计的“刚性”的逐像素概率此外,我们在经验验证的自适应对数逻辑残差模型的监督下,在估计的刚性流和输入(观察)流之间的端点误差(EPE)的系统框架几何符号。 我们输入外部计算的(观察到的)密集光流场序列X={Xt|其中,Xt是来自im的光流图。年龄It−1至It,而Xj=(uj,vj)T表示光学t t t应用程序. DSO [15]构建稀疏模型,并结合这是一个概率模型,它对所有参数进行联合优化,并进一步集成了完整的光度校准,以实现当前最先进的精度。像素j在时间t的流向量。我们的目标是推断相机姿态T={Tt|t=1,· · ·,tN},其中Tt∈SE(3)rep-表示从时间t-1到t的相对运动。定义一个与我们的观测值X相关的似然模型4900不不不t)是均匀分布的,t. 我们会-ttt图2:迭代估计工作流。我们输入外部计算的光流估计的视频序列。场景深度,摄像机姿势和刚性地图交替估计通过强制执行预测的刚性流和输入流观测之间的一致性估计是作为一个概率推理任务由菲斯克分布残差模型。对于T,我们引入两个额外的(潜在的)变量类型:1)定义在I0上的深度场θ;其中我们将θj表示为像素j处的深度值,以及2)与时间t处的θ相关联的刚性概率图Wt;而W={Wt|t =1,···,tN}表示刚性映射的集合,并且Wjde-注意像素j在时间t的刚性概率。有了深度图θ和刚性图W,我们可以通过将刚性变换T叠加到与θ相关联的点云上,以W为条件,获得刚性流w_t(θj)。设T0=I,πt(θj)表示π× el坐标将与θj相关联的3D点投影到凸轮中在前面的相机姿势T1,···,Tt−1上,我们假设固定的,并且对于Xt本质上不包含任何信息.此外,针对所有先前相机姿势连同Xt的联合建模将使它们偏置并且增加计算复杂度。在以下段落中-πt−1(θj)图,我们将表示Eq。 (2)简单地作为P(Xt|θj,Tt,Wj)。在这一点上,我们的视觉里程计问题可以建模为一个最大似然估计问题argmaxP(X |θ,T,W)θ,T, W使用给定的相机姿态T,在时间t拍摄图像平面,通过YYπt−1(θj) jj(3)πt(θj)=K.ΣYtTiθjK−1[xjyj1]T(1)=argmaxθ,T,WtP(Xt|θ,Tt,Wt)Ji=0时其中K是相机固有的 ,并且xj 、yj是像 素 j 的图像坐标。因此,刚性流可以定义为πt(θj )=πt(θj )−πt−1(θj)。混合似然模型我们将残差建模为-观察流和刚性流之间的关系,连续刚性概率W j。此外,我们通过不同的方法来提高我们的稠密隐变量θ和W之间的空间一致性。在§5.1中描述的机制。4. Fisk残差模型观测残差模型的选择对于从减少数量的观测[30,37]中进行准确的统计推断起着至关重要的作用,在我们的情况下,P(Xπt−1(θj)|θj,T,Wj;T.J1···Tt−1)πt−1(θj)jUAL被定义为两个光流矢量之间以像素为单位的端点误差。=ρ(θ)||Xt)如果Wt=1在实践中,分层光流方法(即,依靠-µ(Xπt−1(θj)jingon recursive scale-space analysis)[77,50]倾向于-t)如果Wt=0(二)其中概率密度函数ρ(·||·)表示在Xπt−1(θj)的观测流下具有刚性流的概率,并且μ(·密度随Xπt−1(θj)变化的三角形这两个功能在第4节中。但是,当模拟Xt的概率时,我们只在con-t中写下Tt概率,尽管预测也取决于与像素流矢量的大小成比例地放大估计误差鉴于此,我们探索了一种自适应残差模型,确定残差分布w.r.t.光流观测的量级。在图3中,我们根据经验分析了多个领先光流法[77,35,50,67]的残差分布。地面实况我们将经验分布拟合到五个不同的分析模型中,发现Fisk分布在所有流量量级上产生最一致的形状(见图3叠加图)。为了量化拟合优度,4901=Xt−1()2不图3:经验残差分布。KITTI [ 25 ]和Sintel [ 7 ]数据集的整个地面实况数据上PWC-Net输出的光流EPE残差超过流量幅度。图4(a),我们将K-S检验结果[3]量化我们的经验分布 和 参 考 分 析 分 布 之 间 的 CDF 的 上 确 界 距 离 ( D值)。(a) K-S检验(b)α、β图4:适应度量化和模型参数化。(a)四种光流法和五种分布的KS检验结果[3](b)分别使用对数线性和线性回归,根据KITTI经验数据估算α、β,如方程式所述。(6)、(7)。5. 推理在本节中,我们将介绍我们的迭代推理框架,该框架交替优化深度图、相机因此,给定vobπθjt,我们模拟概率姿势和刚度贴图。的vrig=t(θj),匹配底层的地面实况,如ρ(vrig<$vob)=F(vrig−vob<$2;A(vob),B(vob)),(4)其中Fisk分布F的PDF的函数形式由下式给出:(β/α)(x/α)β−15.1. 深度和刚度更新广义期望最大化(GEM)。 我们推断深度θ及其随时间的刚度W,同时假设固定的已知相机姿态T。我们估计了真实的位置-前P(X| θ,W;T)通过GEM框架[73]。在在本节中,我们将表示Eq。(2)如P(X| θ,W),其中F(x;α,β)=(1 +(x/α)β)2(5)固定的T被省略。 我们近似于难以处理的真实后P(θ,W|X)具有分布的受限Q族Q,从图4(b)中,我们进一步确定了菲斯克分销。由于图中显示了清晰的线性对应关系,因此我们不使用查找表,而是应用拟合函数来查找参数,如A(vob)=a1ea2<$vob<$2(6)其中,a1、a2和b1、b2是取决于光流估计方法的学习参数接下来,我们对异常值li k k函数μ(·)进行建模。一般的方法[53,99]是用统一的分布以提高鲁棒性。在我们的工作中,对于uti-假设q(θ,W),其中q(θ,W)=jq(θj)tq(Wt). F或可拓性y,q(θj)进 一 步 被约束到Kronec kerδ函数族q(θj)=δ(θj=θj),其中θj是待估计的参数。更进一步,q(Wt)继承了定义在刚性映射Wt上的光滑性,当量(11),文[73]证明了它是最小化变分分布与真后验之间的KL散度。在M步骤中,我们试图根据W j上的估计PDF来估计θ j g i的最佳值。NE XT,我们描述了我们的选择用于此任务的估计。最大似然估计(MLE)。对于我们的问题,MLE的标准定义如下:对观测流给出的先验进行限制,我们进一步让Jjπt−1(θj) j吉吉均匀分布的密度是观测流向量上的函数μ(·)θMLE=argmaxθjtq(Wt)log P(Xt|θ = θ,Wt)(9)其中q(Wj)是由下式给出的估计分布密度:µ(vob)=F(λvob2;A(vob),B(vob)(8)其中λ是调整密度的超参数,这也是选择内点的严格性。λ的数值解释是光流百分比EPE,4902不不E步。然而,我们根据经验发现,MLE标准对不准确的初始化过于敏感更具体地说,我们仅使用第一个光流引导深度图,并使用其深度值顺序引导不可区分离群值(Wj=0。(五)。 因此,随后的相机姿势(更多细节见§5.2和§5.3)。可以在公平的度量被选为内点。因此,对于有噪声/不准确的初始化,使用MLE估计细化将对4903WEMSWMIEprev递归计算为Σmf(Wj)=Pt,jmf(W j−1)P(W j|Wj−1)t emsΣj−1t不t t(十三)mb(Wj)=mb(W j+1)P t,j+1P(W j+1|W j)tj+1不t ems t不(十四)其中Pj是发射概率,参见等式(二)、t,jπt−1(θj) jj图5:深度推断模型。图像2D场被分解成交替定向的1D链,而深度值通过每个链传播。隐马尔可夫链平滑的刚性映射。刚性概率W,有利于减少数量的更高精度的初始化。考虑到连续性在我们的图像批量分析中,这往往会有效地减少用于估计后续相机的有用下游观测的集合最大内点估计(MIE)。为了减少由初始化和顺序更新引起的偏差,我们将MLE准则放宽为以下MIE准则,πt−1(θj) jj jPems= P(Xt|θ,Wt; T)。5.2. 姿态更新我们更新相机姿态,同时假设固定的已知深度θ和刚度图W。我们利用光流X中的链,以确定任何给定3D从深度图中提取的点。 因为我们的目标是建立-mate相对相机运动我们表示场景深度相对于时间t-1的相机姿态,并使用获得的3D-2D对应关系来定义密集的Paddle实例[100]。我们通过估计近似的模式来解决这个问题通过(最小)P3P实例对姿态空间进行蒙特卡罗采样得到的模拟后验分布。对异常值对应的鲁棒性和我们的方法提供的与初始化的独立性至关重要引导我们的视觉里程计系统§5.3,其中θj =argmaxq(W j = 1)logP(Xt|θ=θ,Wt =1)MIEttπt−1(θj)j jj相机姿态需要从头开始估计,θj P(Xt|θ =θ不,Wt)(十)无信息刚性图(全部为1)。其找到刚性(内点选择)图W的深度最大化。我们提供实验细节,MIE标准见§6.3。这个问题可以写为最大的一个职位-rior(MAP)byargmaxP(T |X; θ,W)(15)我们优化θj通过采样传播T如图5所示。一个随机取样的深度jsmp与前一深度值θj进行比较以─找到最佳相机姿态等于计算最大后验分布P(T|X;θ,W),即与从前一个邻居θj−1。然后,θj 将被更新为最佳值。不容易处理,因为它需要在T上积分来计算NBRMIEjP(X). 因此,我们使用基于Monte-Carlo的近似,这三种选择之间的差距。 更新后的θMIE将进一步传播到相邻像素j+1。更新刚度图。我们采用一种方案其中图像被分割成行和列,其中,对于每个深度图位置θj1,我们随机地采样两个附加的不同位置{j2,j3}以形成3元组Θg={θj1,θj2,θj3},具有相关联的rigi dne ssval。使用Wg={Wj1,Wj2,Wj3}来表示第g个组。二维图像到几个一维隐马尔可夫链,和一对-t t t t t t在刚性映射.ΣP(W)j|W j−1)= γ1 − γ(十一)后验概率可以近似为P(T |X; θ,W)Σ Σt t1−γ γY1年份≈P(T| Xπt−1(Θg);Θg,Wg)(十六)其中γ是促进相似邻近刚性的转移概率。在E步骤中,我们根据θ更新刚性映射W。 作为方程中定义的平滑Wθ4904G度。(11)、使用前向-后向算法进行推断,TTTt g其中S是组的总数。 虽然pos-前P(T|Xπt−1(Θ);Θg,Wg)仍然不容易处理,tt t隐马尔可夫链中的Wq(Wj)=1m(Wj)m(Wj)(12) tAftbt使用3对3D-2D对应关系,P3 P达到其最小形式的P3P,可以使用P3 P算法有效地求解[24,48,55,42]。所以我们有其中A是归一化因子,而m(Wj)和我的天Qt−1ΣG− 1Tgπt−1(Θg)2016 - 05 - 2500:00:00(i=0Ti ΘK[xgyg1],πt−1(Θ)+Xt)mb(Wj)是Wj的前向和后向消息(十七)t t4905不QW不不G不图6:姿势MAP近似经由基于均值漂移的模式搜索。每个3D-2D对应关系是唯一的最小P3 P实例的一部分,构成由刚性图加权的姿势样本。我们将样本映射到se(3),并运行meanshift来找到模式。其中φ(·,·)表示P3P解,我们使用AP3P[42]。第一输入参数指示通过组合先前相机姿势而获得的在时间t-1处的选定深度图像素的3D坐标,而第二输入参数指示在时间t-1处的选定深度图像素的3D坐标Ment是它们在时间t的2D对应,使用光流位移获得。因此,我们使用易处理的变分分布q(Tg)来近似其真实后验。q(Tg)<$N(Tg,)(18)输入:光流序列X ={Xt|t = 1···tN}输出:相机姿势T ={Tt|t = 1···tN}第一帧的深度图θ初始化W ={Wt|t = 1···tN} all to one使用对极几何从X1初始化T 1从T1和X1三角化θ重复直到T收敛对于i=1···t根据等式更新Ti(十九)根据等式更新和平滑W。(12)根据等式更新θ(十)根据等式更新W。(12)无平滑表1:VOLDOR算法。5.3. 算法集成我们现在描述我们的视觉里程计算法的集成工作流程,我们表示VOLDOR。 根据表1,我们的输入是密集光流序列X={Xt|t=1···tN},我们的输出将是每个帧T={Tt|t=1· · ·tN}以及第一帧的深度图θ。通常,每批使用4-8个光流 首先,VOLDOR将所有W都转换为1,T1从对极几何中初始化,从X1us估计-使用最小平方中值估计[68],或者,如果可用,从以前的估计(即,重叠的连续帧批次)。然后,使用T1和X1从两视图三角剖分获得θ。 接下来,优化循环t t在相机姿态、深度图和刚性图之间运行其中q(Tg)是平均Tg的正态分布,直到收敛,通常在3到5次迭代内。注意我们tt在更新相机之前没有平滑刚度图为了简单起见,预定义的固定协方差矩阵 毛皮-此外, 我们对每个变分分布进行加权,G姿势,以防止丢失指示观测中潜在高频噪声的精细细节。<$Wt<$=W∈WgWi,因此潜在离群值指示It可以排除或降低刚性图的权重。然后,完整的后验可以近似为6. 实验ΣY1P(T |X; θ,W)Σ布雷格q(T)6.1. KITTI基准我们测试了KITTI里程计基准[25],Wgt g不(十九)汽车在城市和高速公路环境中行驶。我们使用PWC-Net [77]作为外部密集光流输入。的我们近似了后验P(T|X; θ,W)滑动窗口大小被设置为6帧。我们在等式中设置λ(8)至q(Tg)的加权组合。 求解方 程 中 的0.15,γ (11)至0.9。 高斯核协方差不等式中的矩阵(18)被设置为对角线,缩放为0.1,后验的最优Tt等于找到模式的后方。由于我们假设所有q(Tg)共享相同的协方差结构,因此在此分布上的模式发现equates to applying meanshift [10] with a Gaussian kernelof covariance Σ. 请注意,由于Tg位于SE(3)[4]中,当将meanshift应用于向量空间时,不能保证获得的a模式位于SE(3)中。因此,T_g首先转化为一个6-向量p=10g(T_g)∈se(3)0.004,分别在平移和旋转维度上。Fisk残差模型的超参数是a1=0。01,a2=0。09,b1=−0。0022,b2=1. 0,从图3中获得。最后,采用像元与表面的模式,从地平面法向量接近垂直。附录中提供了接地层估计的更多详细信息t t在李代数中通过对数映射,适用于6-vector空间。4906表2和图7是我们在KITTI Odom上的结果训练集序列0-10。我们选择了VISO2 [26]4907图7:KITTI序列00、01、05、07的结果。单目VOLDOR不部署任何标测、光束法平差或闭环。比例尺是在假定摄像机距地面的固定和已知高度的情况下估计的。方法密度EPE /pxbg-离群值GC-Net [43]百分之一百0.72.21%PSMNet [8]百分之一百0.6百分之一点八六[95]第九十五话百分之一百0.51.55%我们的(Wj>5)百分之二十七点零七0.56161.47%我们的(Wj>4)37.87%0.67112.05%我们的(Wj>3)49.55%0.73422.56%我们的(Wj>2)62.50%0.81353.17%我们的(Wj>1)78.18%0.9274百分之四点一七我们的(Wj>0)百分之一百1.23045.82%表4:KITTI立体声基准测试结果。如果视差EPE> 3px且>5%,则像素被认为是离群值。Wjde-注意像素刚度的和Wj=Wj。tt表2:KITTI训练序列0-10的结果。平移和旋转误差在长度从100米到800米的所有子序列上以100米步长平均。表3:KITTI里程计测试序列11-21的结果。* 指示该方法基于立体声输入。[74] [75]作为我们的基线,其尺度也是从地面高度估计的。表3将我们的结果与最近流行的KITTI测试集序列11-21上的方法进行了结果表明,VOLDOR在KITTI数据集下的单目方法中达到了最高的准确率。表4显示了我们在KITTI立体声基准上的深度图质量我们掩盖了前景移动对象,并将我们的深度与地面实况对齐,以解决尺度模糊问题。我们分别评估了公司简介MLM-SFM沃尔多尔序列译(%)腐(deg/米)译(%)腐(deg/米)译(%)腐(deg/米)0012.530.02602.040.00481.090.00390128.090.0641--2.310.0037023.980.01231.500.00351.190.0042034.090.02063.370.00211.460.0034042.580.01621.430.00231.130.00490514.680.03792.190.00381.150.0041066.730.01952.090.00811.130.00450714.950.0558--1.630.00540811.630.02152.370.00441.500.0044094.940.01401.760.00471.610.00391023.360.03482.120.00851.440.0043Avg.10.850.02492.030.00451.320.0042序列ORB-SLAM2(RGB-D)DVO-SLAM(RGB-D)DSO(单声道)我们(单声道)fr1/desk0.01630.01850.01680.0133fr1/desk20.01620.02380.01880.0150fr 1/室0.01020.01170.01080.0090fr2/desk0.00450.00680.00480.0053fr2/xyz0.00340.00550.00250.0034fr 3/办公室0.00460.01020.00500.0045方法译(%)腐(度/米)[26]第二十六话11.940.0234[74]第75话:我的世界2.540.0057[17]第18届中国国际汽车工业展览会2.050.0051BVO [62]1.760.0036VOLDOR(我们的)1.650.0050[1]第二届中国国际汽车工业展览会2.690.0068[26]第二十六话2.440.01144908不不表5:TUM RGB-D数据集的结果。 这些值是以米为单位的translation RMSE。不 同 的 刚 性 概 率 , 其 中 Wj=<$Wj 。PSMNet[8]、GC-Net [43]和GA-Net [95]的EPE是在立体声2012测试集和背景离群值上测量的百分比是在立体声2015测试集上测量的,而我们的方法是在立体声2015上的训练集上测量的。6.2. TUM RGB D基准测试TUM RGB-D [ 76 ]的准确度实验比较了VOLDOR与完整的SLAM系统在所有情况下,我们严格地将轨迹与具有6帧的片段的地面实况对齐,并估计所有片段的平均平移RMSE。参数与KITTI实验相同我们的比较基线是间接稀疏方法ORB-SLAM 2 [57],直接稀疏方法DSO [15]和密集直接方法DVO-SLAM[45]。根据表5,4909(d)姿势采样(c)帧编号(b)消融研究深度(a)摄像机姿势下的消融研究(a)深度似然与高斯-(b)高斯分布下的核线分布(c)第(1)款深度似然菲斯克(d)Fisk核线分布(MLE/MIE)残差模型sian残差模型(MLE/MIE)残差模型残差模型图8:Fisk模型定性研究。(a)和(c)在高斯和Fisk残差模型下,利用MLE和MIE准则可视化深度似然函数。虚线表示由单个光流给出的可能性。实线是通过融合所有虚线获得的联合似然。MLE和MIE以不同的颜色显示。(c)以及(d)可视化40K相机姿态样本的核线分布。为了更好地可视化,(b)(d)的密度颜色条被不同地缩放。图9:消融研究和运行时间。(a)示出了在不同残差模型和密集光流输入下VOLDOR的相机姿态误差(* 由于C2F-Flow给出的噪声地面估计,其比例使用地面实况校正)。(b)显示了我们在不同残差模型下的深度图精度。(c)以及(d)示出了在GTX1080Ti GPU上测试的我们的方法的运行时间。VOLDOR在室内拍摄下表现良好,表现出较小的相机运动和多样化的运动模式。6.3. 消融和性能研究图8可视化了深度似然函数和相机姿态采样分布。使用我们的Fisk残差模型,来自每个单帧的深度似然性具有良好的局部极值(图1)。8-c),相比高斯残差模型(图。8-a)。这导致了具有更可区分的最优值的联合可能性,并导致更集中的相机姿态采样(图11)。8-b、d)。此外,利用MIE准则,Fisk残差模型的深度似然被放宽到更平滑的形状,其有效性在图1中进一步分析。9,而高斯残差模型是不可知的MIE和MLE之间的选择(图。8-a)。根据图中的定量研究9(b),与其他分析分布相比,Fisk残差模型在仅使用少量可靠观测值(低Wj)时给出了显著更好的深度估计随着可靠样本数量的增加(高Wj),不同残差模型的性能趋于收敛,而Fisk残差模型仍然提供最低的EPE。图9(a)显示了三种光流方法,四种残差模型和我们的提出了MIE标准。结合PWC-Net光流、Fisk残差模型和我们的MIE标准的准确性严格优于(在帕累托意义上)所有其他组合。 图9(b)显示了MIE标准产生的深度估计值在整个图像序列中更加一致,从而提高了整体精度。然而,在极端情况下,主要是不可靠的观测(非常低的W j)MLE提供了最准确的深度。图9(c)显示了不同帧编号下每个组件的总体运行时间评估图9(d)示出了在不同采样率下的姿态更新7. 结论从概念上讲,我们提出的VO问题的监督下的自适应模型的经验分布的密集opti- cal流残差的几何参数推断的一个实例实际上,我们开发了一个单眼VO管道,它避免了a)特征提取,b)基于ransac的估计,和c)本地捆绑调整的需要,但仍然在KITTI和TUM RGB-D基准测试中获得了最高的性能。我们使用密集间接表示和自适应数据驱动的超透视作为一个通用的和可扩展的框架,多视图几何分析任务。4910引用[1] 弗恩·阿南德斯·阿尔坎塔里拉。视觉定位:从人形机器人到视障人士。Electronics (University of Alcala, 2011),2011. 7[2] PabloFAlcantarilla , Jose 'JYebes , Ja vierAlmaza' n ,andLuis M Bergasa.结合视觉slam和稠密场景流,以提高动态环境中定位和映射的鲁棒性。在2012年IEEE机器人和自动化国际会议上,第1290-1297页。IEEE,2012。7[3] G Jogesh Babu和Calyampudi R Rao。估计参数时的拟合优度检验。Sankhya,66(1):63- 74,2004. 4[4] 何塞·路易斯·布兰科关于se(3)变换参数化和流形上优化的教程。马拉加理工大学Rep,3,2010. 6[5] Michael Bloesch 、 Jan Czarnowski 、 Ronald Clark 、StefanLeutenegger和AndrewJDavison。Codeslamlearning一个紧凑的,可优化的密集视觉冲击表示。在IEEE计算机视觉和模式识别会议论文集,第2560-2568页2[6] BehzadBozorgtabar , MohammadSaeedRad ,DwarikanathMahapatra,andJean-PhilippeThiran.Syndemo:Synergistic deep feature alignment forjoint learning of depth and ego-motion.在IEEE计算机视觉国际会议论文集,第4210-4219页2[7] D. J. Butler,J. Wulff,G. B. Stanley和M. J.布莱克。一个用于光流评估的自然主义开源电影。以.菲茨吉本等人 ( 编 ) , 编 辑 , 欧 洲 会 议 关 于 计 算 机 视 觉(ECCV),第IV部分,LNCS 7577,第611- 625页。Springer-Verlag,Oct. 2012. 4[8] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议集,第54107[9] 陈宇华,考迪莉亚·施密德,克里斯蒂安·斯明奇斯-埃斯库.单目视频中具有几何约束的自监督学习:连接流量,深度和摄像头。在IEEE计算机视觉国际会议论文集,第7063-7072页,2019年。2[10] 成义宗。均值漂移、模式搜索和聚类。IEEE模式分析与机器智能,17(8):790-799,1995。6[11] Ronald Clark , Michael Bloesch , Jan Czarnowski ,Stefan Leutenegger,and Andrew J Davison. Ls-net:学习解决单目立体的非线性最小二乘。arXiv预印本arXiv:1809.02966,2018。2[12] Gabriele Costante,Michele Mancini,Paolo Valigi,andThomas A Ciarfuglia.利用cnns探索帧到帧自我运动估计 的 表 示 学 习 。 IEEE Robotics and AutomationLetters,1(1):18-25,2015。2[13] Andrew J Davison,Ian D Reid,Nicholas D Molton,and Olivier Stasse. Monoslam:实时单摄像机猛击。IEEETransactionsonPatternAnalysisMachineIntelligence,(6):1052-1067,2007。2[14] Alexey Dosovitskiy,Philipp Fischer,Eddy Ilg,PhilipHausser , Caner Hazirbas , Vladimir Golkov , PatrickVanDer Smagt , Daniel Cremers , and Thomas Brox.Flownet:使用卷积网络学习光流在IEEE计算机视觉国际会议的论文集,第2758-2766页2[15] Jakob Engel,Vladlen Koltun,and Daniel Cremers.直接稀疏测距法。IEEE Transactions on Pattern Analysis andMachine Intelligence,40(3):611-625,2017。二、七[16] Ja k obEngel,ThomasSch o¨ ps,andDanielCremers. Lsd-slam:大规模直接单眼slam。在欧洲计算机视觉会议上,第834Springer,2014.一、二[17] Nolang Fanani , Matthias Ochs , Henry Bradler , andRudolf Mester.使用基于传播的跟踪的关键点轨迹估计。2016年IEEE智能车辆专题(IV),第933-939页。IEEE,2016. 7[18] NolangFanani,AlinaSturck,MarcBarnada和RudolfMester。单目视觉里程计的多模态尺度估计。2017年IEEE智能车辆研讨会(IV),第1714-1721页。IEEE,2017年。7[19] NolangFanani , AlinaStu?rck , MatthiasOchs ,HenryBradler,and Rudolf Mester.预测性单眼穹窿镜(PMO):如果没有移动和多帧光束法平差,什么是可能的?图像和视觉计算,68:37[20] ChristianForster , MatiaPizzoli , andDavideScaramuzza. SVO:快速半直接单眼视觉里程计。2014年IEEE机器人与自动化国际会议(ICRA),第15-22页。IEEE,2014。2[21] 弗里德里希·弗劳恩多夫和大卫·斯卡拉穆扎。视觉里程 计 : 第 一 部 分 : 第 一 个 30 年 和 基 本 面 。 IEEERobotics and Automation Magazine,18(4):80-92,2011. 1[22] 弗里德里希·弗劳恩多夫和大卫·斯卡拉穆扎。视觉里程计:第二部分:匹配、鲁棒性、优化和应用。IEEERobotics Automation Magazine,19(2):78-90,2012.1[23] Huan Fu,Mingming Gong,Chaohui Wang,KayhanBat- manghelich,and Dacheng Tao.用于单目深度估计的深度有序回归网络。在IEEE计算机视觉和模式识别会议论文集,第2002-2011页,2018年。2[24] Xiao-Shan Gao,Xiao-Rong Hou,Jianliang Tang,andHang-Fei Cheng.透视三点问题的完全解分类。IEEE模式分析与机器智能学报,25(8):930-943,2003年。5[25] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?Kitti Vision基准套件。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功