没有合适的资源?快使用搜索试试~ 我知道了~
EffiScene:无监督联合学习的高效逐像素刚性推断
5538EffiScene:用于光流、深度、相机姿态和运动分割的无监督联合学习的高效逐像素刚性推断杨娇1,2,3,Trac D.Tran2,光明市1,31西安电子科技大学、2约翰霍普金斯大学、3西安电子科技大学广州理工学院{yangjiao,yjiao8}@{stu.xidian.edu.cn,jhu.edu},trac@jhu.edu,gmshi@xidian.edu.cn摘要本文通过联合学习四个低级视觉子任务:光流F、立体深度D、摄像机姿态P和运动分割S,解决了具有挑战性的无监督场景流估计问题。我们的主要观点是,场景的刚性与物体运动和场景深度共享相同的固有几何结构。因此,可以通过联合耦合F、D和P来推断来自S的刚性,以实现更鲁棒的估计。为此,我们提出了一种新的场景流框架EffiScene,它具有高效的联合刚性学习,超越了具有独立辅助结构的ex-spiral管道。在EffiScene中,我们首先在粗略的水平上估计光流和深度,然后通过透视n点方法计算相机位姿为了共同学习局部刚性,我们设计了一个新的运动刚性(RfM)层,它具有三个PRIN-NR组件:(i)相关性提取;(ii)边界学习;和(iii)离群值排除。最终输出被熔断基于来自RfM的更精细级别的刚性映射MR。为了有效地训练EffiScene,设计了两个新的损失Lbnd和Lunc,以防止平凡的解决方案和正则化流动边界不连续性。在场景流基准KITTI上的实验表明,该方法是有效的。有效地并且显著地改进了用于所有子任务(即光流)的现有技术方法(5. 十九→四。20)、深度估计(3.七十八→三。46),视觉里程计(0. 012→0的情况。011)和运动分割(0. 57→ 0。62)。1. 介绍场景流[38,37]通过2D光流和场景深度描述了动态场景的3D运动,为许多实际应用提供了基本的几何线索,例如自动驾驶[28]和机器人导航[1,31]。然而,在实际应用中,为两个子任务获取密集的地面实况通常是昂贵的或不切实际的。为了克服这一点,近年来,年,通过最小化原始合成像素对之间的光度差异。在没有监督的情况下优化低级别场景流任务的逐像素光度误差不是一项微不足道的任务。最关键的原因之一是连续帧之间的像素对应性是高度模糊的,特别是在非结构化或纹理较少的区域中。例如,来自帧t中的山或公路表面的一个像素可以以非常低的光度误差投影到帧t+ 1中的各种周围像素,这通常导致局部场景流估计的失败。不幸的是,这个问题总是发生在户外场景中,由于运动模糊而错过小细节。因此,强烈需要额外的约束来消除成功的无监督场景流估计的模糊性。图1. 我们方法的主要思想。与现有流水线中从辅助实例分割独立估计刚性像素不同,我们从光流,深度和相机姿态联合学习每个像素的刚性,以获得更准确的刚性约束。问题在最近的方法中,刚性约束被广泛用于将场景分离为静态(刚性)和移动(非刚性)区域。它还限制了服从刚性场景假设的刚性像素的自我运动[25]。为了实现这一点,当前方法[33,22,43,14,9,27]遵循如图1(左)所示的流行场景流管道,其中辅助实例分割网络被设计为预测将受到局部刚性约束的刚性像素虽然可以实现令人印象深刻的场景流结果,但是分割的性能通常很差,这表明对刚性像素(静态)的估计不准确5539区域),这反过来可能会损害刚性约束。一个原因是现有流水线中的独立刚性推理限制了像素刚性的学习。更具体地,现有流水线中的分割任务在反向传播中与场景流子任务联合优化,但在前向推理中独立启动。这种独立的结构使得推理效率低下,导致网络只能从原始RGB图像中学习像素刚性此外,在没有地面实况的情况下,在当前管道中优化深度分割网络和场景流多网络可能非常困难,需要复杂的训练策略,如[33]。动机的想法。 从最近的工作中得到启发,我们的关键见解是,场景的刚性与光流和深度共享相同的固有几何结构,因此它们高度相关并且可以相互有益。基于这一观察,我们没有设计辅助分割结构,而是联合考虑光流、深度和相机姿态以进行刚性学习,如图1(右)所示,并提出了一种称为EffiScene的新框架。利用新的流水线,我们可以通过以下方式超越现有方法:(i)通过联合考虑场景流子任务来学习精确的刚性像素,从而提供更有效的刚性约束;以及(ii)通过消除非常深实例分割网络。Approach. EffiScene旨在解决以下四个无监督子任务:(i)光流F估计;(ii)立体深度D预测;(iii)用于视觉里程计的相机姿态P;以及(iv)运动分割S。我们首先在粗略的水平上估计光流Fo和深度D,然后通过经由透视n点(Pn P)求解器最小化观察坐标(来自Fo)和投影3D点(来自D)之间的重投影误差来计算从时间t到t+1的相对相机姿态P接下来,我们提出了一种新的运动刚度(RfM)层,通过明确建模光流Fo和刚性流Fr之间的相关性来估计像素刚度。我们的RfM包括三个主要步骤:(i)相关性提取;(ii)边界学习;以及(iii)离群值排除。 来自RfM的刚性图MR可以被解释为运动分割。最后,来自Fo和Fr的流被融合以形成最终流,由刚性映射MR在精细水平上引导。 在训练中,两个新的损失– Lbnd和Lunc-Dif-不同于现有的方法[41,16],在EffiScene中不捐款摘要如下。• 我们介绍了一种新的无监督场景流估计结构,并证明了通过联合学习光学,流量、深度和相机姿势。• 我们设计了一个新的从运动到刚性(RfM)层,通过显式建模运动来识别刚性区域。关联度据我们所知,这是第一个用于关节刚度学习的深度模型。• 我们通过两个新的损失来优化场景流训练:Lbnd防止RfM的平凡解,而Lunc正则化未覆盖边界中的光流不连续性。在KITTI基准测试[4,5,29]上的大量实验表明,我们的方法在所有四个子任务上都优于现有的最先进(SOTA)方法,具有很高的性能。有效的刚性推断(RfM,大小为0.0032Mb与5.22Mb[33]),即光流(5. 十九→四。20)通过显著的19%的改进,深度估计(3. 七十八→三。46),视觉里程计 ( 0. 012→0 。 011 ) 和 运 动 分 段 ( 0. 57 →0 。62)。2. 相关工作我们首先简要回顾了光流和深度估计,这是联合学习的有效刚性推理在我们的方法。然后讨论了场景流程。光流深度卷积神经网络(CNN)广泛用于监督光流方法。FlowNet [2]是第一个使用端到端CNN架构的作品。FlowNet2 [12]通过堆叠更多的层来改善结果,但计算开销可能很大。然后,以空间或特征金字塔的方式 设 计 更 简 单 的 深 度 模 型 , 如 SpyNet [32] , Lite-FlowNet [10]和PWC-Net [34最近,递归单元被设计用于在RAFT中解码所有对成本卷[36]并取得了最新成果。这些工作[26,18,19,13,17]为非监督方法提供了有效的主干,其中通过优化合成视图的光度损失来学习流量[45]。为了解决阻塞和大位移,设计了新的损失和训练策略,例如UnFlow[26]中的双向普查损失,DDFlow [18]和SelFlow [19]中的数据蒸馏,以及ARFlow[17]中的额外前向传递。与这些工作不同的是,我们通过融合来自运动和静态区域的运动来构建最终的光流,该运动和静态区域由学习的刚性映射MR引导。深度估计。与单目估计相比,在没有地面真实情况下从立体图像学习深度提供了更高质量的结果。自我监督信号来自左右综合视图。在立体声作品中,Garget al.[3]首先采用自动编码器来预测视差的连续值。Godard等人[6]为几何约束引入左右一致性项,然后通过相关设计选择对其进行改进[7]。在[15,46]中也考虑了时间信息。在基于单目的方法中,由于单视图深度通常是5540t→t+1t→t+1t→t+1t→t+1t→t+1t→t+1t→t+1t→t+1t→t+1t→t+1t→t+1如果不足以进行自我监督,则从连续帧中借用额外信息[48,39,23]。无监督场景流估计。传统的场景流技术已经取得了令人印象深刻的结果,通常在高计算成本,如超像素场景de-crossing。[28]和平面+视差框架[42]。即使是快速版本[35]仍然在每帧2-3秒内运行。在其中K∈R3×3是摄像机内参数,P∈R3×4表示摄像机相对姿态,M∈R4×4表示物体在世界坐标系中的运动。此外,d是3D→2D投影的归一化系数,并且它指示x的每像素深度。基于这样,静态区域(M=I)的移动通过xt和xt+1之间的差来计算,并且可以深度模型,GeoNet [44]隐含地表示移动的pix-可通过刚性流Fr公式化如下所示通过ResFlowNet细化剩余非刚性流,Fr=·金伯利进程(d)·P −1x)− x。(二)和DF-Net [50]强加了跨任务一致性损失,t→t+1dt+1t t t刚性区域最近,采用逐像素刚性约束,将深度分割网络融入场景流。例如,Maet al. [22]采用现成的Mask R-CNN [8]进行刚性实例分割,Yanget al.[43]通过MotionNet预测移动掩码,然后使用整体3D运动解析器(HMP)。为了简化多任务训练,Ranjanetal.[33]提出协作竞争(CC)以促进网络协调。Wang等人[41]基于流量残差产生静态像素,以及Liu等人。[16]通过局部刚性来扩展它但是,两者都有意义--这里,源图像It的深度dt和相机姿态P是在Fr的计算中要估计的仅有的两个未知数。利用这种几何刚性概念,将来自(2)的全局运动与RfM中的局部运动联合考虑,以实现有效的刚性区域识别。3.2.运动刚度(RfM)我们不是像[22,43,33]中那样从原始图像独立预测像素刚性,而是将静态刚性阈值,这可能导致不准确的运动基于光流的面积和刚性流Fr.区这些方法取得了非常令人印象深刻的结果,但自我运动受到限制,由于低效率,这类似于[41,16],其中使用将静态区域和移动区域进行二进制划分。然而,我们的方法的本质区别来自于考虑-依赖推理过程 在我们的框架内,我们有效地-用Fr表示受到严格限制通过联合耦合光学元件来精确地学习每像素刚度受几何刚性约束,而局部运动流量,深度和相机姿势,导致相当大的影响,ot→t+1是免费的静态区域可以被自然地去-每个子任务的验证。3. EffiScene方法我们首先介绍了初步的几何刚性consideration在第二。3.1,然后在第3.2节中描述RfM的设计3.2.为了呈现新的流水线,我们首先在Sec.3.3节中讨论了新损失函数和正则化函数的设计。三点四3.1. 几何刚性一致性给定两个连续帧It和It+1,像素运动可以分为两类:(i)局部运动通过将局部运动视为全局运动然而,从2D流场找到3D运动异常值是不平凡的,因为(i)不同的3D运动张量可以由相同的2D流矢量表示;以及(ii)学习流场本身可能不准确。因此,我们需要设计运动刚性(RfM)层,通过显式建模各种流的相关性来自适应地学习运动边界。从由光流Fo表示的移动物体;以及(ii)来自以下描述的背景的全局(或自我)运动:刚性流Fr.与光流Fo相比,刚性流Fr严格遵循严格的几何条件,因此,它具有较低的对应模糊度。刚性流场Fr可以很容易地在2D例如FlyingChairs [2]的情况,其中通过应用4-DoF平面仿射变换P,深度D被视为常数。然而,在像KITTI套件[4]这样的现实3D场景中,全局运动的几何一致性只能通过透视变换将2D点x重新投影回3D世界坐标X来1图2. 图为RfM。(流被RGB替换,刚性贴图以反转的颜色显示,以便更好地可视化。性新 RfM包括三个步骤,如图所示在图2中:(i)相关性提取;(ii)边界学习;以及(iii)离群值排除。首先,我们如下构建逐像素相关图CF:[x; 1]=·KPM[X; 1],(1)DCF=N从F1、F5541(fc(Fort→t+1)),(3)5542t→t+1t→t+1t→t+1t→t+1t→t+1t→t+1不t→t+1t→t+1t→t+1其中fc评估之间的每像素相似性。因此,我们可以通过以下方式以端到端的方式优化RfM:ot→t+1rt→t+1,而运算符N将最小化It和I t之间的刚性光度损失Lr,相关值为[0,1]。 通常,内积可以是wf(It+1,−F r),其中Warping函数-第一选择来评估任何两个向量。然而,在像素沿着一个方向非常缓慢地移动(接近零)的情况下,这可能不足以区分流动。例如图 3(a),在-函数wf(I,F)根据下式对图像I进行双线性插值:流量F.处方详情见第3.4节。然而,简单地优化Lr容易得到平凡的解,其中Lr→0可以通过生成一个绿色运动Fr和不同如图3所示,来自RfM的全(近)零刚性映射蓝色运动也会产生同样的结果(b). 原因是RfM试图通过减少-Fo的v轴移动量较小. 为了避免这个问题,计算内点(刚性像素)的数量。为了防止这种情况,我们我们依靠直观但更有效的运动残差(红色箭头)的l2范数来描述运动相似性设计一个新的边界损失Lbnd,通过限制面积,f c=||F ort→t+1||2. CF评价类似-刚性(MR)和非刚性(1-MR)区域之间的比率。两个流之间的平衡rt→t+1,||1||1在刚性区域更相似(CF= 0),而不相似(withCF= 1)在非刚性区域。根据Cen-Lbnd=||1 ||1.(五)根据中心极限定理,刚性区域的CF分布可以看作是均值为0的高斯分布,而非刚性区域的CF分布则是均值为1的高斯分布。在此基础上,其次,我们计算的整体直方图hF的CF,自然分离刚性和非刚性像素的直方图由高斯混合模型(GMM)。为了加强可微性,我们通过de-签署完全连接的网络g(h F|θ),参数θ可学习。 g(h F|θ)自动回归最优在(5)中,l1-范数被设计为近似用于软掩模的面积并实现端到端可微性。3.3. 整体结构按照所提出的管道,我们在图4中构建了我们的整体EffiScene结构。在我们的框架中,光流和深度分别由FlowCNN和DepthCNN估计FlowCNN将两个连续帧It和It+1作为输入,通过从输入hF学习刚性边界。 最后,我们构造了(4)中的刚性映射MR,以排除局部mo,ot→t+1表示水平和垂直像素从全局运动中剔除异常值。M R= 1 − 1/(1 + α·(C F− g(h F|θ)。(四)在这个等式中,α控制“硬”掩模(大α)和“软”掩模(小α)之间的平衡在MR中,一个值从时间t到t+1的运动。深度CNN使用立体声左-在时间t处的右视图图像对It和IR,并且生成单个通道深度图D。任何现有的深度模型都可以用于FlowCNN和DepthCNN。相机姿态P=[R|t]由旋转矩阵R∈ R3×3构成以及一个关于世界的平移向量t∈R3×1接近1表示静态刚性区域,而接近1的值表示静态刚性区域。由于Fo和D,则P可以计算为0表示存在移动区域。(6)通过最小化从(1)导出的变换坐标xt+1=xt+Fo以及投影的3D点KPXt=KP[Xt+D]:Σarg minP||[x t+1; 1]−·KP [X t; 1]||二、(六)D我们遵循[16],通过采用同时定位和映射(SLAM)社区的透视n点(Pn P)方法和基于Levenberg-Marquardt优化的随机样本一致性(RANSAC)方案来解决argmin一旦D和P决定刚性流Fr通过几何连接,图3. 说明(a)流动相关性和(b)边界损失Lbnd防止平凡解的有效性。向后。 RfM可以通过以下方式进行自我监督培训-F和F-F和F流F15543t→t+1t→t+1类似于(2),RfM然后将通过联合考虑两个流来自适应地识别逐像素场景刚性。图4中的运算符E代表RfM中的离群值排除步骤最后,我们通过任何地面真相。由于刚性面积由MR给出,Ft→t+1=MRFr+(1 −MR)Fo更准确地说,图像It与其背景重建之间的差异只有当MR中没有检测到运动物体时,刚性区域的结构(被刚性流扭曲)才应该为零。速率估计在EffiScene中,不同的模块通过RfM紧密耦合,所有组件都可以从5544不|F图4.EffiScene的整体架构实线和虚线都表示前向传播,但由于不可微运算,在训练过程中梯度只能通过实线回流损失函数显示在红框中。几何视图因此,有效刚性推理从刚性流Fr重建I_r评估依据可以通过联合考虑来自流量和深度的几何信息来执行。不刚性映射MR为L=1t→t+1Σ M·ρ(I,I_r)。(十一)3.4. 损失与正规化光度误差评估如(7)中定义的两个图像I和Iλ之间的光度相似性,其中λρ平衡l1范数和SSIM项[49]:ρ(I,I)= λ ρ l1(I − I)+(1 − λ ρ)SSIM(I,I)。(七)我们设计了不同的损失函数,以基于光度误差的无监督方式训练EffiScene。光流损失通过最小化原始图像I t与来自光流的重建图像Ito之间的光度误差来优化来自FlowCNN的光流rMRRtt正规化。最小化Lf可能会导致图像边界处的光流不连续,这是由于图像边界的不连续性。两帧之间的区域。我们使用刚性流来rec- tify的光流通过加强流的一致性的基础上学习刚性映射MR从RfM。然而,MR可能在训练开始时覆盖不期望的移动对象。如图5所示,我们通过融合遮挡掩模(Mocc)、有效光流掩模(Mopt)和有效刚性流掩模(Mrig)来生成鲁棒的未覆盖区域Muncunc来改进MR。 非遮挡区域定义为:ot→t+1在非遮挡区域M_noc上,其被确定为[50]第50话回归经典L=1Σ M·ρ(I,I=0)。 (八)fMnoc科洛尼亚克t不此外,边缘感知平滑损失被用于正则化全图像域上的光流。ΣLs=Ω2Ot→t+1|2012年1月|.|.(九)我们使用二阶梯度来消除速度的影响.深度损失。类似于光流,来自DepthCNN的深度图是用光度损失和平滑损失训练的,但是对于立体对,例如左视图图像It以及来自右视图帧IR的合成图像I_t。左右一致性来自Godardet al.[6]也被认为是图5.边界不连续性的正规化光流而Mopt和Mrig表示来自光流和刚性流的有效运动。接下来,流正则化的未覆盖损失被定义为:以确保下面ΣL=||F o-Fr||2.(十二)L=ρ(I,I)+|2002年D|e−|2012年1月|+的|D−DL|、(十)UNC阿南克t→t+1t→t+12德维特不其中,D L是从右侧投影的左视图深度RfM损失。如第3.2中,(5)中的边界损失Lbnd和(11)中的刚性光度损失Lr都用于训练RfM。在Lr中,It和刚性之间的误差F5545所有损失被组合以训练EffiScene作为能量最小化优化,如下所示:E= λfLf+ λsLs+ λrLr+ λdLd+ λbndLbnd+λuncLunc,(十三)其中λf/s/r/d/bnd/unc提供加权权衡。5546t→t+14. 实验在四个子任务中进行了广泛的实验以将Eff- iScene与SOTA场景流方法进行(i)光流估计;(ii)深度预测;(iii)视觉里程计;以及(iv)运动分割。定性结果如图6所示。更多的结果在补充材料中列出。4.1. 实现细节数据集。为了与以前的工作保持一致[44,50,33,41,16,6,43,21],我们对所有实验使用相同的数据集和协议。具体而言,KITTI原始集[4]中的(42,382)个图像中的28,968个图像用于训练EffiScene,但KITTI 2015 [29]训练集中登记的场景除外,该训练集保留用于光流验证以及深度估计和具有相应地面真值的运动分割除KITTI 2015外,还采用KITTI 2012 [5]进行光流评估。与KITTI 2015不同的是,KITTI 2012中的动态场景对于视觉里程计任务,我们在KITTI里程计分割[5]中的序列00-08上微调我们的模型,然后在序列09和10上对其进行测试网络部署。对于FlowCNN,由于其出色的性能,我们采用RAFT [36]作为基线在有监督的光流场估计中的应用,并对无监督的情况作了一些修改。我们还修改了PWC-Net [34],通过更改动量[0.9,0.99]和重量衰减1 e-5。批量大小设置为4。初始学习率在前两个训练阶段首先设置为1 e-4,在最后一个阶段降低到1.25e-5,并且每50 K批次降低2倍。所有模型都在一个Tesla P40 GPU上训练了大约150个GPU小时。与其性能高度依赖于前缀阈值的现有方法[16,41]不同,在EffiScene中,用户在训练和测试中都不需要设置经验参数4.2. 评价光流估计有监督和无监督方法的光流比较总结在表1中。1.一、在KITTI 2015上,我们的方法在所有图像区域的平均端点误差(EPE)上实现了最佳性能,例如。 移动区域,静态区域。. . 特别是,对于最重要的指标EPE-All,EffiScene将现有误差显著降低,从5.19 [16]降至4.20(19. 1%的相对改善)。我们还实现了最好的和第二好的F1-all误差14。31%和13。在训练集和测试集上的分类正确率分别为08%。在 KITTI 2012数据 集上, EffiScene 始终 超过UnRigidFlow [16] 12。5%的相对EPE增长(1.68 vs.1.92),这验证了我们的方法的推广能力不幸的是,由于在KITTI2012中没有移动对象,所以从RfM学习的刚性掩模MR将覆盖几乎整个图像,导致融合流F t→t+1将由刚性掩模控制。从2通道到1通道的最后一个卷积层Rt→t+1 (从深度和姿势)。 因此,它是一种-以生成单通道深度图,并通过双线性上采样来替换去卷积层,以避免棋盘状伪像。在RfM中,g(f F|θ)是从两个完全连接的层获得的,大小分别为100-32和32-1,然后分别进行ReLU和Sigmoid激活。训练我们从零开始训练EffiScene,分为三个阶段,没有任何地面事实。默认情况下,对于所有实验,(7)中的光度量平衡λρ被设置为0.003。 加权 为 损失 功能 表示 通过将(13)中的{λf,λs,λr,λd,λbnd,λunc}初始化为所有zeros,然后在不同阶段调整它们。在第一阶段,我们训练FlowCNN并将DepthCNN和RfM固定为让EffiScene从FlowCNN中受益,EPE略微下降至1.68,而最佳EPE=1.64 [41]。然而,对于遮挡区域,可以通过更准确的深度和姿态更好地推断运动,并且我们获得了4.71的最佳结果EPE-Occ(vs.5.18 [41])。此外,我们还基于流行的PWC-Net [34]主干设计了一个变异模型EffiScene(-Eficc),用于进一步评估。基于PWC的EffiScene也实现了两个数据集的SOTA结果,证明了所提出的框架的一致性和鲁棒性。消融术来自不同训练阶段的光流在表中列出。二、光流Fo获得粗略的光流F。设λ f= 1。0d和从第一个训练阶段开始,λ s= 0。20个epoch的5个。并行地,我们通过设置λ d=1独立地训练深度D的DepthCNN。50个历元的0,如[6]中所建议的。一旦我们实现了合理的优化流量和深度,我们就修复了FlowCNN和DepthCNN,并在第二阶段训练RfM 10个epoch。这里,我们设λ r= 1。0且λbnd= 0。023,其他的归零。最后,在最后一个阶段,我们通过设置{λr,λd,λbnd,λunc}={1。0,1。0,0。023,1. 0},持续10个历元。所有输入图像的大小都调整为256×832,并使用AdamW优化器[20]进行优化。因为没有考虑几何刚性约束。在RfM的帮助下,在第三阶段,FlowCNN和DepthCNN基于特定的刚性区域MR进行联合优化,并且可以在运动中实现更低的误差 。ing 区 域 ( EPE-Move=3.09 ) 以 及 静 态 区 域(EPE- Static=2.09)。通过联合融合Fo和Fr,最终输出F对于所有区域产生更好的结果,其中EPE=4.20且Fl_all = 14.31%。立体深度预测。深度估计在KITTI训练集上进行评估,标准度量[23]见表1。3 .第三章。 通过共同考虑流F5547图6.所提出的方法用于场景流估计的定性结果(用表1. 光流估计的定量结果。平均终点误差(EPE)用于评估,但最后两列列出了错误像素的百分比(F1-all)。方法立体声 超级电视KITTI 2012列车平均EPE火车KITTI 2015平均EPE列车测试NOCOCC所有移动静态所有Fl-allFl-all[第12话]C--4.09--10.0630.37%-PWC-Net [34]C--4.14--10.3533.67%-UnFlow-CSS [26]1.26-3.29--8.10百分之二十三点二七-DF-Net [50]--3.54--8.98百分之二十六点零一25.70%[11]第十一话-----7.5123.49%23.54%CC [33]---5.675.046.2126.41%-CC-UFT [33]-----5.66百分之二十点九三百分之二十五点二七[21]第二十一话C--1.91--5.43-20.52%UnOS [41]C1.045.181.645.305.395.58-百分之十八UnRigidFlow [16]C1.094.871.927.923.855.1914.68%11.66%EffiScene(-EVC)C1.194.741.717.633.724.92百分之十四点五五-EffiSceneC1.194.711.685.153.694.20百分之十四点三一百分之十三点零八表2.光流场的烧蚀研究下标t→t+1在Tab的最后两列四、我们的方法改进了ot→t+1rt→t+1 并且为了清楚起见,省略了Ft→t+1。平均IoU从SOTA 0.570 [16]到0.615,而fre-lou流量型列车列车平均EPE列车频率加权IoU从0.900到0.926。请注意,CC [33]采用更复杂和更深的自动编码器进行分割,但由于独立的分割推理结构,它仍然比所提出的方法低4.6%。视觉里程计。[30,48]中的绝对轨迹误差(ATE)用于Tab.五、流、姿态、刚度和深度,与基于单目或立体的方法相比 , 可 以 预 测 更 好 的 深 度 图 。 令 人 惊 讶 的 是 ,EffiScene甚至优于专门为深度估计任务设计的SsSM-net[47]和MonoDepth [6]由于在EffiScene中没有设计新的深度特定组件,因此我们假设深度估计的增益可能来自协作训练过程,其中光流、相机姿态和深度通过RfM耦合以相互加强。运动分割 还使用RfM的结果 使用高级场景流方法评估运动分割,如选项卡中所列四、我们实现了最佳的像素精度和平均精度超过基线UnOS[41] 4.5% 和 2.8%。 然 而 , 考虑 到 移 动 的 汽 车 只占KITTI 2015中完整图像的一小部分(通常小于5%),由于严重的类别不平衡,高精度并不总是意味着优越的分割能力。因此,Intersection-Over-Union(IoU)可能是一个更公平、更有说服力的基准,F、F阶段移动静态所有Fl-allFo(FlowCNN)月14.386.806.76百分之十八点八九Fo(FlowCNN)第33.094.814.70百分之十五点八七5548总结了基于深度神经网络(DNN)和基于PnP的姿态估计技术策略.通常,基于DNN的方法比基于优化的Pn P运行得更快,但精度较低[40,24,41]。由于在我们的方法中仅使用2帧,因此我们遵循[41,16]并对来自相邻5帧的累积姿态进行平均,以便与多帧竞争者进行公平比较对于Pn P为基础的方法,我们优于所有现有的方法在这两个序列。注意,Pn P的性能在很大程度上取决于预测的流和深度的质量,来自连续步骤的更好的光流和深度估计将肯定有助于提高相机姿态精度。对于DNN方法,我们还给出了一个用于公平比较的变化模型EffiScene(-dnn)-用一个9层全卷积网络代替P n P方法,6自由度姿态矩阵P= [R|t]。它通过超越[48]和[50]实现了有竞争力的结果,但它以微弱的差距落后[44]和[33],两者都可以访问比我们更多的帧。5549表3. 在KITTI 2015训练集上进行的深度估计的定量结果。深度误差(中间列)和预测精度(右列)用于评估。所有有效深度范围均以80 m为上限。方法立体声AbsRel误差(下限SqRel更好)RMSERMSlog准确性,<1.一、25δ(越高越好)<1.一、2521253CC [33]0.1401.0705.3260.2170.8260.9410.975[11]第十一话0.1250.9784.8770.2080.8510.9500.978EPC [43]C0.1091.0046.2320.2030.8530.9370.975[21]第二十一话C0.1270.9365.0080.2090.8410.9460.979SsSMnet [47]C0.0751.7264.8570.1650.9560.9760.985MonoDepth [6]C0.0680.8354.3920.1460.9420.9780.989UnRigidFlow [16]C0.0510.5323.7800.1260.9570.9820.991EffiSceneC0.0490.5223.4610.1200.9610.9840.992表4. 运动分割的定量结果。基于IoU的指标(最后两列)对KITTI 2015更有意义。从Tab中删除。5)。EffiScene在完整模型中需要更少数量的可学习参数(#Params),方法像素是说是说F.W.分段模块(#SegParams)。表6. 模型复杂性分析。实验是在同一个计算平台上进行的,使用单个Tesla P40 GPU。方法运行时FPS#参数#SegParams表5.视觉里程计与KITTI里程计的比较方法帧姿势序列09序列10局限性。尽管在我们的模型中实现了有希望的EPE(=4.20),但测试F1-所有误差(13.08%)仍然比[ 16 ] 高1.42% ,如表1所示。1. 一、这表明EffiScene对于那些“好”区域(较低EPE)而不是对于所有像素(较高FI)学习更好的光流一个原因是学习的刚性图MfM可能在遮挡区域被错误地估计,其中由于缺失像素,局部运动难以优化,导致RfM的不可靠的运动相关性例如图7、背景被运动车辆遮挡时误差较大因此,在大遮挡情况下改善RfM似乎是合乎逻辑的下一步。图7. R M不准确导致的高误差 和闭塞。4.3. 分析复杂性分析。运行时间和模型尺寸在选项卡中列出。六、我们的方法运行速度比UnOS快2倍以上,但比CC慢,由于时间消耗- ING PN P步骤,如第二节中所讨论的。4.2.通过用深度网络替换PnP,EffiScene(-dnn)显著加快了推理速度,性能下降可接受(0.0025. 结论总之,我们提出了EffiScene的无监督场景流估计耦合几个低层次的视觉子任务。我们证明,每像素的刚性可以有效地推断联合利用光流,深度和相机姿态,因为它们共享相同的固有的几何结构与场景刚性。通过对关节刚度学习的探索,可以实现更精确的刚度约束和高效的网络训练.在场景流基准上进行的大量实验表明,该方法对所有四个子任务都具有较简单的模型,从而验证了该方法的有效性。在我们未来的工作中,长期依赖将在EffiScene中探索,以解决大遮挡的刚性推理。Acc.Acc.IOUIOUEPC [43]0.8900.7500.5200.870[21]第二十一话0.9100.7600.5300.870[41]第四十一话0.9000.8200.5600.880CC [33]--0.569-UnRigidFlow [16]0.9300.8400.5700.900EffiScene0.9450.8480.6150.926(毫秒)(f/s)(Mb)(Mb)CC [33]49.5520.1874.265.22UnOS [41]228.164.3817.06-UnRigidFlow [16]87.5711.4210.22-EffiScene93.1110.7410.360.0032EffiScene(-dnn)47.0621.2512.540.0032DF-Net [50]5DNN0.017±0.007 0.015±0.009[第48话]5DNN0.016±0.009 0.013±0.009[44]第四十四话5DNN0.012±0.007 0.012±0.009CC [33]5DNN0.012±0.0070.012±0.008EffiScene(-dnn)2DNN0.013±0.006 0.013±0.008[30]第三十话所有Pn P0.014±0.008 0.012±0.011[23]第二十三话3Pn P0.013±0.010 0.012±0.011UnOS [41]2Pn P0.012±0.006 0.013±0.008UnRigidFlow [16]2Pn P0.012±0.007 0.012±0.0065550引用[1] Guilherme N. DeSouza和Avinash C.咔。移动机器人视觉导航研究综述。IEEE Transactions on Pattern Analysisand Machine Intelligence,24(2):237 1[2] Alexey Dosovitskiy , Philipp Fischer , Eddy Ilg ,PhilipH ?usser , CanerHazirbas , VladimirGolkov ,Patrickvander Smagt , Daniel Cremers , and ThomasBrox.Flownet : 使 用 卷 积 网 络 学 习 光 流 IEEEInternational Conference on Computer Vision(ICCV),2015年12月。二、三[3] Ravi Garg,Vijay Kumar B.G.,古斯塔沃·库什罗和伊恩·里德用于单视图深度估计的无监督cnn:几何拯救。在Bastian Leibe,Jiri Matas,Nicu Sebe和Max Welling,编辑,计算机视觉施普林格国际出版社。2[4] Andreas Geiger , Philip Lenz , Christoph Stiller , andRaquel Urtasun. Vision meets robotics:The kitti dataset.International Journal of Robotics Research ( IJRR ) ,2013. 二、三、六[5] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?Kitti Vision基准套件。2012年IEEE计算机视觉和模式识别会议,第3354-3361页,2012年。第二、六条[6] 克莱门特·戈达尔,奥辛·麦克·奥达,加布里埃尔·J·布罗斯托。具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别会议(CVPR)上,2017年7月。二、五、六、七、八[7] Clement Godard,Oisin Mac Aodha,Michael Firman,and Gabriel J. Brostow.深入研究自我监督的单目深度估计。在IEEE/CVF国际计算机视觉会议(ICCV)上,2019年10月。2[8] 何凯明,乔治亚·吉克萨里,皮奥特·多勒,罗斯·吉尔希克. 面具R-CNN。在IEEE计算机视觉国际会议(ICCV)的会议记录中,2017年10月。3[9] Anthony Hu , Fergal Cotter , Nikhil Mohan , CorinaGurau和Alex Kendall。视频场景理解的可能未来预测。在Andrea Vedaldi,Horst Bischof,Thoma
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功