没有合适的资源?快使用搜索试试~ 我知道了~
12095静态或动态场景钟怡然1,4,5,潘骥2,王建元1,3,戴玉超3,李洪东1,41澳大利亚国立大学,2NEC美国实验室,3西北工业大学、4ACRV、5Data61 CSIRO{怡然.钟,hongdong.li}@ anu.edu.au,panji@nec-labs.com,daiyuchao@nwpu.edu.cn摘要用于光流计算的无监督深度学习已经取得了可喜的成果。大多数现有的基于深度网络的方法依赖于图像亮度一致性和局部平滑度约束来训练网络。在出现重复纹理或遮挡的区域,它们的性能会降低。在本文中,我们提出了Deep Epipo- lar Flow,这是一种无监督的光流方法,它将全局几何约束纳入网络学习。特别是,我们调查多种方式的执行,ING极线约束的流量估计。为了allevi- ate的“鸡和蛋”类型的问题,在动态场景中,可能存在多个运动,我们提出了一个低秩约束,以及一个union-of- subspaces约束的训练。 在各种基准数据集上的实验结果表明,与监督方法相比,我们的方法具有竞争力的性能,并且优于最先进的非监督深度学习方法。1. 介绍光流场估计是计算机视觉中的一个基本问题,有着广泛的应用。自从Horn和Schunck的开创性工作[ 14 ]以来最小化[19,24,32,40]或深度学习[7,8,25,33]。在本文中,我们特别解决了使用深度卷积神经网络(CNN)进行无监督光流学习的问题。与有监督学习相比,无监督流学习不需要通常难以获得的地面实况流作为监督,因此可以应用于更广泛的领域。最近的研究集中在将光流的传统领域知识转化为深度学习,无论是训练损耗公式还是网络架构设计。例如,考虑到两个连续图像之间的亮度一致性,在常规光流法中通常使用ODS,研究人员已经制定了光度损失[42,31],在完全可微图像扭曲的帮助下[15],以训练深度神经网络。其他常用技术,包括图像金字塔[4](处理大流量位移),总变差正则化[30,37]和遮挡处理[1]也导致了新的网络结构(例如,金字塔网络[25,33])或损失(例如,平滑损失和遮挡掩模[35,16])。在无监督训练中,现有方法主要依靠光度损失和流平滑损失来训练深度CNN。然而,这给神经网络在具有重复纹理和遮挡的区域中准确地学习光流带来了挑战。虽然一些方法[35,16]联合学习遮挡掩码,但这些掩码并不意味着提供更多约束,而只是去除损失中的离群值。鉴于在这些区域中学习精确流的困难,本文提出将全局极线约束引入流网络训练中。然而,在流动学习中利用对极几何基本矩阵[13]的不准确或错误估计会以整体方式误导流网络训练,从而显著降低模型预测精度。当一个场景包含多个独立的运动对象时尤其如此,因为一个基本矩阵只能描述一个刚性运动的对极几何。而不是提出一个硬epipo-lar约束,在本文中,我们建议使用软epipo- lar约束,当场景是静止的,和联盟的子空间结构时,场景是运动不可知的使用低秩因此,我们制定相应的损失,以训练我们的流量网络不受监督。我们的工作是将epipo- lar几何学结合到深度无监督光流计算中的一种尝试通过对标准数据集的广泛评估,我们表明,与监督方法相比,我们的方法具有竞争力的性能,并且明显优于现有的无监督方法。具体而言,截至论文提交之日,在KITTI和MPI Sintel基准测试中,我们的方法在已发布的深度无监督光流方法中实现了最佳性能。12096我∈我我2. 相关工作光流估计已经被广泛研究了几十年。在这一领域已经发表了大量的论文。下面我们只讨论一些几何感知方法和最近的基于深度学习的方法,我们认为这些方法与我们的方法密切相关。监督深层光流。最近,基于端到端学习的深度光流方法已经显示出它们在学习光流方面的优势。在给定大量训练样本的情况下,光流估计被公式化以学习图像对与相应光流之间的回归。这些方法在几个基准上实现了与最先进的传统方法相当的FlowNet[7] 是这个方向的先驱,它需要一个大规模的合成数据集来监督网络学习。FlowNet2[8] 通过一个接一个地堆叠多个编码器-解码器网络,极大地扩展了FlowNet,这可以在各种基准测试上实现与传统方法相当的结果。最近,PWC-Net [33]将金字塔,翘曲和成本体积等传统策略结合到网络设计中,并在KITTI [12,23]和MPI Sintel [6]上设置了这些有监督的深度光流方法受到需要具有真实光流的大规模训练数据的阻碍,这也限制了它们的泛化能力。无监督深度光流。而不是使用地面实况流作为监督,Yu等人。[42] Renet al. [28]建议,与传统方法类似,图像扭曲损失可以用作学习光流的监督信号。然而,他们的工作与传统的工作之间存在着巨大的绩效差距。然后,Simonet al. [31]分析了这个问题,并引入了双向普查损失来鲁棒地处理帧之间的光照变化。同时,Yang等人[35]提出了一种遮挡感知的扭曲损失,以排除错误计算中的遮挡点。最近,Janaiet假设。然而,这些方法假设场景大部分是刚性的(因此单个基本矩阵足以约束两视图几何),并将动态部分视为离群值[36]。Garg等人[11]使用多帧光流估计的子空间约束作为正则化项。然而,这种方法假设仿射相机模型并且在整个序列上工作。Wulff等人[38]使用语义信息将场景分割为动态对象和静态背景,并且仅对静态背景施加强几何约束最近,受多任务学习的启发,人们开始在统一的框架中联合估计深度,相机姿势和光流[26,41,44]。这些工作主要是利用从流网络估计的流与从姿态和深度计算的流之间的一致性该约束仅适用于静止场景,并且其性能仅与无监督的深度光流方法相当。相比之下,我们提出的方法能够处理静态和动态的情况下,没有显式计算基本矩阵。这是通过引入软核线约束,从核线几何,尝试,使用低秩和union的子空间属性。将这些约束转化为适当的损失,我们可以在光流学习中应用全局几何约束,并获得更好的性能。3. 光流中的核线约束光流的目的是找到两个连续帧之间的密集对应形式上,让It表示时间t的图像,It+1表示下一个图像。对于I t中的像素xi,我们希望找到它们在It+1中的对应x ′。位移向量v=[v1,...,vN]R2×N(其中N是I t中的像素总数)是我们想要估计的光流。回想一下,在双视图对极几何[13]中,通过使用齐次坐标,两个框架x′=(x′,y′,1)T和xi=(x ′,y′,1)T中的我我我al. [16]扩展的两视图光流到多视图情况具有改进的阻塞处理性能。引入复杂的遮挡估计和扭曲损失减少了传统方法和当前无监督方法之间的性能差距,但差距仍然很大。为了解决这个问题,我们提出了一个全球核线约束流量估计,在很大程度上缩小了差距。几何感知光流。在几何约束协同领域,Valgailletal.[34]介绍(xi,yi,1)T与基本矩阵F相关,x′TFxi= 0.(一)在下面的部分中,我们将展示如何在流学习中将极线约束作为全局正则化器3.1. 双视图几何约束给定估计的光流v,我们可以将其转换为一个变分模型,同时估计基金,对应序列xi和x′在It和It+1中,心理矩阵和光流。Wedel等人[36]利用基本矩阵先验作为变分框架中的弱约束。Yamaguchi等人[39]通过使用预先计算的基本矩阵和小的运动,将分别为。然后,这些对应点可以用于通过归一化8点方法计算基本矩阵F[13]。 一旦F被估计,我们就可以计算其拟合误差。直接优化方程(1)不是有效的,因为它只是一个代数错误,不反映12097^L=.F||·||低级∈真实几何距离我们可以使用黄金标准hi= vec(x′xT). 则数据矩阵H =[h1,...,hN]我我方法[13]来计算几何距离,但它重新-需要为每个点预先重建3D点Xi否则,我们可以使用其一阶近似,Sampson距离LF来表示几何误差,N(x′TFx)2应该是低级别的这提供了一种可能的方法,通过秩最小化而不是显式地计算F来使光流估计均匀化。具体来说,我们可以将损失计算为Llowrank= rank(H),(5)i i(2)(Fxi)2+(Fxi)2+(FTx′)2+(FTx′)2我12我12优化这个方程的困难来自于它的先有鸡还是先有蛋的特点:它由两个相互锁定的子问题组成,从估计的流估计基本矩阵F,并且更新所述流以符合所述F。因此,这种交替方法在很大程度上依赖于正确的初始化。到目前为止,我们只考虑了静态场景的情况下,只有自我运动存在。在多运动场景中,该方法需要为每个运动估计F,这再次需要运动分割步骤。通过迭代地解决三个子任务来解决这个问题仍然是可行的:(i)更新流估计;(ii)在给定当前运动分割的情况下,估计每个刚性运动的Fm;(iii)基于最近的Fm更新运动分割。然而,这种方法也有几个固有的局限性。首先,运动的数量需要先验地知道,这在一般的光流估计中几乎是不可能的第二,该方法仍然对初始光流估计和运动标记的质量敏感不正确的流量估计会产生错误的Fm,从而导致流量估计的错误解,从而使估计更糟。第三,运动分割步骤是不可微的,因此使用它,端到端学习变得不可能。为了克服这些缺点,我们制定了两个软核线约束使用低秩和union的子空间属性。我们将证明,这些约束可以很容易地包括作为额外的损失,以正规化网络学习。3.2. 低秩约束在本节中,我们将说明,软核线约束,而无需明确计算静态场景中的基本矩阵。注意,我们可以将对极线约束重写为等式:(一)作为fTvec(x′xT)= 0,(3)不幸的是,这是不可微的,因此不可能用作流网络训练的损失。对于- tunately,我们仍然可以使用它的凸代理,核范数,以形成损失,L=,(6)其中核范数可以通过执行H的奇异值分解(SVD)来计算。请注意,SVD运算是可微的,并且已经在现代深度学习工具箱(如Tensorflow和Pytorch)中实现,因此这种核范数损失可以很容易地并入网络训练中。我们还注意到,虽然这种低秩约束是从由基本矩阵描述的对极几何导出的,但它仍然适用于基本矩阵不存在的退化情况。例如,当运动是全零或纯旋转的,或者场景是完全平面的时,H将具有秩六;在某些特殊运动下,例如,平行于图像平面移动的物体,其H将具有秩七。与原始的极线约束相比,人们可能会担心这种低秩约束过于宽松而无法有效,特别是当环境空间维度仅为9时。虽然彻底的理论分析超出了本文的范围(感兴趣的读者可以参考文献,如[27]),但我们将在实验中证明,当在大多数静态场景的数据上训练时,这种损失可以显着提高模型性能然而,当场景具有多于一个运动时,这种损失变得无效,因为矩阵H将是满秩的。3.3. 子空间约束在本节中,我们介绍了另一种软核约束,即子空间并约束,它可以应用于更广泛的情况。从等式(4)中,当i i是场景中的多个运动,hi将位于其中f R9是F的向量化基本矩阵和vec(x ′ x T)=(xix′,xiy′,xi,yix′,yiy′,yi,x′,y′,1)T.子空间请注意,这种子空间的并集结构已被证明在两个透视图像的运动分割中是有用的[20]。在这里,我们在光流学习中重新制定它,并使用我我我我我我我(四)封闭形式的解决方案观察到,vec(x′xT)位于(维数)的子空间上特别地,子空间的并集结构可以是我我八个子空间,称为极子空间[17]。让我们定义以自我表达属性为特征的[10],即,120982LLT−1T2∈F低级λ12λ2F图1. 运动分割和亲和矩阵(从C构建)可视化。 该场景包含三个运动,并使用三种不同的颜色进行注释:自我运动和两辆车的运动。在右边,我们展示了一个由C构造的亲和矩阵,它包含了对应于这三个运动的三个对角块。在左下角,我们说明了我们估计的光流,左上角的图像显示所有这三个运动都是基于C。图像上的稀疏点是用于计算C的采样的2000个点。这证明了我们的子空间联合约束可以在多体场景下工作。一个子空间中的数据点可以由来自同一子空间的其它点的线性组合来表示。这已经转化为数学优化问题[22,18],1对流图中的2000个流点进行采样,并基于这些采样计算损失。这种策略是有效的,因为随机抽样不会改变集合的固有性质我们注意到,这种子空间损失不需要场景中运动数量的先验知识,因此可以minC 2欧元S.T.H= HC。(七)用于在运动不可知数据集上训练流网络在单运动的情况下,它的工作原理类似于低秩其中C是子空间自表达系数,H是估计流的矩阵函数。注意,在子空间聚类文献中,还使用了C上的其他范数,例如,[21]中的核范数和[10]中的核1范数我们对Frobenius范数正则化特别感兴趣,因为它很简单,并且等价于核范数优化[18],这对于制定CNN训练的有效损失至关重要。然而,在现实世界场景中,流量估计不可避免地包含噪声。因此,我们放松了等式中的(7)通过交替地优化下面的函数,L子空间=2<$CF+2<$HC−HF,(8)不使用迭代求解器,给定H,我们可以导出C的封闭形式解,即,C=(I + λHTH)−1λHTH。(九)将C的解推回到Eq.(8),我们得到了最终的子空间联合损失项,它只取决于估计的流:L=1<$(I+λHTH)−1λHTH <$2因为最优损失与H的秩密切相关[18]。在多运动的情况下,只要对极子空间是不相交的并且它们之间的主角度低于某些阈值[9],这种损失仍然可以用作全局正则化子。即使场景是高度非刚性或动态的,与硬极线约束不同,这种损失图1,我们给出了一个典型的图像对KITTI使用此约束的结果,证明了我们的方法的有效性。4. 光流场的无监督学习我们制定我们的无监督光流估计方法作为基于图像的损失和极线约束损失的优化。在无监督光流估计中,信息,只有光度损失L照片可以提供数据项。此外,我们使用平滑项Lsmooth和我们的极线约束项F|低级|子空间作为正则化项。 我们的整体损失的线性组合这三种损失L= L照片+ µ1L平滑+ µ2LF|低级|子空间,(11)子空间2F+H(I+ λH H)λH H−H。(十)其中µ1,µ2是每个项的权重。我们经验性地设置µ1=0。02,µ2=0。02,0。010 001为∗2个L,L,L分别直接将此损失应用于整个图像将导致GPU内存溢出,这是由于HTH RN×N(N是图像中的像素数)的计算。为了避免这种情况,我们采用随机抽样策略,子空间120994.1. 图像扭曲损失与传统方法类似,我们利用最流行的亮度恒常假设,即,It,It+112100·∈ΣΣΣΣΣΣS−α2|I|.2.ΣΣΣ应该具有相似的像素强度、颜色和梯度。然后,我们的光度误差由参考帧和基于流量估计的变形目标帧之间的差异来定义。在[31]中,他们针对照明可能从帧到帧变化的情况,并提出了双向普查变换C()来处理这种情况。我们采用这个想法来解决光度误差。因此,我们的光度损失是像素强度的加权和(or彩色)损失Li、图像梯度损失Lg和双向普查损失Lc。L光=λ1Li+λ2Lc+λ3Lg,(12)其中λ1=0。5,λ2=1,λ3=1是每项的权重受[35]的启发,我们只计算非遮挡区域O上的光度损失,并通过非遮挡区域的像素数对损失进行归一化。我们通过前后向一致性检查来确定像素是否被遮挡。如果它的前向流和后向流的总和高于阈值τ,则我们将像素设置为被遮挡。我们在所有实验中使用τ=3因此,我们的光度损失定义如下:其中α1=0。5,α2=0 VRW×H×2是v的矩阵形式。5. 实验我们在标准光流基准上评估我们的方法,包括KITTI [12,23],MPI-Sintel [6],Flying Chairs [7]和Middlebury [3]。我们将我们的结果与现有的基于标准度量的光流估计方法进行了比较,端点误差(EPE)和光流异常值的百分比(FI)。我们将我们的方法表示为EPI- Flow。5.1. 实作详细数据。架构和参数。我们通过采用PWC-Net [33]的架构作为我们的基础网络,以端到端的方式实现了我们的EPIFlow网络,因为它具有最先进的性能。最初的PWC-Net采用金字塔结构,并在5个不同的尺度上学习。然而,扭曲误差在低分辨率上是无效的。因此,我们选择最高分辨率的输出,通过双线性插值对其进行采样以匹配输入分辨率,并仅在该尺度上计算我们的自监督学习损失。初始训练的学习率(从Li=Lc=Ni=1Ni=1NOi·(It(xi)−It(xi))/我Oi·(C^t(xi)−Ct(xi))/我Oi(13)Oi(14)Nscratch)的值为10−4,微调的值为10−5。根据输入图像的分辨率,批处理大小为4或8. 我们使用与FlowNet2 [8]中提出的相同的数据论证方案 我们的网络0.07到在训练过程中每帧0.25秒,取决于输入图像大小和使用的损耗,以及Lg=i=1Oi·(It(xi)−It(xi))/我Oi(15)每帧大约0.04秒前...实验在装备有Titan XP GPU的常规计算机上进行测试。EPIFlow的速度明显快于其中It(xi)=It+1(xi+vi)通过im计算年龄与估计的流量和流量[35]相关,我们用传统的方法。使用鲁棒的Charbonnier罚分,即:评估差异。4.2.平滑度损失x2+ 0。0012至训练前。我们预先训练了我们的网络,椅子数据集使用的翘曲的加权组合平滑损失和平滑损失。Flying Chairs是一个合成数据集,由叠加的渲染椅子组成在传统的光流场估计中,通常有两种平滑先验:一种是分段平面的,另一种是分段线性的。第一种方法可以通过对恢复光流的一阶导数进行惩罚来实现,第二种方法可以通过对恢复光流的二阶导数进行惩罚来实现。对于大多数刚性场景,分段平面模型可以提供更好的插值。但对于可变形的情况,分段线性模型更适合。因此,我们使用这两个模型的组合作为我们的平滑正则化项。我们进一步假设光流中的边缘也是参考彩色图像中的边缘形式上,我们的图像引导平滑度项可以定义为:在真实世界的Flickr图片上。在这样一个大规模的合成数据集上训练允许网络在处理复杂的现实世界条件之前学习光流的一般概念,可改变的光或运动。为了避免琐碎的解决方案,我们在训练开始时禁用了遮挡感知项(即,前两个时期)。否则,网络将生成使损失无效的全零遮挡掩模。预训练大约花了40个小时,其返回的模型被用作其他数据集的初始模型。5.2. 数据集L=Σ。e|+e|+ e2.1995年。n/N,N−α 1 |I|(十六)ΣΣ12101KITTI视觉里程计(VO)数据集。KITTIVO数据集包含22个校准序列,87,060个对照,真实世界图像的连续对地面真相构成了12102KITTI 2012 KITTI 2015 Sintel Clean Sintel Final Method EPE(all)EPE(noc)EPE(all)EPE(noc)Fl− all EPE(all)EPE(all)表1. KITTI和Sintel光流基准测试的性能比较。 度量EPE(noc)指示非遮挡区域的平均端点误差,而术语EPE(all)是针对所有像素的端点误差。KITTI 2015测试数据集通过流量异常值(FI)的百分比在KITTI VO数据集上训练基线、gtF、F、低秩和子模型括号表示在相同数据上训练的相应模型,缺失条目(-)表示未报告结果。请注意,当前的STOA无监督方法Back2FutureFlow [16]使用三个帧作为输入。最好的结果是用粗体字标记的的前11个序列可用。我们使用各种损失组合对KITTIVO数据集的初始模型进行了微调。我们选择它有两个原因:(1)它为每一帧提供了地面实况相机姿态,这简化了网络性能分析的问题;(2)KITTI VO数据集中的大多数场景都是静止的,因此可以通过自我运动来拟合。(一对图像之间的)相对姿态和相机校准可用于计算基本矩阵。为了公平地比较我们的各种方法,我们使用前11个序列作为我们的训练集。KITTI光流数据集。KITTI光流数据集包含两个子集:KITTI 2012和KITTI 2015,其中第一个主要包含静止场景,而后者包含更多动态场景。KITTI 2012提供了194个用于训练的注释图像对和195个用于测试的注释图像对,而KITTI 2015提供了200个用于训练的注释图像对和200个用于测试的注释图像对。我们的训练没有使用KITTI数据集MPI Sintel数据集。MPI Sintel数据集提供了从开放源代码电影它包含1041个训练图像对,具有地面真实光流和逐像素遮挡掩模,还提供552个图像对用于基准测试。MPI Sintel数据集的场景在两种不同的复杂度(Clean和Final)下渲染与KITTI数据集不同,Sintel数据集中的大多数场景都是高度动态的。5.3. 定量和定性结果我 们 使 用 后 缀 “-F” represents the model that wastrained us- ing “-low-rank” refers to the model applyingthe low rank constraint, “-ft” denotes the model fine-tunedon theKITTI VO培训结果。我们在表1中报告了我们在KITTIVO数据集上训练的结果,其中我们的模型与各种最先进的方法进行了比较我们的方法优于所有以前的基于学习的unsu-火车测试列车试验火车火车测试火车测试火车测试- 深EpicFlow [29]3.473.8–9.27–26.29%2.274.113.566.29非MRFlow [38]–––––百分之十二点一九(1.83)2.53(3.59)5.38sed[25]第二十五话(4.13)4.1–––35.07%(3.17)6.64(4.32)8.36RVI[8]第八话(1.28)1.8–2.30–百分之十点四一(1.45)4.16(2.01)5.74UPEPWC-Net [33]4.14––10.35––2.55–3.93–SPWC-Net-ft [33](1.45)1.7–(2.16)–9.60%(1.70)3.86(2.21)5.17[42]第四十二话(十一时三十分)9.9(4.30)4.6–––––––[28]第二十八话(10.43)12.4(3.29)4.0(16.79)(6.96)39.00%(6.16)10.41(7.38)11.28DF-净英尺[44](3.54)4.4–(8.98)–25.70%––––[41]第四十一话–––10.818.05–––––sed[31]第三十一话(3.29)–(1.26)(8.10)–––9.387.9110.21RVI[35]第三十五话(3.55)4.2–(8.88)–31.20%(4.03)7.95(5.95)9.1512103[16]第16话:我的世界,我的世界图2. KITTI 2015测试数据集的定性结果。我们将我们的方法与Back2Future Flow [16]进行比较。第二列包含Our-sub-ft模型估计的流量,而第三列包含Back 2Future流量的结果还提供了流量误差与定量分析一致,我们的结果在结构边界[16]第16话:我的世界,我的世界图3. MPI Sintel数据集上的定性结果。 此图与图1的布局相同。2,除了顶部两行来自最终集,底部两行来自清洁集。这些错误在Sintel基准测试中以灰色显示。具有显著裕度的改进光流法。请注意,KITTI VO数据集中的大多数场景都是静止的,因此在这些基准测试中,our-gtF、our-F、our-low- rank和our-sub之间的差异很小。基准微调结果。 我们在每个基准上微调了我们的模型,并在表2中以后缀'-ft'报告结果例如,简单地遵循与之前相同的超参数,我们根据KITTI 2015测试数据对模型进行了微调。经过微调后,Our-sub模型表现出很大的性能提升,在KITTI 2012和KITTI 2015训练数据集上的EPE分别达到2.61和5.56,优于所有深度无监督方法和许多有监督方法。同样,在MPI Sintel训练数据集上,Our-sub-ft模型在无监督方法中表现最好,在Clean图像上的EPE为3.94,在Final图像上为5.08。此外,无论是在KITTI和Sintel测试基准,我们的方法优于目前的状态-最先进的无监督方法Back2Future Flow。在KITTI 2015上 , 我 们 将 最 佳 无 监 督性 能 从 22.94%的 Fl 提 高 到16.24%。Our-sub-ft模型在Sintel Clean数据集上实现了6.84的EPE,在Final数据集上实现了8.33的EPE,这是非监督方法以前从未触及过的结果另外,应当注意,Back2Future Flow方法基于多帧公式,而我们的方法仅需要两个帧。与一些微调的监督网络(如SpyNet)相比,我们的模型也具有竞争力定性地,如图所示。与Back2Future流的结果相比,本文所估计的流场形状更具有结构性,并且具有更明确的边界,这些边界代表了运动的不连续性。这种趋势在流量误差图像中也很明显。例如,在KITTI 2015数据集上(图2)Back2Future Flow的结果通常会带来较大的误差区域,对象周围为深红色。应该注意的是,对目标数据集12104输入Our-baseline Our-F Our-low-rank Our-sub图4. 我们的各种模型在KITTI 2015训练数据集上的端点误差性能。我们在KITTI 2015数据集上比较了Our-baseline,Our-F,Our-low-rank和Our-sub模型,以分析它们在处理动态对象时的性能Our-sub模型的结果要好得多。(例如,KITTI 2015)并没有带来显著的改善Method KITTI 2015 Sintel Final2.62 EPE。对Sintel Clean数据集的微调将结果从6.15EPE提高到3.94 EPE,因为Sintel Clean数据集在低复杂度下渲染合成场景,并且图像与现实世界有很大不同。5.4. 消融研究图5. Sintel Final数据集上的历元端点错误。我们说明了使用各种约束组合时训练时期的端点误差。对于所有三种方法,训练都从相同的预训练模型“我们的基线”开始。结合图像扭曲和子空间约束优于其他两种方法,这与表2中报告的最终微调结果一致。Our-F模型、Our-low-rank模型和Our-sub模型在静止场景中都能很好地工作,并且它们具有相似的定量性能。为了进一步分析它们处理一般动态场景的能力,我们在KITTI 2015和Sintel Final数据集上对每种方法进行了微调。它们都涉及到图像中的多个运动,而Sintel场景更具动态性。如表2所示,我们的- sub可以最好地处理动态场景,并在两个基准测试中达到最低的EPE。基本面硬约束与我们的基线表现相似表2. KITTI 2015和Sintel Final训练集的微调结果比较。 我们在KITTI 2015和Sintel Final数据集的训练集上微调了我们的模型。术语NaN表示模型不能收敛。模型,但不能收敛于Sintal数据集,其EPE报告为NaN。这是因为高度动态的场景不具有全局基本F。对于低秩约束,它的性能不受动态对象的影响,但它也不能通过建模多个运动来获得信息。在图5中,我们提供了Sintal最终数据集上训练早期阶段的验证误差曲线。子空间损失有助于模型更快地收敛,并实现比其他方法更低的成本。6. 结论在本文中,我们提出了有效的方法来加强全球核几何约束的无监督光流学习。对于静止场景,我们应用低秩约束来正则化全局刚性结构。对于一般的动态场景(多体或可变形),我们建议使用子空间联合约束。在各种基准数据集上的实验证明了我们的方法与最先进的(无监督)深流方法相比的有效性和优越性。在未来,我们计划研究多帧扩展,即,在多个帧上强制几何约束。鸣谢本研究得到了澳大利亚机器人视觉中心、Data61CSIRO、中国自然科学基金资助(61871325,61420106007)澳大利亚研究委员会(ARC )资助(LE190100080,CE140100016,DP190102261)。的作者感谢NVIDIA捐赠的GPU。因为我们已经在真实世界的数据集KITTI VO.模特们已经学会了EPE(所有)EPE(noc)EPE(所有)真实的光流和微调只是帮助他们我们的基线英尺6.162.855.87与数据集的特征相似关于KITTI 2012我们的6.192.85楠训练集,微调后的模型取得了非常接近的结果我们的低等级英尺5.722.625.5912105引用[1] LuisAl v arez,RachidDeriche,The'oPapadopoulo和J a vierS a' nchez。具有遮挡检测的对称密集光流估计Int. J.Comp.目视,75(3):371-385,2007. 1[2] Gilles Aubert,Rachid Deriche,and Pierre Kornprobst.用变分法计算光流SIAM Journal on Applied Mathematics,60(1):156-182,1999. 1[3] 放大图片作者:Simon Baker,Daniel Scharstein,J.放大图片作者:Michael J.布莱克和理查德·塞利斯基光流数据库和评价方法。Int. J. Comp.目视,92(1):1-31,Mar 2011. 5[4] 让-伊夫·布盖金字塔实现的仿射lucas kanade特征跟踪器的算法描述In-tel Corporation,5(1-10):4,2001. 1[5] ThomasBrox , Andre 'sBruhn , NilsPapenberg ,andJoachimWeickert.基于翘曲理论的高精度光流估计。欧洲药典配置文件可见,第25-36页。Springer,2004. 1[6] D. J. Butler,J. Wulff,G. B. Stanley和M. J.布莱克。一个用于光流评估的自然主义开源电影。欧洲药典配置文件可见,第611-625页,Oct. 2012. 二、五[7] Alexey Dosovitskiy、Philipp Fischery、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick vander Smagt、Daniel Cremers和Thomas Brox。Flownet:使用卷积网络学习光流 在proc IEEE国际会议对比可见光第2758-2766页,2015年。一、二、五[8] Ilg Eddy , Mayer Nikolaus , Saikia Tonmoy , KeuperMargret,Dosovitskiy Alexey,and Brox Thomas.Flownet2.0:深度网络光流估计的演变。在procIEEE会议Comp. 目视帕特识别,Jul 2017.一、二、五、六[9] Ehsan Elhamifar和Rene 'Vidal。通过稀疏表示聚类不相交子空间在IEEE声学语音和信号处理国际上,第1926-1929页IEEE,2010。4[10] Ehsan Elhamifar和Rene Vidal。稀疏子空间聚类:算法、理论和应用。IEEE Trans. Pattern Anal.马赫内特尔,35(11):2765-2781,2013. 三、四[11] Ravi Garg,Luis Pizarro,Daniel Rueckert,and LourdesAgapito.利用子空间约束的非刚性物体稠密多帧光流 在proc 亚洲人会议Comp. 目视第460-473页,2011年。2[12] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?Kitti Vision基准套件。正在进行IEEE会议对比可见光帕特识别,2012年。二、五[13] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。剑桥大学出版社,2003年。一、二、三[14] Berthold KP Horn和Brian G Schunck。确定光学流。Artificial intelligence,17(1-3):185-203,1981. 1[15] Max Jaderberg,Karen Simonyan,Andrew Zisserman,等.空间Transformer网络。在Proc. Adv. Neural Inf. 过程。系统2017-2025页,2015年。1[16] JoelJanai,FatmaGuêney,AnuragRanjan,MichaelJ. 布莱克和安德烈亚斯·盖格。多帧无监督学习具有遮挡的光流。在欧洲计算机视觉会议(ECCV),卷计算机科学讲义,卷11220,第713斯普林格卡姆九月2018. 一、二、六、七[17] Pan Ji , Hongdong Li , Mathieu Salzmann , and YiranZhong.强大的多体特征跟踪器:一种无分段的方法。在proc IEEE会议Comp. 目视帕特识别,第3843-3851页3[18] 潘骥,马蒂厄·萨尔茨曼,李洪东。高效的稠密子空间聚 类 。 IEEEWinter Conference on Applications ofComputer Vision,第461-468页IEEE,2014。4[19] Vladimir Kolmogorov和Ramin Zabih通过图切割计算与遮挡的视觉对应。技术报告,美国纽约州伊萨卡,2001年。1[20] Zhuwen Li , Jiaming Guo , Loong-Fah Cheong , andSteven Zhiying Zhou.通过协同聚类的透视运动分割。 在proc IEEE国际Conf. Comp. 目视第1369-1376页,2013年3[21] Guangcan Liu , Zhouchen Lin , Shuicheng Yan , JuSun,Yong Yu,and Yi Ma.基于低秩表示的子空间结构鲁棒恢复。IEEE传输模式分析马赫内特尔,35(1):171-184,2013. 4[22] Can-Yi Lu,Hai Min,Zhong-Qiu Zhao,Lin Zhu,De-Shuang Huang,and Shuicheng Yan.通过最小二乘回归的鲁棒和高效的子空间分割 在proc EUR. Conf.对比可见光,第347-360页。Springer,2012. 4[23] Moritz Menze和Andreas Geiger。自动驾驶车辆的对象场景流。正在进行IEEE会议对比可见光帕特识别,2015年。二、五[24] Moritz Menze,Christian Heipke,and Andreas Geiger.光流的离散优化。德国模式识别会议,第16-28页。施普林格,2015年。1[25] Anurag Ranjan和Michael J.黑色.使用空间金字塔网络的光流估计 在proc IEEE会议对比可见光帕特识别,2017年7月。1、6[26] Anurag Ranjan,Varun Jampani,Kihwan Kim,DeqingSun,Jonas Wulff,and Michael J Black.对抗性合作:联合无监督学习深度,相机运动,光流和运动分割。arXiv预印本arXiv:1805.09806,2018。二、六[27] Benjamin Recht,Weiyu Xu,and Babak Hassibi. 秩最小化核范数启发式成功的充分必要条件IEEE Conferenceon Decision and Control,第3065-3070页。IEEE,2008年。3[28] Zhe Ren,Junchi Yan,Bingbing Ni,Bin Liu,XiaokangYang,and Hongyuan Zha.用于
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功