没有合适的资源?快使用搜索试试~ 我知道了~
光流的条件先验网络杨燕超Stefano Soatto加州大学洛杉矶分校视觉实验室加州大学洛杉矶分校,CA 90095{yanchao.yang,soatto}@ cs.ucla.edu抽象。光流的经典计算涉及捕获图像的基本统计的通用pri- ors(正则化器),但不涉及长程相关性或语义。另一方面,完全监督方法学习注释数据中的规律性,而没有显式正则化并且具有过拟合的风险我们寻求学习更丰富的先验的一组可能的流量,统计兼容的图像。一旦以监督的方式学习先验,就可以容易地学习完整图以直接从两个或更多个图像推断光流,而不需要任何(额外的)监督。我们介绍了一种新的架构,称为条件先验网络(CPN),并展示了如何训练它产生一个条件先验。当与简单的光流架构结合使用时,CPN击败了所有变分方法和所有使用相同数据项的基于无监督学习的方法。它的性能与完全监督的性能相当,但是针对特定的数据集进行了微调。另一方面,我们的方法即使在数据集之间传输时也表现良好代码可在:https://github.com/YanchaoYang/Conditional-Prior-Networks1介绍考虑图1:一个给定的图像(左)可以产生许多不同的光流(OF)[18],这取决于同一场景的另一个图像的外观:它可以显示一辆汽车向右移动(顶部),或者由于相机向右移动(中间)而明显向左移动,或者它可能是人为的运动,因为场景是描绘汽车的图片,而不是实际的汽车。物理场景单个图像偏置但不约束底层场景可以生成的可能流的集合我们希望利用图像包含的关于可能的兼容流的信息来学习比通用正则化器所暗示的更好的先验请注意,图中的所有三个流。1在一般先验(分段平滑)下同样有效,但在自然先验(汽车在场景中移动)下无效。正则化子是一种标准,当添加到数据拟合项时,约束反问题的解决方案这两个准则(数据项和正则化子)2Y. Yang和S. Soatto图1.一、单个图像偏置但不约束可以从其生成的光流集,这取决于相机是静态的但对象是移动的(顶部),还是相机是移动的(中心),或者场景是平坦的(底部)并且在非自然场景中在平面上移动。这里的流场由我们的CPNFlow生成。通常形式化为能量函数,其被最小化以理想地找到唯一的全局最优值。11.1我们的方法在经典(变分)OF中,正则化器捕获非常基本的低阶统计量[4,9,29,5,37],例如梯度分布的高峰度这对图1中的场景没有帮助。1.一、最近出现了一种基于(监督)学习的OF方法[15,19,32],这些方法没有显式正则化,也没有使用几何重投影误差作为数据拟合的标准。相反,从图像对到流的映射是学习的,其中正则化隐含在训练过程中的函数类[13],2中[11](例如随机梯度下降的噪声- SGD),以及用于训练的数据集(例如[10],Flying Chair [15])。我们的方法并不试图重新学习几何光学,即使黑盒的方法是在几个基准的最佳表现。相反,我们寻求在统计上与图像兼容的可能流的集合上学习更丰富的先验(图1)。①的人。1我们使用正则化因子、先验、模型或假设等术语,这些术语可以互换使用,并且广泛地包括在没有充分了解数据的情况下对解空间的任何限制或对解的任何偏差。在OF中,完整数据是(至少)两个图像。[2]理论上,深度神经网络是通用的逼近器,但在架构中有相当数量的工程来捕捉合适的归纳偏差。CPNFlow3+基于无监督学习的方法使用与变分方法相同或相似的损失函数[20,33,27,2],包括先验,但将函数类限制为参数模型,例如使用SGD训练的卷积神经网络(CNN),从而添加隐式正则化[11]。同样,先验仅编码一阶统计量,其未能捕获图1中的现象。1.一、我们提倡从数据中学习条件先验或正则化器,但这样做是一劳永逸的,然后将其与任何数据拟合项结合使用,与任何模型和优化一起使用。我们所学到的是一个先验,在这个意义上,它对可能的解决方案施加了偏见,但它并没有单独约束他们,这只发生在与数据项的结合。一旦以监督的方式学习了先验,就可以学习完整的图以直接从数据推断光流,而不需要任何(额外的)监督。从这个意义上说,我们的方法是这里的关键思想是学习与单个图像在统计上兼容的光流集合的先验。一旦完成,我们以无监督的方式训练一个相对简单的网络,将图像对映射到光流,其中用于训练的损失函数包括显式正则化以条件先验的形式,添加到重投影误差中尽管架构相对简单,计算复杂度低,但我们的方法击败了所有变分方法和所有基于无监督学习的方法。它与一些完全监督的算法相当或略低于一些完全监督的算法,但是这些算法针对特定的数据集进行了更重要的是,可用的完全监督方法在训练它们的数据集上表现最好。另一方面,我们的方法即使在一个数据集上训练先验并在另一个数据集上使用,也表现良好。例如,在Flying Chair上训练的完全监督方法在Flying Chair上击败了我们的方法,但在KITTI上表现不佳,反之亦然(Tab. ①的人。我们的数据在所有数据集中一直名列前茅。更重要的是,我们的方法是互补的,并且可以与更复杂的网络和数据术语结合使用1.2形式化设I1,I2∈RH×W×3是两个连续的图像,f:R2→R2是流,在共可见区域中隐式定义为I1= I2◦ f + n,其中n Pn是somdistribution. P(f|I1,I2)∝Pn(I1−I2◦f)可以表示为l logP(f|I1,I2)=1ogP(I2|I1,f)+l ogP(f|I1)−l ogP(I2|I1)≈logP(I2|I1,f)+logP(f|I1) (一)我们称第一项(数据)为预测误差,第二项为条件先验。在单独给定I1的意义上,它是先验的,许多流对于合适的I2可以具有高的可能性。然而,在捕获依赖于图像的规律性(诸如经常在对象处发生的流动不连续性)的意义上,它由I1通知4Y. Yang和S. Soatto边界,其可以对应于或可以不对应于通用图像不连续性。该模型的一个特殊情况假设高斯似然(2预测误差)和以下形式的ad-hoc先验:E(f,I1,I2)=∫∫(I1(x)−I2(x+f(x)2dx+ α(x,I1)f(x)2dx(2)其中α是标量函数,其结合了我们对对应于对象边界的I13这种类型的条件先验有几个限制:首先,在缺乏语义上下文的情况下,不可能区分遮挡边界(其中f可以是不连续的)与材料边界(辐照度不连续)或照明边界(投射阴影),其中f是平滑的。其次,图像11仅通过其梯度局部地通知流图2显示了流动未能传播到均匀区域。这可以通过使用完全连接的CRF来缓解[36],但计算成本很高。图二、第一行:来自FlyingChair数据集的两个图像I1、I2;第二行:使用通过最小化等式(1)估计的流量(右)的扭曲图像I2 ◦ f(左)。 (2);第三行:残差n = I1 − I2 ◦ f(左)与I1(右)的边缘强度相比。 注意,在椅子的右侧估计的流未能传播到均匀流中。图像梯度接近零的区域。我们的目标可以被规范为在p(f)中定义一个约束|11)以利用场景4的语义上下文并捕获全局语义上下文的方式来执行。3当α是常数时,我们得到一个更特殊的情况,原始Horn& Schunk模型,其中先验也是高斯和无条件的(独立于I1)。4.“语义”一词是用来表示复杂的实体(对象)和关系的。在我们的例子中重要的是几何和拓扑关系CPNFlow5j=1统计1。我们将通过利用端到端训练的深度卷积神经网络的能力来实现这一点,以实现我们需要设计可区分模型的功能,这是我们接下来要做的。2方法要学习条件先验,我们需要指定推理标准(损失函数),这是我们在节中所做的。2.2和功能类(架构),关于该功能类,端到端的损失被最小化。接下来,我们将介绍我们的架构选择,以及Sect. 2.32.1条件先验网络我们从经训练以重新构造与给定(单个)图像I兼容的流f的经修改的自动编码器构造条件先验。我们称之为条件先验网络(CPN),如图所示。3 .第三章。图三. 用于学习P(f)的条件先验网络(CPN)架构|Φ是流f的编码器,并且Φ是具有对图像I的完全访问的解码器。在CPN中,ψ只编码流f,然后取图像I和ψ的输出来生成f的重建,f=(I,ψ(f))。ψ和ψ两者都是通过具有二至三倍子采样(跨越)的纯卷积层来实现的。形成瓶颈。请注意,是一个具有跳跃连接的U形网[15],在其中心应用了与ψ(f)的连接在附录中,我们阐明了我们选择架构的原因,并认为它比在一个分支中编码f和I的普通自动编码器这与损失函数的选择以及如何训练有关,我们将在下面讨论。2.2损失函数我们给出从联合分布D={(fj,Ij)}n中采样的数据集DP(f,I),具有n个样本。 我们建议近似P(f |I)具有如下的CPN:低点Qw,wψ(f |I)=exp.Σ−(I,ψ(f))−f2∝P(f|(三)这可能导致图像平面上的遮挡边界为此,对象的名称并不重要,因此我们忽略标识并且不需要对象标签。6Y. Yang和S. Soatto∗其中w,wψ分别是和ψ的参数给定I,对于每个流f,上面的返回一个正值,其在训练后的log等于负平方的自动编码损失。为了确定产生P(f)的近似的参数,|I),我们应该解决下面的优化问题w*,w*= arg min EIP(I)KL(P(f|I)Qw,w(f|(4)ψwψ其 中 期 望 是 关 于 所 有 可 能 的 图 像 I 的 , 并 且 KL 是 P ( f) 之 间 的Kullback-Leibler散度。|I)和CPN Qw,wψ(f|I)的第10条。在附录中,我们证明了上述等价于:∫ ∫w= arg maxP(f,I)log[Qw,w(f|I)]dfdIϕ ψ wϕ,wψIf∫ ∫= arg minw,wψIP(f,I)wF(I,ψwψ(f))−f<$2df dI(5)它是一种均衡的方法,可以在压缩时最大限度地减少压缩损失地面实况流被量化,nj=1 f如果代码没有执行任何检查(suffiientinformationcapaciy),它可以通过yretungf=w(I,ψwψ(f))= f来拟合,使得条件先验Qw,wψ(f)|I)uninformative(constant). 与深度学习理论的最新发展一致[1],概述了在附录中,我们介绍了编码器ψ上的信息正则化器(瓶颈),其导致CPN训练损失w*,w*= argminEIP(I)KL(P(f|I)Qw,w(f|I))+βI(f,ψw(f))(6)ϕ ψ wϕ,w ψϕψψ其中β> 0调制复杂度(信息容量)和保真度(数据拟合),并且I(f,ψwψ(f))是基于流f和表示(码)ψwψ(f)的度量形式。当β较大时,编码器是有损耗的,因此防止了编码器的损耗。Qw,wψ(f|(一)不具信息性。52.3训练CPN而在Eq.虽然第一项(6)可以简单地是经验自动编码损失,但是第二项可以以许多方式实现,例如,对参数wψ的罚函数为2或1。在这里,我们通过减小的编码长度来直接增加瓶颈β。因此,所提出的CPN的训练过程可以总结如下:1. 用一个大的数字(β= 0)初始化编码器的编码长度2. 通过最小化e=1Σn来联合训练编码器-解码器ψfn直到收敛。收敛时的误差表示为e。j=1j j解码器n由于跳过连接而不施加架构瓶颈ϕψCPNFlow73. 如果e> λ,则训练完成。6否则,减小ψ(增大β),并转到步骤2。训练每个编码长度都是非常耗时的。我们只迭代训练整数幂,2k,k≤10。推理:假设从训练过程中获得的最优参数如果程序是w*,w*,那么对于任何给定的对(f,I),我们可以使用Qw*,w*(f|(一)作为ψϕϕψ有条件的优先于常数。在下一节中,我们将添加一个数据离散-在获得 用于学习从 图像到光流 的直接映射的 能量泛函之 前,对(log)进行ancy项。2.4半无监督学习光流与生成模型(诸如变分自动编码器[22])不同,其中需要采样以便评估给定观察的概率,这里(f,I)使用等式(1)直接映射到标量。因此可对f微分,并且适合于训练新的网络以通过最小化以下复合损失来预测给定图像I1、I2∫E(f|I1,I2)=ρ(I1(x)−I2(x+f(x)dx−αlo g[Qw*,w*(f|(I1)]ϕψ\O∫=\Oρ(I1(x)−I2(x+f(x)))dx+α(I1,ψ(f))−f2(7)其中α> 0,Qw*,w* 是我们学习的条件先验,ρ(x)=(x2+ 0. 0012)ηϕψ广义Charbonnier罚函数[8].注意,数据项中的积分在共同可见区域上,即图像域Ω减去遮挡区域O,为了简单起见,可以将其设置为空,或者使用如[ 27]中所做的前向-后向一致性来建模,其中对O进行惩罚以防止平凡的解决方案。在下面的部分中,我们将描述我们的实现,并报告结果和几个基准的比较。3实验3.1网络详细信息CPN:我们分别将[15]中提出的FlowNetS网络结构调整为CPN中的解码器ψ,并将FlowNetS的收缩部分调整为编码器ψ。这两个部分都是原始FlowNetS的缩小版本,系数为1/4;我们的CPN总共有2个。8M参数,这是一个命令其量值小于FlowNetS中的38M参数。正如我们之前提到的,Eq.(6)由编码器ψ的编码长度控制,这里我们明确定义ψ,它是编码器最后一层中卷积核在我们的实验中在我们的实验中,λ = 0。5.8Y. Yang和S. Soattoℓψ= 128 always satisfies the stopping criterion described in Sect. 2.3,其最终以减少率0结束。在流F的维度上。CPNFlow:我们将我们的流量预测网络称为CPNFlow。用于所有基准比较的网络是原始的FlowNetS,没有修改,让我们专注于不同损失项的影响。参数总数为38M。FlowNetS是用于学习光流的最基本的网络结构[15],即,仅具有用于降维的步幅的卷积层(7)包含学习的条件先验(CPN),它比更复杂的网络结构FlowNetC [15],甚至FlowNetS和FlowNetC的堆栈实现了更好的性能。请参阅章节。3.4详细信息和定量比较。3.2用于训练的Flying Chairs是[15]中提出的一个合成数据集,通过将椅子的图像叠加在Flickr的背景图像上。随机采样的2-D仿射变换应用于椅子和背景图像。因此,存在与背景运动一起独立移动的对象。整个数据集包含约22k 512× 384个具有地面真实流的图像对MPI-Sintel [10]是从一个逼真的动画中收集的。它包含具有自然照明的场景、快速移动的对象和关节运动。提供了数据集的最终版本和干净版本。最终版本包含运动模糊和雾效果。训练集只包含1041对图像,与飞行椅相比要小得多。KITTI 2012 [16]和2015 [28]是最大的真实世界数据集,包含在驾驶场景中收集的地面真实光流地面实况流是从同时记录的视频和3-D激光扫描以及一些手动校正获得的。即使多视图扩展版本包含大约15k个图像对,但仅针对394对图像存在地面实况流,这使得在该场景下从头开始的光流预测的完全监督训练不可行。然而,它为光流的无监督学习提供了基础,并且提供了展示半无监督光流学习的益处的阶段,其利用从合成数据集学习的条件先验(CPN)和实际上无限数量的真实世界视频。3.3培训详情我们使用Adam [21]作为优化器,在所有实验中使用其默认参数。我们使用Flying Chairs数据集训练我们的条件先验网络(CPN),因为它有大量的合成地面真实流。初始学习率为1.0e-4,每100 k步减半,直到最大600 k步。批量大小为8,训练后的自动编码损失约为0。6.我们的CPNFlow有两个版本,即CPNFlow-C和CPNFlow-K。两者都采用FlowNetS结构,并且它们在Eq.(7)最小化。CPNFlow-C在FlyingChairs数据集上进行训练,类似地CPNFlow9CPNFlow-K在具有多视图扩展的KITTI数据集上进行训练这里的考虑因素是:当在Flying Chairs数据集上训练时,条件先验网络(CPN)应该仅捕获仿射变换的统计数据。(a)CPNFlow-C是为了测试我们学习的先验是否正确地工作。如果它起作用,(b)CPNFlow-K测试所学习的先验如何推广到现实世界场景。CPNFlow-C和CPNFlow-K具有相同的训练时间表,初始学习速率为1.0e-4,每100 k步减半,直到最大400 k步。7请注意,在[33]中,在训练期间使用逐层损失调整来模拟粗略到精细的估计,但是,我们不会采用这种训练技术,以避免重复中断训练过程。本着类似的精神,我们不会像[27,19]中那样进行网络堆叠,这会增加训练复杂度和网络大小。在数据增强方面,每当我们的网络在Flying Chairs数据集上进行训练时,我们都会应用与[15]相同的增强方法,裁剪为384x448。在KITTI上训练时,调整为384x512,仅应用垂直在飞椅上用于训练的批量大小为8,在KITTI上为4。3.4基准测试结果选项卡. 1总结了我们对上述所有基准的评估,以及与来自不同类别的最先进方法的定量比较:全监督,变分和无监督学习方法。 由于CPNFlow 与 FlowNetS具 有 相 同的 网 络 结 构 , 并 且 CPNFlow-C 和FlowNetS都是在Flying Chairs数据集上训练的,因此CPNFlow-C和FlowNetS之间的比较表明,即使CPNFlow-C在不知道图像对和地面真实流之间的对应关系的情况下进行训练,与合成数据集MPI-Sintel上的完全监督相比,它仍然可以实现类似的性能。 当两者都应用于KITTI时,CPNFlow-C达到11。2%和21。在KITTI 2012 Train上分别比FlowNetS和FlowNetC提高6%,因此CPNFlow更好地推广到域外数据。人们可能会注意到,FlowNet 2 [19]在MPI-Sintel和KITTI Train上始终获得 最高 分数 ,然而 ,它 具有 完全 不同的网络 结构 ,其 中几个FlownetS [15]和FlowNetC [15]堆叠在一起,并且它以顺序的方式进行训练,并且在其他数据集上进行训练,例如。FlyingTh-ings 3D [26]和设计用于小位移的新数据集[19],因此不能直接与CPNFlow进行比较。然而,当我们简单地应用学习到的条件之前,使用等式2在KITTI上训练我们的CPNFlow。(7),最终网络CPNFlow-K在KITTI 2012Train上超过FlowNet 2 8%,但CPNFlow的训练过程简单得多,并且不需要在数据集之间切换,也不需要在网络的不同模块之间切换。自从光流的无监督训练出现以来[20],还没有一种方法可以击败变分方法,如表1所示7α = 0。1,η = 0。25,并且α = 0。045,η = 0。CPNFlow-K为3810Y. Yang和S. Soatto方法椅子测试Sintel清洁火车最终Sintel测试清洁最终KITTI2012火车2015KITTI测试2012 2015SupFlowNetS [15]2.714.505.457.428.438. 二十六...9.1-FlowNetC [15]2.194.315.877.288.819 .第九条。三十五--SPyNet [32]2.634.125.576.698.439 .第九条。十二个10个。一-[19]第十九话-2.023.143.966.024.09十点零六分--Var经典-NL [34]-6.037.997.969.15--十六岁四LDOF [7]3.474.296.427.569.12十三岁七12个。四[35]第三十五话-7.238.388.739.61--11.7 41.8%DIS-Fast [24]-5.616.319.3510.1311.01 21.2十四岁四温苏普DSTFlow [33]5.116.937.8210.4011.1116.98 24.30--DSTFlow-ft [33]5.11(6.16)(6.81)10.4111.2710.43 16.7912.4百分之三十九[20]第二十话5.30----11个国家。三十9.9-UnFlowC [27]-----14.17--UnFlowC-oc [27]--8.64--三点七八八点八--UnFlowCSS-oc [27]--7.919.3710.223.29 8.10--DenseNetF [40]4.73---10.07--11个国家。六CPNFlow-C3.814.875.957.668.587.3314.61--CPNFlow-K4.376.467.12--3.769.634.7 百分之三十点八CPNFlow-K-o-7.017.52--3.117.823.6百分之三十点四表1. 定量评价和比较的国家的最先进的光流估计方法来自三个不同的类别。Sup:完全监督,Var:变分方法,Unsup:无监督学习方法。性能测量是端点误差(EPE),除了使用错误像素的百分比的最后一列每个类别中的最佳表现者以粗体突出显示,括号中的数字在测试数据集上进行了微调。关于KITTI测试集的更多详细对比,请参考在线基准测试网站:http://www.cvlibs.net/datasets/kitti/evalflow.php.1,即使变分方法和无监督学习方法都在最小化相同类型的损失函数。一个原因可能是,当我们实现这些变化的方法时,我们可以应用如[ 34]中提到的一些“选择”操作,例如中值滤波,使得隐式正则化被触发。也可以添加额外的数据项来偏置优化,如[7]中所述,稀疏匹配被用作数据项来处理大位移。然而,当与我们学习的条件先验相结合时,即使是最简单的数据项也将有助于无监督地训练一个网络,该网络的性能优于最先进的变分光流方法。如Tab.所示。1我们的CPNFlow始终达到与LDOF相似或更好的性能[7],特别是在KITTI 2012列车上,改进至少为40%。与无监督光流学习相比,我们学习的条件先验的优势变得明显。尽管DenseNetF [40]和UnFlowC [27]采用比FlowNetS更强大的网络结构,但它们在MPI- Sintel测试中的EPE仍然比我们的CPNFlow高1.5请注意,在[27]中,报告了几个版本的结果,例如:UnFlowC:用亮度数据项和二阶平滑度项训练,基于普查变换的数据项CPNFlow11连同遮挡建模和双向流一致性惩罚,以及UnFlowC_SS_oc:使用与UnFlowC_oc中相同的损失来训练的一个FlowNetC和两个FlowNetS的序列的集合我们的CPNFlow-K在KITTI 2012列车上的性能比UnFlowC高47%,在KITTI 2015列车上高32%。当遮挡推理在Eq. (7)如在[27]中所做的,我们的CPNFlow-K-o比UnFlowC-〇 c执行17。7%的KITTI 2012列车,11。KITTI 2015火车上的1%,以及12。在Sintel Train Final上,即使没有更强大的基于普查变换的数据项和流一致性惩罚,也有9%的概率,这证明了我们在不同数据项上学习的条件先验的有效性。请注意,我们的CPNFlow-K-o甚至优于UnFlowCSS-oc,后者在训练和网络架构方面要复杂得多图4、图5、图6分别显示了MPI-Sintel、KITTI 2012和KITTI 2015上的视觉比较。请注意,我们的CPNFlow通常更平滑,同时在对象边界处更清晰,例如图中第三、四排的女孩和第五排的龙。4.第一章这表明,我们的条件先验网络(CPN)是能够学习高层次的(语义)的规则施加的对象实体。在图5中,我们还可以观察到流场中的不连续性与对象边界(例如,所有对中的汽车)很好地对准这再次表明,我们学习的条件先验能够推广到不同的场景。估算流量的误差也显示在图中。六、4讨论和相关工作捕 获 基 本 统 计 以 正 则 化 光 流 的 一 般 先 验 已 经 被 用 于 检 测 , 与Horn&Schunk的Gr的最小值2n、最小值1、总变差等一起进行统计。我们寻求设计或学习图像相关的先验知识,捕获远程相关性和语义。形式为Eq.(2)包括[23,31,12,14,30,6,37],而最近的方法端到端地学习光流,而没有明确地隔离可能性和先验项,例如[15,19,32]是MPI-Sintel上的最佳执行。一些方法甚至将光流投射为密集或半密集特征匹配[3,25,38,39],以便处理大位移,而规则性仅由前向-后向匹配一致性施加(参见其中的参考文献以详细回顾相关文献)。使用GAN [17]来学习兴趣的先验分布是很诱人的。GAN可以被认为是一种学习映射g的方法,使得它的前推g*映射两个分布,一个是已知的μ,另一个是我们可以从m,p,s中采 样的。||p)。它提供了一种改进的方法,使得生成模型G将捕获数据分布p_data。如果我们从生成模型G中采样,我们将具有从p个数据等效采样的样本,为了评估样本x的p个数据(x),我们不能绕过采样步骤,因此使得该方法不适合我们想要可微标量函数的目的。12Y. Yang和S. Soatto见图4。MPI-Sintel上的目视比较。变量:经典-NL [34],监督:SPyNet [32],无监督:UnFlowC [27]和我们的 CPNFlow-C。我们的工作需要构建流的自动编码器,因此它自然与[22]有关。类似地,评估测试示例的概率是棘手的,即使我们可以近似地评估数据点的概率的下限,由于对噪声的期望,该下限也不能以封闭形式计算。CPNFlow13图五. KITTI 2012上的视觉比较。变量:HornSchunck [35],监督:FlowNetS[15],无监督:BackToBasic [20]和我们的 CPNFlow-K。光流学习算法通常依赖于合成的数据集,这是由于获得真实视频的地面真实流的极端困难。最近,无监督光流学习方法蓬勃发展,利用大量的未标记的视频。虽然无监督光流学习方法能够从无限数量的数据中学习,但与变分方法相比,它们的性能通常落后,即使采用类似的观察到的一个现象是,几乎所有的无监督光流学习方法都使用Horn-Schunck型代理损失。对于数据项使用哪个特征存在争议,例如。原始光度值或边缘响应,或先验/正则化项,例如惩罚流的一阶梯度或二阶梯度,或如何以逐像素方式加权先验项。代理人的损失越来越复杂。我们不关注数据项,而是询问前一项的最佳形式是什么。我们的答案是,图像和流之间的结构一致性,以及高阶统计量,如语义一致性14Y. Yang和S. Soatto图六、KITTI 2015上的视觉比较变量:HornSchunck [35],监督:SPyNet [32]和我们的CPNFlow-K。每对中的第2行示出了估计流量的终点误差,红色为高,蓝色为低。都很重要我们表明,当与原始的光度扭曲误差相结合,这种先验作为一个更好的正则化比所有其他的手设计的。我们在几个当代光流基准上展示了它的有效性,这也要归功于它能够利用现有的有限的监督(合成)数据集和无限的真实世界视频。5致谢研究由ONR N 00014 -17-1-2072和ARO W 911 NF-15-1-0564/66731- CS支持。CPNFlow15引用1. Achille,A.,Soatto,S.:不变性的出现和深层表象的解开。Journal ofMachine Learning Research(JMLR),出版中。在Proc。ICML深度学习原则方法研讨会(ICML Workshop on Principled Approaches to Deep Learning)ArXiv 1706.01350(2017年5月30日)2. Ahmadi,A.,帕特雷岛:用于运动估计的无监督卷积神经网络。在:图像 处 理 ( ICIP ) , 2016 年 IEEE 国 际 会 议 上 。 pp.1629- 1633 年。 IEEE(2016)3. 贝勒角Taetz,B.,斯特里克,D.:流场:密集对应字段高精度大位移光流估计。In:ProceedingsoftheIEEEiintérnatalconnferencéoncomputérision. pp. 40154. Baker,S.,Scharstein,D.,Lewis,J.,Roth,S.,布莱克,MJSzeliski,R.:数据库和光流的评价方法。International Journal of ComputerVisual92(1),15. 布莱克,MJAnandan,P.:光流鲁棒估计的框架In:Computer Vision,1993.诉讼程序第四届国际会议。pp. 231-236 03 TheLordof the Lord(1993)6. Brox,T.,Bruhn,A.,Papenberg,N.Weickert,J.:高精度光流场测试仪基于翘曲理论的运动。在:欧洲计算机视觉会议。pp. 25-36 (200 4)7. Brox,T.,Malik,J.:大位移光流场:变结构中的描述符匹配运动估计IEEE transactions on pattern analysis and machineintellige nce33(3),5008. Bruhn,A.,Weickert,J.:走向最终的运动估计:结合高-测试精度和实时性能。In:Computer Vision,2005. ICCV 2005年。TenthIEEEInter natinc vol. 第1页。 749-755 05The Dog(2005)9. Bruhn,A., Wei ckert,J., S chnoürr,C. :Lucas/kanademeetshorn/schunck:Combin-使用局部和全局光流法。International Journal of Computer vision61(3)、21110. 巴特勒DJ Wulff,J.,Stanley,G.B.,布莱克,M.J.:一个自然主义的开源电 影 , 用 于 opticalflowevaluation 。In : EuropeanConferenceonCom uputerVison。pp. 61103 The Dog(2012)11. Chaudhari,P.,Soatto,S.:随机梯度下降执行变分推断-收敛到深度网络的极限环。arXiv预印本arXiv:1710.11029(2017)12. 陈昆,Koltun,V.:全流:通过全局优化的在规则的网格上。In:Proceedings of the IEEE Conference on ComputerVisionandPatternRecognition. pp. 470613. Cohen,N.Shashua,A.:深度卷积网络的感应偏差池化几何arXiv预印本arXiv:1605.06743(2016)14. 德里什河Kornprobst,P.,Aubert,G.:光流估计同时保持消除其不连续性:变分方法。在:亚洲计算机会议Vision. pp. 69比80 02TheDog(1995)15. Dosovitskiy,A.,Fischer,P.,Ilg,E.,Hausser,P.,Hazirbas角戈尔科夫van derSmagt,P.,Cremers,D.Brox,T.:Flownet:使用卷积网络学习光流在:IEEE计算机虚拟现实国际会议论文集中。pp. 275816. Geiger,A.,Lenz,P.乌尔塔松河:我们准备好自动驾驶了吗小猫视觉基准套件。In:Computer Vision and Pattern Recognition(CVPR),2012IEEEC〇nferenceon. pp. 3354- 3361. 中国(20 12)16Y. Yang和S. Soatto17. 古德费洛岛Pouget-Abadie,J. Mirza,M.,徐,B.,沃德-法利,D.,Ozair,S.,Courville,A.Bengio,Y.:生成性对抗网。In:Advances inneural in Formalin ProocessSystems.pp. 267218. Horn,B.K.,Schunck,B.G.:确定光流。人工智能17(1-3),18519. Ilg,E.,Mayer,N. Saikia,T.,Keuper,M.,Dosovitskiy,A.,Brox,T.:流 动 网 络 2.0 : 利 用 深 度 网 络 的 光 流 估 计 的 演 进 。 在 : ProceedingsoftheIEEEConferenceo n C onComuterVis isinandPater nRe g inition中。pp. 246220. 杰森J.Y. A.W.哈利Derpanis,K.G.:回到基础:通过亮度恒定性和运动平滑性的光流的无监督学习。In:EuropeanConferenceonComputerVision. pp.3-10 02 TheFamousFamous(2016)21. 金玛,D.P.,Ba,J.:Adam:随机最佳化的方法arXiv预印本arXiv:1412.6980(2014)22. 金玛,D.P.,Welling,M.:自动编码变分贝叶斯。ArXiv预印本arXiv:1312.6114(2013)23. Kr¨ahenb u¨hl,P., Koltun,V. :效率不受限制,适用于操作流。 In:EuropeanConferenceonCom up uterVison。pp. 356-369 Springger(2012)24. Kroeger,T.,Timofte河,Dai,D.,Van Gool,L.:快速光流使用密集的in-verseear ch 。 In : EuropeanConferenceonCom up uterVison 。 pp.471-48802TheDog(2016)25. 刘,C.,Yuen,J.,Torralba,A.,Sivic,J.,弗里曼,W.T.:筛流:不同场景之间的密集对应。在:欧洲计算机视觉会议。pp. 28比42 02TheDog(2008)26. Mayer,N. Ilg,E.,Hausser,P.,Fischer,P.,Cremers,D. Dosovitskiy,A.,布洛克斯T.:用于训练卷积网络的大型数据集,用于视差,光流和场 景 流 估 计 。 In : Proceedings of the IEEE Conference on ComputerVisionandPatternRecognition. pp. 404027. Meister,S.,Hur,J.,Roth,S.:UnFlow:具有双向普查损失的光流的无监督学习。在:AAAI。新奥尔良,路易斯安那州(2018年2月)28. Menze,M.,Geiger,A.:自动驾驶车辆的对象场景流。计算机视觉和模式识别会议(CVPR)(2015)29. Papenberg,N. Bruhn,A.,Brox,T.,Didas,S.,Weickert,J.:高精度的光流计算与理论上合理的扭曲。International Journal ofCom puterVision67(2),14130. Proesmans,M.,凡古尔湖Pauwels,E.,奥斯特林克,A.:用非线性扩散 确 定 光 流 及 其 不 连 续 性 在 : 欧 洲 会 议 上 CommputerrVision.pp.29402TheDog(1994)31. Ranftl,R.,Bredies,K.,Pock,T.:最优流的非局部全广义变分 In:EuropeanConferenceonCom up uterVison。pp. 439 -454 Spuringer(2014)32. Ranjan,A.,布莱克,M.J.:使用空间金字塔网络的光流估计。在:IEEE计算机视觉和模式识别会议论文集中。pp. 41
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功