没有合适的资源?快使用搜索试试~ 我知道了~
直接成本体积处理的精确光流方法
1通过直接成本体积处理实现精确光流Xia Xu Rene 'Ranftl Vladlen Koltun英特尔实验室摘要我们提出了一种光流估计方法,op-erates上的全四维成本量。这种直接的方法共享领先的立体匹配流水线的结构优势,这是已知的,以产生高精度。直到今天,由于成本量的大小,这种方法被认为是我们表明,完整的四维成本量可以在几分之一秒,由于其规律性。然后,我们利用这种规律性进一步适应半全球匹配的四维设置。这产生了一个管道,250200150100500DeepDiscreteFlow流场+SPM-BPv2流场CPM-FlowFullFlowOurs5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9EPE-all实现了比现有技术的光流方法显著更高的精度在Sintel和KITTI 2015基准测试中,我们的方法优于所有已发布的通用光流方法。1. 介绍光流估计是计算机视觉系统的关键组成部分。尽管取得了一致的进展,但由于大位移、无纹理区域、运动模糊和非朗伯效应,精确的光流估计仍然是一个公开的挑战。显然,领先光流算法的精度落后于立体匹配相关问题的精度。尽管这两个问题在结构上非常相似:立体匹配可以被看作是光流的特殊情况。立体匹配和光流的最成功的方法往往遵循不同的哲学。领先的立体方法将搜索空间视为高度规则的离散结构,并明确构建该结构的完整表示,称为成本体积[29,39]。这使得能够应用强大的全局和半全局优化技术,去除离群值并加强一致性[16,33]。与此相反,光流的成本体积是四维的,其显式的构造和处理直到最近才被认为是不可能的。出于这个原因,光流方法通常依赖于最近邻搜索[25,3,12,2]和从粗到细的方法。分析[28]。最近的研究表明,在com上操作图1. Sintel基准测试中的精度与运行时间。我们比较排名靠前的出版光流法。我们的方法更准确,同时保持有竞争力的运行时间。全成本体积,一个'la立体声,实际上是可行的,并且该体积的常规结构支持使用全局优化技术[7]。然而,这种方法的计算要求似乎使其不切实际,这是由于成本量的构建和优化。目前还不清楚我们是否可以将最先进的立体处理管道的成功结构转化为光流,而不会导致严重的计算损失。本文提出了一种光流算法,它可以将成本-体积法的方便性和准确性我们的工作是基于学习嵌入到一个紧凑的特征空间,这样的补丁之间的匹配分数可以计算在这个空间的内积。我们表明,完整的四维成本体积可以在几分之一秒的时间内构建,由于它的规律性。然后,我们通过将半全局匹配[16]适应于四维设置来进一步利用这种规律性。尽管标签空间的大小,它的规律性暴露了大量的并行性,可以利用它来保持运行时间下降。通过将单应性拟合到图像区域并使用这些来正则化流场来执行附加的后处理。由此产生的管道在Sintel基准测试[6]上达到了最高的报告准确度,同时保持了有竞争力的运行时间。我们的方法也显著地1289(sec)1290在KITTI 2015基准测试[24]上,优于所有已发布的领域不可知光流方法,相对于最佳先前工作(提交时的“补丁-批量”),将F1-all误差降低了29.5%图1示出我们的方法的准确性和运行时间与领先的已发表方法一致。所提出的方法甚至优于一些最近的方法,这些方法在训练期间使用广告领域特定的语义监督[31,19],而不使用这种额外的监督,并且运行时间大大降低。2. 相关工作光流估计自其早期以来已经取得了显著的进步。特别是,当图像运动很小时,这个问题在很大程度上得到了解决[4,32]。因此,最近的工作重点是大规模流离失所带来的挑战[5]。可以确定两个具体的挑战。首先,补丁外观可以随着大的运动而显著改变。第二,大的运动引起相应的大的潜在搜索空间,当建立对应时必须考虑该空间。光流估计的最新进展可以通过如何解决这些挑战来分类在估计斑块相似性时,文献中的大多数方法依赖于手工制作的匹配函数和描述符[5,34,25,3,7]。情况也是如此。在立体匹配[17]中,直到最近基于卷积网络的匹配函数的普及[39,22]。这种学习的匹配函数最近已被用于光流估计[12,13,2]。像这些最近的作品一样,我们使用了一个学习的匹配函数。第二个挑战是搜索空间的大小。许多方法使用最近邻搜索来将算法的域限制为稀疏匹配,尽管以规则性为代价[25,3,12,13,2]。另一种绕过成本量构建的方法是对应字段的多尺度分析[3,28]。我们采取一种更直接的方法,简单地计算成本量。在这一点上,我们受到了全流的启发,全流证明了四维成本量的规则性提供了显着的好处[7]。我们的工作表明,成本量处理是不对立的速度。我们的方法实现了显著更高的准确性,并且比Full Flow快了一个数量级[7]。令人惊讶的是,它也比几乎所有上述方法更快,避免成本体积构建,除了显着更准确。最近的一项工作训练神经网络直接估计光流,立体声和场景流[9,23]。这种方法的端到端性质很吸引人,而且训练的网络非常快。然而,这些工作中使用的网络具有数千万个参数,因此需要大量的外部训练数据相比之下,我们的网络非常紧凑(112K参数),比FlowNetS和FlowNetC都小两个数量级[9]。因此,我们能够仅使用每个基准测试(分别为Sintel和KITTI2015)中的训练数据从头开始训练我们的网络,而无需数据集增强。这种紧凑的网络在实际部署中是有利的[14]。此外,我们的管道是高度模块化的,不同的组件(匹配,成本体积处理,后处理)可以很容易地分析和升级。另一个最近的方法家族利用特定领域的知识,并将光流与语义分割相结合[31,19,2]。这在汽车领域中特别相关,其中人类注释的地面实况语义标签地图与兼容的光流数据集一起可用。这些方法已经在汽车数据集上产生了迄今为止最高的准确性,但其泛化能力有限作为一种症状,这些方法不报告Sintel数据集上的结果。我们的方法不使用语义信息,是不可知的域。尽管如此,它实现了更高的准确性比一些特定领域的方法在汽车领域,同时保持通用性。3. 概述遵循最近的常见做法,我们的大部分管道都在适度下采样的图像上运行[7,12,13,25]。具体而言,特征提取、成本体积计算和成本体积处理对在每个维度上以三个因子下采样的图像进行操作。在成本体积处理之后,对应字段被上采样到全分辨率,然后被修复和细化。成本量构造。 设I1和I2是分辨率为M×N的两幅下采样彩色图像,表示为RMN×3中的矩阵。 图像还进行了标准化具有零平均值和单位标准偏差。我们首先计算每个像素的d每个图像都由卷积网络处理,该卷积网络联合产生所有像素的特征向量,从而产生cor。对应的特征空间嵌入F1,F2∈RMN×d.然后,四维成本体积由特征向量对(f1,f2)之间的距离填充,其中f 1∈ F1且f 2∈ F2。欧几里德度量的一个简单性质允许使用以下方法并行构建成本体积:高效的载体产品。该阶段在第4节中描述。成本批量处理。在前一阶段产生的成本量可以直接用于通过赢家通吃分配来估计最优流,而无需任何进一步的处理。我们的实验将证明这已经产生了令人惊讶的好结果。然而,可以通过重新计算来处理成本量以进一步提高准确性12912移动离群值并正则化估计的流量。为此,我们使用半全局匹配(SGM)我们使用三重损失优化嵌入[30,36]:到四维成本量。 这种适应性保留了原SGM常规和并联运行,L(θ)=1Σ|D|Σm+<$f(xa;θ)−f(xp;θ)<$2从而有效地执行这在第5节中描述。|D|我我i=1Σ-<$f(xa; θ)− f(xn; θ)<$2。( 一)后处理。 我们计算从I1到I2的前向流和从I2到I1的后向流,并去除不一致的匹配。剩下的比赛将被取消-最终分辨率,导致半密集对应字段。我们现在使用图像修复和变分细化来获得密集的亚像素分辨率流场。为此,我们将EpicFlow插值方案[27]与基于低级边缘线索分割图像并将单应性拟合到图像片段的补充方案相结合。这些单应性有助于修补大的occluded地区。这在第6节中描述。4. 特征嵌入我们使用卷积网络学习非线性特征嵌入[20]。我们的目标是将图像块嵌入到一个紧凑的和有区别的特征空间中,该特征空间对光流估计中遇到的几何和辐射失真具有鲁棒性。另一个要求是特征空间嵌入以及该空间中的距离可以非常有效地计算这将允许快速构建4D成本卷。考虑到这些目标,我们设计了一个小型的全卷积网络,将原始图像补丁嵌入到紧凑的欧几里得空间中参数化。 我们的网络有4个卷积层。前三层中的每一层使用64个过滤器。 每个卷积之后是逐点截断max(·,0)[26]。所有过滤器的尺寸均为3×3。我们不大步,游泳,或垫。最后一层使用d个滤波器,它们的输出被归一化以产生单位长度的特征向量f∈Rd,使得f∈ R d2=1。该网络具有相对较小的9×9像素的感受野,已被证明对立体声估计有效[39]。由于该网络在下采样的IM上运行,年龄,如第3节所述,原始图像中的诱导感受野为27×27。特征空间的维数d在其表达能力和在该空间中计算距离的计算成本之间进行权衡我们将在第7节中展示,令人惊讶的低维度支持高度区分的嵌入。训练我 们 训 练一卷 积网 络 f :R9×9→Rd,将输入补丁嵌入特征空间。设θ为网络的参数让D={(xa,xp,xn)}i是一组三元组的面片,使得i i+为了收获训练三元组的数据集D,我们使用地面实况光流,其被假设为针对图像对的训练对于每个图像对,我们从第一图像中随机采样锚点xa,并使用地面实况流来获得第二图像中的对应正补丁xp为了获得相应的负样本xn,我们在第二幅图像中以距离xp的中心1到5个像素的距离随机采样三个补丁。这产生三个训练三元组。这个过程可以重复,以从标准光流数据集产生数亿个训练三元组。使用动量为0.9的SGD进行训练。为了提高效率,数据集D在训练期间通过并行线程在线构建,该并行线程连续采样新的三元组并构建传递给求解器的小批量。我们使用30K三元组的批量大小来平衡数据生成线程和求解器的执行首先以10−1的学习率进行10K次迭代,然后以10−2的学习率进行10K次迭代,最后以10−3的学习率进行20K次迭代。我们不使用数据增强或硬负面挖掘。 训练集通过构造包含硬三元组,因为正和负补丁可以小到一个像素分开。成本量构造。为了进行测试,我们利用了网络的全卷积性质的优势,并在通过网络的单个前向传递中计算图像中所有像素的特征嵌入。由于特征被归一化为单位长度,所以匹配成本可以使用向量积来计算,如下所示。这使得能够实现高效的成本体积构建。回想一下,我们的输入图像是I1,I2∈RMN×3。设V∈RMN×2是I1和I2之间的流场. 设Vp为像素p ∈ [1,. . . ,MN]。我们假设搜索空间是离散的矩形。具体地说,我们假设Vp∈R2,其中R={−rmax,−rmax+1,. . . 、0、. . . ,rmax−1,rmax}Rmax是最大位移。 设F1,F2∈ RMN×d分别表示整幅图像I1和I2的特征空间嵌入。 设C ∈ RMN×| R|是光流成本量。C中的每个条目都可以是计算为.Σ⊤我我我apnC(p,v)= 1 − F1 F2.(二)Xi 比x i更接近xi,对于所有我。p p+v1292R22p这里我们利用了欧氏距离和点积之间的联系.由于功能矢量-值和设定.¨¨F1和F2被归一化,p,qP2/Q,如果<$I1−I1<$≥Tp p+vP2=p qP2else(五).1Σ⊤21 ¨ 12¨21− FFp+v= 2<$Fp − Fp+v<$。(三)这允许我们使用向量积填充成本量,可以并行评估。很容易看出,成本量中的每个条目可以在时间O(d)内计算,并且成本量作为一个整体可以在时间O(MNR2d)内构造(不考虑并行性)。特征的维数d因此,空间对成本卷构建的计算成本具有直接影响:将维数减少一个数量级将成本量构造加速一个数量级。5. 成本量处理最近的工作表明,在整个4D成本体积上的近似全局优化可以使用其中阈值T与常数P2和Q用于支持成本体积的边缘感知平滑梅。能量(4)类似于SGM目标的经典定义[16]。不同之处在于位移Vp是二维的而不是标量的。反过来,正则化项的定义是基于二维邻域的,这反映在基于D1范数的距离中。电阻Vp−Vq<$1。 与经典SGM目标是故意的,因为这种类型的能量可以是亲,即使在2D位移的情况下,也可以使用扫描线优化高效地进行处理。Flow-SGM通过将能量分解为独立的路径来近似地最小化能量(4),这可以使用动态编程来全局最小化。对于每条路径,成本Lr(p,Vp)被计算为:Lr(p,Vp)=C(p,Vp)+S(p,Vp)采用并行消息传递和嵌套距离转换,形式[7]。然而,这种方法的成本仍然过高: 优化后的每幅图像分钟[7]。我们-min我. L(p−r,i)+Pp,p−r<$、(6)开发基于SGM的替代解决方案,SGM是一种在立体声处理中被广泛采用的技术[16]。SGM由于其鲁棒性和并行性,已成为立体声处理流水线中成本更高的马尔可夫随机场优化为其中平滑度惩罚S(p,Vp)递归计算为Lr(p−r,Vp)S(p,Vp)=minminv∈N (V)Lr(p−r,v)+P1(7)例如,它是最近成功的管道的核心部分,萨普p,p−rZelbontar和LeCun,这大大提高了该地区的技术水平[39]。SGM和全马尔可夫随机场优化之间的强联系是已知的,为最初的启发式提供了理论支持[10]。虽然SGM的限制形式在[15,2]之前已经应用于我们现在描述我们对SGM的改编,我们称之为Flow-SGM令N(p)表示像素p. 我们采用了一个简单的4-连通邻域结构。将光流场V的离散能量定义为Σ。ΣE(V)=P1[Vp−Vq1=1]pq∈N(p)miniLr(p − r,i)+P2.这里r表示路径的遍历方向。注意,与经典SGM相比,通过一个离散化步骤计算切换的惩罚是在二维邻域上计算的。在实践中,使用多个路径方向r,并且将对应的成本Lr(p,Vp)累积到经滤波的成本体积L(p,Vp)中。我们使用四个基本路径方向:两个水平和两个垂直。最终的光流估计是通过为每个像素挑选与过滤后的成本体积中的最小成本相对应的流来给出的。我们在两个方向上计算流,并使用一致性检查来修剪遮挡或不可靠的匹配。然后将得到的高质量匹配传递给后处理,如下一节所述。我们在GPU上实现了Flow-SGM,Σ+Pp,q[<$Vp−Vq<$>1]+C(p,Vp)Σ、(四)算法中固有的大量并行性由于成本体积的大小,经济使用21q∈N(p)其中[·]表示Iv ersonbrack et,P1和Pp,q是正则化参数。我们把P1设为一个固定常数记忆很重要。为此,我们将值C(p,Vp)重新缩放并分仓为8位整数范围。由于L(p,Vp)的最大值是有界的[16],我们可以使用每个条目16位来存储过滤后的成本量。1293(a) 输入图像(b)半密集匹配(c)EpicFlow插值(d)我们的后处理(e)分割(f)地面实况(g)(c)的误差图(h)(d)图2.后处理。(a)叠加的输入图像。(b)作为输入提供给后处理阶段的半密集匹配(c)EpicFlow插值方案产生的密集和亚像素分辨率流场(d)由我们的后处理阶段产生的流场(e)我们的方案使用的低级别分割。(f)输入图像之间的地面实况流。(g,h)对应于(c)和(d)的误差图。6. 后处理我们将半稠密对应转换为全稠密流场的起点是EpicFlow插值方案[27],该方案通常用于此目的[3,7,12,13,25]。EpicFlow使用局部加权仿射模型从半密集匹配合成密集流场。我们发现,该方案在输入匹配相当密集的区域中产生准确的结果,但在必须填充大的遮挡区域时不太可靠。为了解决这个问题,我们开发了一个互补的插值方案,大大提高了这些地区的修复性能。我们利用的事实,即大部分的光流场可以由平面同态的特点。这种参数化已成功地应用于场景流,运动立体声和光流的上下文中[35,37,38]。主要的挑战在于确定平面区域的范围,并使估计数具有可靠性和空间一致性。我们的关键观察是,给定高质量的半密集匹配,使用匹配以及外观信息来识别这些区域相对容易。我们的方法是基于一个分割层次结合贪婪的自下而上的拟合策略。我们使用快速边界元检测器[8]计算超度量轮廓图(UCM)[1]UCM的一个关键特性是在不同的层次上对地图进行阈值化,从而产生一个分割层次结构。我们通过在t1和t2级对UCM进行阈值化来创建 两 级 层 次 结 构 , 其 中 t2>t1 。 然 后 , 我 们 使 用RANSAC [11]将单应性拟合到属于层次结构的更精细级别中的片段的半密集匹配。我们认为单应性的一个有效的解释,在段中的流,我们进一步聚合更大的片段,如果它们的孩子中的内点的数量足够大,则将粗略级别的片段考虑为单应性修复的候选者。对于每个这样的更高级别的片段,我们再次鲁棒地拟合单应性,并且如果找到足够的内点,则认为它有效。对于具有有效单应性的每个片段,我们使用该单应性来外推片段内的光流。所有其他段都使用EpicFlow方案进行修复。请注意,没有使用语义信息。我们依赖与EpicFlow插值相同的低级边缘线索。因此,我们的互补修复方案同样适用。它几乎不增加额外的计算时间,但可以大大提高合成的流场中存在的大闭塞区域。如图2所示,并将在第7节的对照实验中进行评价。7. 实验我们在MPI Sintel [6]和KITTI 2015 [24]基准上评估了所提出的方法。在报告实验结果时,我们将我们的方法称为DC Flow。在OpenCL中实现了特征计算、成本体积构造和成本体积处理,并在Nvidia TITAN XGPU上进行了评估。后处理在Intel Xeon E5-2699 CPU上执行。除非另有说明,否则使用64维特征嵌入。MPI Sintel。MPI Sintel是一个具有挑战性的数据集,具有大位移、运动模糊和非刚性运动[6]。公共训练集由23个序列组成,每个序列多达50个图像。我们从最终渲染通道中随机选择14个序列进行训练,并使用剩余的9个序列作为验证集。表1将我们的结果与之前在测试集的最后一遍上的工 作 进 行 了 比 较 。 所 有 误 差 均 以 平 均 终 点 误 差(AEPE)测量。我们使用9个标准度量[6],它们评估图像不同子集的平均EPE:所有像素、未被遮挡像素(NOC)、被遮挡像素(OCC)、到最近遮挡边界的给定距离范围内的像素(d 0 -10、d10-60 、d 60 -140)、以及速度在给定范围内的像素(s 0 -10、s10-40、s40+)。在撰写本文时,我们的方法在Sintel排行榜上排名第一。我们在九个评估指标中的七个方面优于所有竞争方法,包括主要1294方法所有NOCOCCd0-10d10-60d60-140S0-10S10-40s40+PatchBatch [12]6.7833.50733.4986.0803.4082.1030.7253.06445.858EpicFlow [27]6.2853.06032.5645.2052.6112.2161.1353.72738.021[25]第二十五话6.0772.93731.6855.1062.4591.9451.0743.83236.339[18]第十八话5.9602.99030.1775.0382.4192.1431.1553.75535.136FullFlow [7]5.8952.83830.7934.9052.5061.9131.1363.37335.592SPM-BPv2 [21]5.8122.75430.7434.7362.2551.9331.0483.46835.118DDF [13]5.7282.62331.0425.3472.4781.5900.9593.07235.819流场+[3]5.7072.68430.3564.6912.1171.7931.1313.33034.167直流潮流5.1192.28328.2284.6652.1081.4401.0523.43429.351表1.与Sintel最终测试集上最先进的光流法在AEPE方面的比较。在撰写本文时,我们的方法在Sintel排行榜上排名第一。我们在九个评估指标中的七个方面优于竞争方法,包括主要的一个(所有)。方法域-不可知未遮挡像素(%)Fl-bg Fl-fg Fl-all所有像素(%)Fl-bg Fl-fg Fl-all运行时SOF [31]✗8.1118.169.9314.6322.8315.996 minJFS [19]✗7.8514.979.1415.9019.3116.4713 minSDF [2]✗5.7518.388.048.6123.0111.01–EpicFlow [27]✓15.0024.3416.6925.8128.6926.2915秒FullFlow [7]✓12.9720.5814.3523.0924.7923.574分钟[18]第十八话✓12.7718.7113.8522.3222.8122.404.2秒[25]第二十五话✓9.9617.0311.2521.5321.7621.573分钟DDF [13]✓10.4421.3212.4120.3625.1921.171分钟PatchBatch [12]✓10.0622.2912.2819.9826.5021.0750秒直流潮流✓8.0419.8410.1813.1023.7014.868.6秒表2.与KITTI 2015测试集上最先进的光流法进行比较。我们的域不可知的方法优于以前这样的方法的一个显着的利润率,在被遮挡和未被遮挡的像素。所提出的方法优于最准确的先验方法的主要Fl-all措施的29.5%。为了完整起见,我们在表格的顶部列出了最近的特定于域的方法。所提出的方法优于这些方法中的两个,而不使用特定领域的信息。一个(所有)。我们的方法在经历快速运动(s40+)的区域中表现特别好。验证集的定性结果见图3。KITTI 2015. KITTI 2015是道路场景的汽车数据集[24]。它包含200个训练图像,具有半密集地面实况流。我们保留了30张随机选择的图像进行验证,并在剩余的170张图像上训练了特征嵌入。表2中提供了与KITTI 2015测试集上先前工作的比较。根据该数据集的标准协议,我们报告EPE高于3像素的像素百分比下表报告了此数据集的标准度量:静态背景上的误差(Fl-bg)、动态对象上的误差(Fl-fg)和所有像素上的误差(F1- all)。针对所有像素以及未被遮挡的像素报告这三个度量。主要的评估度量是所有像素上的Fl-全部。我们的方法产生的误差为14.86根据这一措施,这是29.5%低于最准确的先验域不可知的方法(PatchBatch)。在非遮挡区域上,我们比最准确的领域不可知 方法(DiscreteFlow)高出9.5%,表明我们的方法从更好的匹配和更好的修复过程中获得了优势。我们的方法是特别准确的背景地区,并提供了有竞争力的性能在前景地区。为了完整起见,表2(顶部)列出了使用附加的域特定的语义信息来增强其光流估计的最新方法的性能。在这个基准测试中,这些方法有望比领域无关的方法表现得更好然而,我们的方法优于这些最近的方法中的两种,并且仅被一个特定于域的管道超越[2],而不使用特定于域的信息。验证集的示例结果见图4。消融研究。 我们在Sintel和KITTI 2015的验证集上进行实验,以评估所提出的方法的不同组件的贡献。对于所有实验,我们提供了有效搜索范围的两种不同设置 的 结 果 : 快 速 版 本( rmax=100 ) 和 精 确 版 本(rmax=242)。我们报告Sintel所有像素的AEPE和错误匹配的百分比1295电话:+86-021 - 8888888传真:+86-021 - 8888888图3.来自Sintel训练集的三张图像的定性结果。从上到下:叠加的输入图像、地面实况流、通过所提出的方法计算的光流、对应的EPE图以及EPE图的颜色代码。KITTI的遮挡和非遮挡区域中的像素我们首先进行了一个对照实验,以证明学习的特征嵌入的有效性。我们使用d=64的特征维数,并按照第4节中的描述构建成本量。为了将学习到的特征嵌入与所呈现的管道的其余部分隔离开来,我们将构建的成本量传递给Full Flow [7]。这通过我们学习的特征嵌入来取代该工作中使用的经典NCC匹配函数,同时保持该管道的其余部分不变。结果报告在表3(顶部)中。我们的特征嵌入(Ours+FullFlow)在两个数据集上都产生了比经典NCC成本(NCC+FullFlow)更低的错误接下来,我们将重点讨论成本体积处理和后处理,在第5节和第6节中介绍。结果报告于表3(底部)中。由我们的成本量提供的匹配对于天真的赢家通吃选择是足够准确的,没有成本量处理(我们的+WTA),以产生可观的准确性,接近完整的全流管道,其中包括全局优化。(In在Ours+WTA条件下,97%的运行时间由EpicFlow插值消耗。)将Flow-SGM添加到我们的管道(Ours+SGM)中进一步提高了准确性,甚至超过了表格顶部报告的相应Ours+FullFlow变体。在后处理阶段(Ours+SGM+H)添加基于单应性的修复,在Sintel上保持了高准确性,并显着后处理阶段对两个基准的影响的差异并不令人惊讶,因为KITTI场景的大多数刚性性质使得它们特别适合单应性拟合。特征维度的影响如表4所示。令人惊讶的是,低至10维的特征嵌入表现非常好,可以用于方法Sintel KITTI 2015时间表3.对照实验,评估所提出的方法的不同组成部分的贡献。上图:学习特征嵌入的评估。下图:Flow- SGM和基于单应性的修复效果。误差输入直流潮流地面实况AEPE无菌(%)发生率(%)(秒)NCC+FullFlow(快速)6.9116.0925.1140NCC+FullFlow(acct)6.3714.3323.48240我们的+FullFlow(快速)6.3112.7422.1720Ours+FullFlow(acct)6.0111.1020.40120Ours+WTA7.2218.0627.373.01296<0的情况。1875<0的情况。375<0的情况。75<1.一、5<3<6<12<24<48≥48图4.来自KITTI 2015训练集的三张图像的定性结果。从上到下:叠加的输入图像,通过所提出的方法计算的光流,对应的误差图,以及误差图的颜色代码。颜色表示错误阈值。表5.所呈现方法的每个组件的运行时间(秒)。图5.故障案例。左边是KITTI 2015数据集的示例,右边是Sintel的示例。实践表5显示了所提出方法的每个组成部分的运行时间细目。成本体积构建在“快速”条件下几乎是实时的(两个方向均为80毫秒)在“快速”条件下(在此条件下不使用单应性图像修复。)在“精确”条件下最后,图5显示了一些失败案例。在Sintel上,失败的情况通常是由于剧烈的遮挡、强烈的运动模糊或无纹理对象的大运动。在KITTI上,大多数故障情况是由于阴影和过度暴露的区域。8. 结论我们提出了一种光流估计方法,直接构造和处理的四维成本体积。我们已经证明,与普遍认为的相反,可以在几分之一秒内构建高度准确的成本量。为此,我们使用一个学习的特征嵌入。已构造成本体积被处理32使用半全局匹配的有效适应,时间和后处理消耗了另外3个。DimensionSintel KITTI 2015表4.特征维数对准确度的影响四维空间我们的方法是植根于经典的立体声估计方法,已被广泛部署,并在现场进行了彻底的测试。我们的工作使一个统一的光流和立体estimation,迄今已被分开的计算考虑,尽管结构相似的问题。我们的方法结合了高精度与竞争的运行时,优于以前的方法在标准基准的显着利润率。输入输入误差直流潮流误差直流潮流快速准确特征提取0.020.02成本量(前向+后向)0.060.24SGM(正向+反向)0.452.59EpicFlow2.872.87单应性修复–2.91总3.408.63AEPE无菌(%)发生率(%)105.7111.7021.42165.6411.4321.29325.5311.1020.75645.5110.7220.471297引用[1] P. Arbel a'ez. 利用超度量等高线图提取自然图像的2006年,CVPR研讨会。5[2] M. Bai,W. Luo,K. Kundu和R.乌塔松光流场的语义信息挖掘与深度匹配.在ECCV,2016年。一、二、四、六[3] C. 贝勒湾Taetz和D.斯特里克流场:高精度大位移光流估算的密集在ICCV,2015年。一、二、五、六[4] S. Baker、D. Scharstein,J. P. Lewis,S.罗斯,M。J.Black和R.塞利斯基光流数据库和评价方法。IJCV,92(1),2011. 2[5] T.布洛克斯和J·马利克大位移光流:变分运动估计中的描述器匹配。PAMI,33(3),2011. 2[6] D. J. Butler,J. Wulff,G. B. Stanley和M. J.布莱克。一个用于光流评估的自然主义开源电影ECCV,2012年。一、五[7] Q. Chen和V. Koltun.全流:通过规则网格上的全局优化进行在CVPR,2016年。一、二、四、五、六、七[8] P. Dol la'r和C. L. 齐特尼克使用结构森林的快速边缘检测PAMI,37(8),2015. 5[9] A. Doso vitski yP.Fischer,E.Ilg,P.Hausser,C.哈齐尔巴斯Golkov,P. van der Smagt,D. Cremers和T.布洛克斯FlowNet:使用卷积网络学习光流.在ICCV,2015年。2[10] A.德罗里角Haubold,S. Avidan和F. A.汉普雷希特半全局匹配:消息传递方面的原则性推导。载于2014年全球政策审查。4[11] M. A. Fischler和R. C.波尔斯随机样本一致性:模型拟合的范例,应用于图像分析和自动制图。ACM通讯,24(6),1981年。5[12] D. Gadot和L.狼PatchBatch:光流的批量增强损失。在CVPR,2016年。一、二、五、六[13] F. Guéne y和A. 盖格河 深离散流。 InACCV,2016.二、五、六[14] S.汉,H. Mao和W. J·达利深度压缩:通过修剪、训练量化和霍夫曼编码压缩深度神经网络。ICLR,2016年。2[15] S. Hermann和R.克莱特基于半全局匹配的光流场分层扫描线动态规划ACCV研讨会,2012年。4[16] H. 希尔施姆乌勒河利用半全局匹配和互信息进行立体处理PAMI,30(2),2008. 1、4[17] H. Hirsch müller和D. 沙尔斯坦具有辐射差异的影像立体匹配代价评估PAMI,31(9),2009. 2[18] Y.胡河,巴西-地Song和Y.李有效的粗到细补丁匹配大位移光流。在CVPR,2016年。6[19] J. Hur和S.罗斯联合光流和时间一致的语义分割。在ECCV研讨会,2016年。二、六[20] Y.莱昆湾博泽,J. S. Denker、D.亨德森河E. Howard,W. Hubbard和L. D.杰克反向传播应用于手写邮政编码识别。神经计算,1(4),1989年。3[21] Y. Li,D. Min,M. S.布朗,M. N.做,和J。卢。SPM-BP:用于连续MRF的加速PatchMatch置信度传播。在ICCV,2015年。6[22] W. Luo,中国茶条A.G. Schwing和R.乌塔松用于立体匹配的高效深度学习在CVPR,2016年。2[23] N. Maye r,E. Ilg,P. Hausse r,P. Fische r,D. 克雷默斯A. Dosovitskiy和T.布洛克斯一个大型数据集,用于训练用于视差、光流和场景流估计的卷积网络。在CVPR,2016年。2[24] M. Menze和A.盖革自动驾驶车辆的对象场景流CVPR,2015。二、五、六[25] M.门策角Heipke和A.盖革光流离散优化。载于2015年全球政策审查。一、二、五、六[26] V. Nair和G. E.辛顿修正线性单元改进了受限玻尔兹曼机. ICML,2010年。3[27] J. Revaud ,P. Weinzaepfel ,Z. Harchaoui和C.施密 特EpicFlow:光流对应的边缘保持插值。CVPR,2015。三五六[28] J. Revaud,P. Weinzaepfel,Z. Harchaoui和C.施密特深度匹配:分层可变形稠密匹配。IJCV,120(3),2016年。一、二[29] D. Scharstein和R.塞利斯基密集两帧立体对应算法的分类与评估IJCV,47(1-3),2002. 1[30] M. Schultz和T.Joachims从相对比较中学习距离度量NIPS,2003年。3[31] L. Sevilla-Lara,D.Sun,V.Jampani和M.J. 黑色. 具有语义分割和局部化层的光流。在CVPR,2016年。二、六[32] D.孙习Roth和M. J.布莱克。对光流估计的当前实践及其背后的原理IJCV,106(2),2014年。2[33] R. 塞 利 斯 基 河 Zabih , D. 沙 尔 施 泰 因 岛 Veksler , V.Kolmogorov,A.Agarwala、M.F. Tappen,和C.罗瑟基于光滑性先验的马尔可夫随机场能量最小化方法的比较研究。PAMI,30(6),2008. 1[34] C.沃格尔,S。Roth和K.辛德勒光流数据代价的评估。载于2013年全球政策审查。2[35] C. Vogel,K. Schindler和S.罗斯基于分段刚性场景模型的三维场景流估计IJCV,115(1),2015.5[36] K. Q. Weinberger和L. K.索尔距离度量学习用于大间隔最近邻分类。JMLR,10,2009. 3[37] K. Yamaguchi、D. McAllester,和R.乌塔松鲁棒的单目极线流估计。CVPR,2013。5[38] J.Yang和H.李采用分段参数模型的密集、精确光流估计。CVPR,2015。5[39] J. Z.Bontar和Y. 乐存。通过训练卷积神经网络来比较图像块的立体匹配JMLR,17,2016. 一、二、三、四
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功