基于卷积神经网络的光流估计方法及其性能优化

79 浏览量更新于2023-10-16 收藏 745KB PDF 举报

光流估计

CNN特征

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于卷积神经网络的嵌入损耗克里斯蒂安·贝勒1基兰·瓦拉纳西1迪迪埃·斯特里克1，2Christian. dfki.deKiran. dfki.deDidier.Stricker@ dfki.de1德国人工智能研究中心（DFKI），2凯撒大帝大学摘要基于学习的方法在光流估计中尚未发挥其全部潜力，其中它们的性能仍然落后于启发式方法。在本文中，我们提出了一种基于CNN的补丁匹配方法的光流估计。我们的方法的一个重要贡献是一个新的阈值损失的暹罗网络。我们证明，我们的损失表现明显优于前损失。在我们的测试中，它还可以将训练速度提高2倍。此外，我们提出了一种新的方法来计算不同图像尺度的CNN特征，其性能优于现有方法。我们还讨论了新的方法来评估的鲁棒性的训练特征的应用程序的补丁匹配光流。我们论文中一个有趣的发现是，特征映射的低通我们通过将其提交给KITTI 2012，KITTI2015和MPI-Sintel评估门户网站来证明我们的方法的竞争力，我们在所有三个数据集上获得了最先进的结果。1. 介绍近年来，PatchMatch [5]方法的变体不仅对最近邻场估计有用，而且对大位移光流估计的更具挑战性的问题也有用。到目前为止，大多数表现最好的方法，如深度匹配[32]或流场[3]，都强烈依赖于强大的多尺度匹配策略，而它们仍然使用SIFTFFlow [22]等工程特征（数据项）进行实际匹配。另一方面，像[30，34]这样的作品证明了基于卷积神经网络（CNN）的特征用于匹配补丁的有效性。然而，这些工作并没有验证他们的功能的性能，使用一个实际的补丁匹配方法，如PatchMatch或流场，匹配图像对之间的所有像素相反，他们只是将匹配的补丁作为一种分类一组预定义的补丁之间的问题。这忽略了许多实际问题。例如，重要的是，基于CNN的特征不仅能够区分不同的补丁位置，而且还应该准确地确定位置。此外，性能最好的CNN架构在用于补丁匹配时非常慢，因为它需要为参考图像中的每个像素虽然具有L2距离的Siamese网络[30]在测试时间上相当快，并且在分类方面仍然优于工程特征，但我们发现它们在（多尺度）补丁匹配方面通常表现不佳。我们认为这与CNN的卷积结构有关（见第4节）：由于相邻块共享中间层输出，所以CNN学习相邻块的匹配比学习非相邻块的匹配容易得多。然而，由于传播[5]，彼此接近的正确匹配的补丁通常比彼此远离的补丁对补丁匹配的贡献更小分类在此不作区分。在基于CNN的补丁匹配中成功的第一个解决方案是使用逐像素批量归一化[12]。虽然它削弱了不需要的卷积结构，但它在测试时的计算因此，我们不使用它。相反，我们将CNN功能本身改进到一个允许我们超越现有方法的水平。我们的第一个贡献是一个新的损失函数的连体结构与L2距离[30]。我们发现，通常用于连体结构及其变体的铰链嵌入损失[30]具有重要的设计缺陷：他们试图无限制地减小L2距离以获得正确的匹配，尽管对于由于像照明变化或部分遮挡之类的效应而不同的块，非常小的距离不仅非常昂贵，而且也是不必要的，只要错误的匹配具有较大的L2距离。我们证明，我们可以显着提高匹配质量，通过放松这个缺陷。此外，我们提出了一种新的方法来计算流场尺度的基于CNN的特征[3]，这明显优于原始的多尺度特征创建32503251方法，相对于基于CNN的特征。这样做的一个重要发现是，基于CNN的特征图的低通滤波鲁棒地提高了匹配质量。此外，我们还引入了一种新的匹配鲁棒性度量，该度量是针对二元决策问题（如补丁匹配）而量身定制的（而ROC和PR是针对分类问题而量身定制的）。通过绘制不同位移和错误补丁和正确补丁之间的距离的测量，我们可以揭示不同损失函数和尺度的有趣特性。我们的主要贡献是：1. 一种新颖的损失函数，在我们的测试中明显优于其他最先进的损失，并允许将训练速度提高约两倍。2. 一种为光流CNN特征量身定制的新型多尺度特征创建方法。3. 光流场匹配鲁棒性的新评价方法及相关图。4. 我们表明，低通滤波CNN创建的特征图提高了匹配的鲁棒性。5. 我们通过在所有三个主要评估门户KITTI 2012[14]、2015 [25]和MPI- Sintel [8]上获得最佳性能来证明我们方法的有效性。以前的基于学习的方法总是落后于启发式方法，至少在其中之一。2. 相关工作虽然正则化光流估计可以追溯到Horn和Schunck[18]，但随机化补丁匹配[5]是一个相对较新的领域，首次成功应用于近似最近邻估计，其中数据项为层12345678类型Conv MaxPool Conv Conv MaxPool Conv Conv Conv输入大小56x5652x5226x26 22x2218x189x95x51x1内核大小5x52x25x55x52x25x55x51x1出去渠道646480160160256512256步幅12112111非线性Tanh-Tanh Tanh-Tanh Tanh Tanh表1.我们实验中使用的CNN架构作为输出。虽然结果在运行时方面很好，但它们仍然不是最先进的质量。此外，该网络是为特定的图像分辨率量身定制的，据我们所知，对数百万像素的大图像进行训练仍然超出了今天的计算能力。第一种使用基于CNN特征的补丁匹配的方法是PatchBatch [12]。他们设法在KITTI数据集[14]上获得了最先进的结果，这是由于逐像素的批量归一化和包括批量统计的损失。然而，逐像素批量归一化在测试时在计算上是昂贵的。此外，即使使用逐像素归一化，他们的方法也遵循MPI-Sintel上的启发式方法[8]。最近的方法是 Deep-DiscreteFlow [15] ，其使用DiscreteFlow [26]作为基础而不是补丁匹配。尽管使用了最近发明的扩张卷积 [23] （我们还没有使用它们），但它们也在一些数据集上跟踪原始的离散流方法。3. 我们的方法我们的方法是基于暹罗架构[6]。Siamese网络的目的是学习为每个图像块p计算有意义的特征向量D（p）。在训练过程中，ing patches（p1<$p+）减小，而L2距离为-定义明确。光流估计的成功（其中2-数据项定义不明确），开始于类似[4，10]的出版物。最新的作品之一是流场[3]，其表明通过适当的多尺度补丁匹配，可以实现最佳性能的光流结果。关于补丁或描述符与学习数据项的匹配，存在相当数量的文献[17，30，34，31]。这些方法在抽象级别上处理匹配，并且不提供解决问题的管道例如光流估计或3D重建，尽管它们中的许多使用3D重建数据集进行评估。Zagoruyko和Komodakis [34]比较了不同的结构以比较补片。Simo-Serra等人[30]使用了具有L2距离的Siamese架构[6]他们认为它是实际应用中最有用的一种。非匹配面片的补间特征向量（p1/=p2）[ 30][31][32][33][34][35][36][37][38][39][连体架构可以大大加快在测试时的图像共享卷积相邻补丁。有关加速如何工作的详细信息，请参阅我们的补充材料。我们用于实验的网络如表1所示。与[7]类似，我们使用Tanh非线性层，因为我们也发现它们在基于Siamese的补丁特征创建方面优于ReLU3.1. 损失函数与批量选择基于Siamese网络的特征创建最常见的损失函数是铰链嵌入损失：.最近，几个成功的基于CNN的方法，l（p，p）=L2（p1，p2），p1≠p2（一）立体匹配出现[35，23，24]。然而，到目前为止，仍然有一些方法，成功地使用学习来计算光流。值得一提的是FlowNet [11]。H1 2max（0，m−L2（p1，p2）），p1/=p2L2（p 1，p 2）= ||D（p 1）− D（p 2）||第二章他们试图用CNN整体解决光流问题，将图像作为CNN输入，3252该算法尽量减小匹配块的L2距离，增大非匹配块的L2距离32532222222p22图1. 如果一个样本被推送（蓝色箭头），尽管它明显位于决策边界的正确一侧，但其他样本也会因权重变化而移动。如果大多数样本被正确分类，这会产生更多的错误决策边界交叉比正确的。lh执行不必要的推送，lt不执行。传播在我们的测试中，这不仅将训练速度提高了两倍左右，而且还通过避免可变的有效批量大小来提高训练质量3.2. 培训我们的训练集由几对图像（I1，I2∈Iall）组成，它们的像素之间具有已知的光流位移。我们首先从每个图像中减去平均值，然后将其除以其标准偏差。为了创建训练样本，我们随机提取补丁p1∈I1，在M. 一个建筑上的缺陷，对应的匹配块p+∈I2，p1<$p+，现有的损失函数处理的事实是，将匹配面片之间的特征距离无限推积极的训练样本对于每个p1，我们也提取一个非匹配补丁p−∈I2，p1/=p−用于负训练+2-2（L2（p1，p2）→0）.我们认为，对于因效应而不同的面片，L2距离非常小像旋转或运动模糊是非常昂贵的-它必须以其他补丁对的失败为代价。图1显示了对这一成本的可能解释。因此，我们引入了一个修改的铰链嵌入损失，阈值为t，阻止网络将L2距离最小化太多：.样品负样本p2是从一个分布中采样的，它优选接近匹配块p+的块，与它的最小距离为2个像素，但它也允许对远离p+的块进行采样。确切的分布可以在我们的补充材料中找到。我们只使用p1的中心像素在匹配补丁p+中没有被遮挡的补丁对进行训练。否则，网络会将遮挡对象训练为正匹配。然而，如果补丁中心是可见的，我们希望网络能够处理部分occlu。lt（ p1，p2）=max（0，L2（p1，p2）−t），p1<$p2max（0，m−（ L2（ p1，p2）−t）），p1/= p2（三）锡永我们使用的学习率在0.004到0.0004之间，在每批之后在指数空间中线性下降，即learnRate （t ）=e−xt→learnRate（t+1）= e−（xt+n）。我们还将t添加到第二个等式中以保持“虚拟”决策边界这不是必须的，但可以使不同t值之间的比较更公平。因为我们的目标是一个网络，性质L2（p1，p+）L2（p1，p−）有人可能会说，它<3.3. 多尺度匹配流场方法[3]，我们使用它作为我们的光流管道的基础，比较了不同位置2使用尺度空间的2个尺度[21]，即所有尺度都具有完整的最好直接训练这个属性。一个已知的函数，这是一个基于间隙的损失[17，33]，它只在匹配和非匹配对之间的L2lg（ p1，p+）= max（0，L2（ p1，p+）− L2（ p1，p−）+ g），图像分辨率它通过对最高尺度的特征图进行低通滤波来创建不同尺度的特征图（图2左侧）。对于[ 3 ]中使用的SIFTFFlow [22]特征，低通滤波特征（即，特征→低通= fea-ture→ downsample→ upsample）的性能优于重新采样。2 2p1p+p1−第二（四）条在不同分辨率上计算每个尺度的特征（即，下采样→特征→上采样）。lg（p1，p−）设为−lg（p1，p+）（反向梯度）。而lg我们对基于CNN的特征观察到了同样的效果2 2直觉上似乎更适合于给定的问题我们将在第4节中说明为什么情况并非如此。在那里，我们还将比较lt与进一步的损失函数。给定的损失函数的共同点是损失梯度有时为零。普通方法仍然反向传播零梯度。这不仅使得该方法比必要的慢，而且还导致训练样本的可变有效批量大小，其实际上是反向传播的。这是铰链嵌入损失lh，其中在我们的测试中只有约25%的训练样本获得零梯度。然而，随着lt（和合适的t）更多超过80%的样品获得零梯度。因此，我们只将具有非零损失的训练样本所有其他样品均被拒收，且未退回即使CNN也在较低分辨率上训练然而，通过我们在图2右侧所示的修改（在第4节中进一步激发），可以通过在不同分辨率上重新计算特征来获得更好的结果。我们使用CNN训练并仅应用于最高和第二高尺度的最高图像分辨率。此外，我们使用在3种分辨率（100%，50%和25%）上训练的CNN来计算分别以50%和25%分辨率应用的第三和第四尺度的特征图。对于多分辨率CNN，选择较低分辨率上的补丁用于训练的概率被设置为相应的下一个较高分辨率的概率的60%对于较低的分辨率，我们也使用分布N（p+）。这导致更广泛的分布，325422222p12图2. 我们对流场方法[3]的特征创建进行了修改，以获得更好的CNN性能。注意，流场期望全图像分辨率中所有尺度的特征图（详细信息请参见[3]设计决策的原因见第4.1节。Pr（p−）= P（L2（ p1，p+）L2（ p1，p−）），对于完整的图像分辨率。p12二、二（六）我们的CNN创建的特征映射不直接使用p1<$p+∈I2，p1/=p−∈N（p+），2 2 2相反，我们对它们执行2x低通滤波器，利用他们。低通滤波图像数据创建匹配不变性，同时增加模糊性（通过去除高频信息）。假设CNN无法创建完美的匹配不变性，我们可以期待类似其中S是所考虑的图像对（I1，I2）的集合，|S|图像对的数量，|I1| 1中的像素数。由于r是一个单一的值，我们可以在不同的情况下绘制它：1. p+之间不同空间距离的曲线对CNN创建的特征映射的影响事实上，p-（r2dist）。低通滤波器明显地增加了匹配鲁棒性。流场方法[3]使用了具有不同贴片尺寸的二次一致性检查。使用我们的方法，这将需要训练和执行两个额外的CNN。为了保持简单，我们使用相同的功能执行二次检查。这是可能的，因为流场是一种随机方法。尽管如此，我们对原始功能的测试表明，真正的二级一致性检查性能更好。我们在图2中设计决策的理由可以在4.1节中找到。3.4. 图像块匹配的评价方法在以前的工作中，（基于学习的）特征的匹配鲁棒性的评估是通过在分类问题中常用的评估方法进行的，如[7，34]中的ROC或[30]中的PR。然而，补丁匹配不是一个分类问题，而是一个二元决策问题。虽然在分类问题中可以自由地标记数据，但补丁匹配需要在每次迭代时从两个建议补丁p2，p3，其中一个更适合p1。这个规则的唯一例外是离群值过滤。这是这实际上不是问题，因为存在更好的离群值过滤方法，如前向后向一致性检查[3]，其比基于匹配误差的离群值过滤更鲁棒1。在我们的评估中，网络的匹配鲁棒性r被确定为错误补丁的概率，p−不会与正确的补片p+混淆：Σ Σ（1）A=（|I1||S|）（5）（I1，I 2）∈Sp1∈I11即使离群值过滤将由匹配误差执行，实际匹配仍然是一个决策问题。2. 不同光流位移的曲线在p_1和p ~+之间（r_f_o_w）.对于不同的位置，Rdist和Rflow变化很大。这使得不同网络之间的差异难以可视化。为了更好的可视化，我们绘制了相对于预先选择的网络1计算的相对匹配鲁棒性误差E_d_t和E_f _w。 E定义为：E （ net1，net2）=（1−r （net2））/（1−r（net1））（7）4. 评价我们在KITTI 2012训练集[14]上检查了我们的方法，因为它是少数几个包含非合成大位移光流估计的基础事实我们使用从194张图像中的130张图像中获取的补丁进行训练，并使用剩余64张图像中的补丁进行验证。每个测试网络总共使用1000万个阴性样本和1000万个阳性样本此外，我们通过向KITTI 2012、最近发布的KITTI 2015 [25]和MPI-Sintel评估门户网站（在相应的训练集上训练网络）提交我们的结果来公开验证我们方法的性能。我们使用流场方法[3]的原始参数，除了离群值过滤器距离和随机搜索距离R。将每个网络的最佳值（精度为±0.25，大多数情况下：=1。（五）。随机搜索距离R对于四次迭代被设置为2，并且对于两次附加迭代被设置为R=1以增加准确度。批量大小设置为100，m设置为1。为了评估光流结果的质量，我们计算了非遮挡区域的端点误差（EPE32552方法EPE> 3px noc.EPE> 3px全部EPEnoc。EPE全部方法EPE> 3px noc.EPE> 3px全部EPEnoc。EPE全部我们4.95%11.89%1.10像素2.60像素所有决议5.66%百分之十三点零一1.27像素2.98像素原创（[3]+CNN）5.48%12.59%1.28像素3.08像素诺洛帕斯5.21%百分之十二点二一1.19像素2.80像素ms res 15.17%12.10%1.17像素2.80像素ms res 2+5.18%百分之十二点一二1.21像素2.84像素表2.基于CNN的多尺度特征创建方法的比较详情见正文190170150130110907050无下采样2倍下采样2倍下采样，更接近训练使用32x32CNN进行2倍下采样0 5 10 15 2025以像素为单位的正确匹配距离200180160140120100806040200无下采样2倍下采样4倍下采样2倍下采样，更接近训练0 20 40 6080100 120 140160 180200以像素为单位的正确匹配距离(a)（b）第（1）款图3.相对匹配鲁棒性误差Edist（在较低分辨率下创建的要素对于大距离更准确，但对于小距离则不太准确水平线上没有下采样，因为结果已对其进行了归一化文本中的详细信息(noc)以及闭塞+非闭塞区域（全部）。(noc)是一个更直接的衡量标准，因为CNN只在这里训练。然而，对闭塞区域的插值（如流场，我们使用EpicFlow [28]）也取决于接近闭塞边界的良好匹配，由于补丁的部分闭塞，匹配特别困难。此外，像[14]一样，我们测量EPE高于像素阈值的像素百分比（px）。4.1. 基于CNN的多尺度特征映射方法的比较在表2中，我们比较了原始特征创建方法（图2左）与我们的方法（图2右），关于我们的CNN特征。我们还在表中检查了我们方法的两个变体：nolowpass不包含“低通2x”块，所有分辨率均使用1x、2x、4x、8x上/下采样，用于四个比例（而不是图2右侧的1x、1x、2x、4x）。所有决议都不能很好地发挥作用的原因，图3（a）. 从p+和p−之间的距离开始，表3. KITTI 2012 [14]验证集上的结果。最好的结果是大胆，2。最好强调。SIFTFFlow使用我们为CNN量身定制的管道。SIFTFFlow *使用原始管道[3]（图2左侧）。提高了近距离样本的数量，2 29像素，基于CNN的特征，在2倍下采样的图像匹配比基于全图像分辨率的CNN特征更鲁棒。这是不够的，因为尺度2上的随机搜索距离仅为2R=4个像素。因此，我们将其用于尺度3（随机搜索距离为4R=8×9像素）。人们可以认为，通过用更多的接近样本训练CNN，可以获得更高的准确性但与“量表1”相比的相对误差（%）与“量表1”相比的相对误差（%）方法/损失EPE> 3px noc.EPE> 3px全部EPEnoc。EPE全部鲁棒-内斯河Lh7.26%百分之十四点七八1.46像素3.33像素百分之九十八点六三Lt，t= 0。26.17%百分之十三点五一1.37像素3.10像素百分之九十九点一五Lt，t= 0。34.95%11.89%1.10像素2.60像素百分之九十九点三四Lt，t= 0。45.18%12.10%1.25像素3.14像素99.41%Lg，g= 0。25.92%13.17%1.41像素3.37像素百分之九十九点一五Lg，g= 0。45.89%百分之十三点二三1.41像素3.36像素百分之九十九点三一3256将精度阈值从9像素降低到8像素。使用较小的32 x32补丁而不是56 x56补丁的CNN也不会提高准确性-它甚至明显降低了它。图3（b）显示，对于较大的距离，下采样显著降低了匹配鲁棒性误差。事实上，对于170像素以上的距离，与无下采样相比，4倍下采样的相对误差325722多分辨率网络训练我们研究了训练多分辨率网络的三种变体（图2中的绿框）：在测试时（表2中的我们），在100%、50%和25%分辨率上训练它，尽管它只用于50%和25%分辨率，在测试时（ms分辨率），在50%和25%分辨率上训练它2+），并仅在100%分辨率（ms res 1）上训练它。从表2中可以看出，在所有分辨率上进行训练（我们的）显然表现最好。可能的是，混合训练数据表现最好，因为最高分辨率的样本提供了最大250000200000150000100000500000L_t，t = 0.3（阳性样品）L_t，t=0.3，对于距离为10像素的阴性样本L_g，g=0.4（阳性样品）L_g，g=0.4，对于距离为10个像素的负样本0 1 2 3 4 5 6 7 8L_2距离熵，而较低分辨率的样本更适合问题。然而，较低分辨率的训练样本似乎会损害较高分辨率的训练。因此，我们使用额外的CNN来获得最高分辨率。4.2. 损失函数与挖掘我们在图4和表3中将我们的损失与其他最先进的损失和硬采矿[30]进行了比较。如表中所示，我们的阈值损失l t，t = 0。三是明显超过其他所有损失。DrLIM [16]减少了上述图5. L2误差在不同Lt和Lg条件下的分布对于正样本p+和负样本p-，与相应正样本的距离bustness r of 99. 百分之十八L g在g = 0时表现最好。4，其对应于间隙L t，t=0。3（gLt=1−2t）。然而，即使具有最好的g，Lg的表现也明显比Lt差。这可能是由于Lg的方差Var（L2（p1，p2））比Lt的方差Var（L2（p1，p2））大得多。如图5所示，对于正（p+）和负（p-）SAM-的情况缺陷的铰链损失，通过训练样本与小铰链2 2损失更少。虽然这显然减少了错误相比，例。我们认为这会对测试集产生如下负面影响如果我们假设p1，p+，p-是未学习的测试集补丁，铰链，它不能与我们的阈值损失LT竞争。Fur-2 2很明显，条件L2（p1，p+）L2（p1，p-）更<但是，在训练过程中不可能像22那样加速如果Var（L2（p1，p+））和Var（L2（p1，p-））是我们的方法 CENT.（CENTRIFUGE）[12]是2 2的变体DrLIM在我们的测试中表现比DrLIM差。Hard Mining [30]仅训练具有最大铰链损失的最硬样本，因此也加快了训练速度。然而，在每一批中训练的样本的百分比是固定的，并且不像我们的方法那样适应训练数据的要求。使用我们的数据，硬采矿变得不稳定，采矿系数超过2，即。负样本的损失变得比正样本的损失大得多。这导致了较差的性能（r=96。61%用于硬采矿x4）。我们认为这与我们最难的负样本比最难的正样本更难一些补丁是例如。由于过度曝光而完全变白（负向训练在这里没有效果）。此外，与[30]的样本相比，我们的许多阴性样本与阳性样本的空间距离非常小这使得它们的训练更加困难（我们报告了小距离的大多数失败，参见补充材料），而阳性样本不会改变。为了确保我们的基于动态损失的挖掘方法（L t，t=0。（3）不稳定与学习差距相比，差距很大。只有Lt是正的-能够迫使网络保持与间隙一致的小方差。对于Lg，仅可能控制间隙而不能控制方差，而lh保持方差较小但不能限制间隙。匹配鲁棒性图一些损失函数的性能比其他函数差，尽管它们具有更大的匹配鲁棒性r。这主要是因为它们在大位移时表现不佳（如图4（b）所示）。在这里，正确的匹配通常更重要，因为缺少匹配会导致更大的端点错误。所有像素上的平均r不考虑这一点。图4还显示了参数t对Lt的影响。最多到t 100。3，所有的距离和流动位移都得到了改善，而小的距离和位移受益更多，并达到更大的t=0。4.第一章当避免了不必要的破坏性训练时，这种改善就会发生（见3.1节）.距离小的斑块比距离大的斑块受益更多，可能为实际间隙g real=|L2（p1，p−）−L2（p1，p+）|− +2 2我们测试了一个极端的负损失值我们随机去除80%的阴性训练样本，同时保留所有阳性样本。这样做，它不仅保持稳定，而且它甚至使用了比所有训练样本的方法更小的正/负样本挖掘比率-即使删除了80%（800万）的可能样本，我们也实现了匹配的ro-在这里是较小的（因为p2和p2对于小的disc非常相似，tances）。对于大位移，补丁变得更加混乱（由于更多的运动模糊，遮挡等），这迫使L2距离的变化较大，因此需要较大的间隙来抵消较大的变化。主要在小距离和大位移时，Lg的性能比Lt差。很可能，较大的方差对于小距离更具破坏性，因为实际间隙greal较小数量的样本3258不1601501401301201101009080L_t，t=0.2L_t，t=0.4硬采矿x2L_g，g =0.4L_t，t=0.3*L_t ，t=0.45DrLIM* 带2倍低通0 10 20 30 40 50 60 70 8090 100以像素为单位的正确匹配距离(a) 通过p+和p-之间的距离2001801601401201008060L_t，t=0.2L_t，t=0.3*L_g，g=0.4 DrLIML_t，t=0.4L_t，t=0.45硬采矿x2 *，带2倍低通滤波器0 20 40 60 80100120140160 180光流位移(b) 通过流动位移（p1和p+之间的偏移）2 2 2图4. 相对匹配鲁棒性误差E（L，t = 0. 3′ ′，X），对于不同的距离（a）和位移（b）绘制不同的损失函数。请注意，L t的图，t = 0。3在水平线上，因为E是标准化的。详情见正文(more敏感）在此。图4还显示，对特征图进行低通滤波可提高所有距离和位移的匹配鲁棒性在我们的测试中，2。25×低-pass的性能最好（用±0. 第25段）。工程化SIFTFFlow特性可以从更大的低通滤波器中受益过滤器，使原来的管道（图2左）非常有效。然而，将它们与我们的管道（重新计算不同分辨率的特征）一起使用表明，它们的低匹配鲁棒性是合理的（见表3）。SIFTFFlow在离群值过滤方面也表现得更好。由于这些效果到目前为止还不能直接训练，因此通过学习来击败设计良好的纯启发式方法仍然具有挑战性。事实上，现有的基于CNN的方法通常仍然不如纯粹的启发式方法4.3. 公共成果我们在KITTI 2012 [14]、2015 [25]和MPI-Sintel [8]评估门户网站上的公开结果如表4、5和6所示。对于公开结果，我们使用了4次额外迭代，R=1，以获得最佳亚像素精度和与流场相似的运行时间[3]。t设定为0.3。在KITTI 2012上，我们的方法在所有指标中都是最好的，尽管我们使用的补丁大小比 PatchBatch（71x71）小[12]。PatchBatch（51x51）的补丁大小与我们的更相似，性能更差。PatchBatch*（51x51）就像我们的工作一样，没有逐像素的批量归一化，甚至落后于纯粹的启发式方法，如Flow Fields。在KITTI 2015上，我们的方法也明显优于PatchBatch和所有其他通用光流方法，包括 DeepDiscreteFlow[15]，尽管使用CNN，但在许多方面落后于其工程前辈DiscreteFlow [26]唯一优于我们方法的方法是基于刚性分割的方法SDF [1]，JFS [20]”[29]。这些需要可分割的刚性对象在刚性背景前面移动，因此不适合包含非刚性对象（如MPI-Sintel）或不易分割的对象的场景。尽管没有做任何这样的假设，我们的方法在具有挑战性的前景（移动汽车的反射，变形等）中的表现优于其中两个。此外，我们的方法显然是所有顶级性能方法中最快的，尽管仍有优化潜力（见下文）。特别是，基于分割的方法非常慢。在非刚性MPI-Sintel数据集上，我们的方法在非遮挡区域是最好的，可以通过我们的特征进行匹配。使用EpicFlow [28]插值到闭塞区域的效果不太好，这并不奇怪，因为我们的方法没有学习到对闭塞区域很重要的良好离群值过滤等方面。尽管如此，我们还是在包含运动模糊的更具挑战性的最终集上获得了最佳的整体效果。相比之下，PatchBatch在MPI-Sintel上远远落后，而DeepDiscreteFlow在干净集上再次明显落后于其前身DiscreteFlow，但不是最终集。我们的方法永远不会落后于相关匹配（非遮挡）部分。我们的详细运行时间是CNN（GPU）4.5s+补丁匹配（CPU）16.5s+上/下采样和低通（CPU）2s。我们的方法的CPU部分可能可以使用GPU版本（如基于GPU的传播方案[2，13]）进行补丁匹配。这与PatchBatch相反，其中基于GPU的CNN已经占用了大部分时间（由于像素归一化）。此外，在最终测试中（提交到评估门户后），我们能够改进我们的CNN架构（参见补充材料），因此它只需要2.5s，并且在我们的验证集上只有轻微的质量变化。相对误差E（L_t，t=0.3，X）%相对误差E（L_t，t=0.3，X）%3259方法EPE> 3 px noc. EPE> 5 px noc.EPE> 3 px allEPE> 5 px allEPE noc.EPE全部运行时我们的（56x56）4.89%3.04%13.01%9.06%1.2像素3.0像素23s[12]第十二届全国人大代表选举4.92%3.31%13.40%10.18%1.2像素3.3像素60年代PatchBatch（51x51）[12]5.29%3.52%14.17%10.36%1.3像素3.3像素50年代流场[3]5.77%3.95%14.01%百分之十点二一1.4像素3.5像素23s（51x51）[12]5.94%[12]-----25.5s [12]表4.KITTI 2012 [14]测试集上的结果括号中的数字显示了基于学习的方法的补丁大小已发表方法的最佳结果最好的是下划线。PatchBatch* 是没有逐像素批量归一化的PatchBatch。背景前景（汽车）总类型方法EPE> 3px noc.EPE> 3px全部EPE> 3px noc.EPE> 3px全部EPE> 3px noc.EPE> 3px全部运行时刚性基于分割的方法SDF [1]5.75%8.61%22.28%26.69%8.75%11.62%未知JFS [20]7.85%15.90%18.66%22.92%9.81%17.07%13 minSOF [29]8.11%14.63%23.28%27.73%百分之十点八六16.81%6 min一般方法我们的（56x56）8.91%百分之十八点三三20.78%24.96%11.06%百分之十九点四四23sPatchBatch（51x51）[12]百分之十点零六19.98%26.21%30.24%百分之十二点九九21.69%50年代[26]第二十六话9.96%21.53%22.17%26.68%12.18%22.38%3分钟[15]第十五话百分之十点四四20.36%百分之二十五点八六29.69%百分之十三点二三21.92%1分钟表5.KITTI 2015 [25]测试集上的结果括号中的数字显示了基于学习的方法所使用的补丁大小所有已发表的一般光流方法的最佳结果是粗体，2。最好强调。加粗为分割基的方法表明效果优于一般最好的方法。基于刚性分割的方法被设计用于城市街道场景和仅包含可分割刚性对象和刚性背景的类似场景（并且通常非常慢），而一般方法适用于所有光流问题。5. 结论和未来工作在本文中，我们提出了一种新的扩展铰链嵌入损失，不仅优于其他损失在学习鲁棒补丁表示，但也允许提高训练速度，并对不平衡的训练数据是鲁棒的。我们提出了一种新的CNN多尺度特征创建方法，并提出了新的评估措施，通过绘制匹配鲁棒性与补丁距离和运动位移。此外，我们还证明了由CNN创建的低通滤波特征图改善了匹配结果。总之，我们通过将其提交给KITTI 2012，KITTI 2015和MPI-Sintel评估门户网站来证明我们方法的有效性，作为第一个基于学习的方法，我们在所有三个数据集上都取得了最先进的结果。我们的结果还显示了我们的贡献的可转移性，因为我们在第4.1节和第4.2节中的发现（我们的架构基于此）仅基于KITTI 2012验证集，但在KITTI 2015和MPI-Sintel测试集上仍然有效。在未来的工作中，我们希望通过使用（非像素）批量归一化和膨胀卷积等技术来改进我们的网络架构（表1）[23]。此外，我们想知道低通滤波不变性是否也有助于其他应用，如滑动窗口对象检测[27]。我们希望进一步改进损失函数Lt，例如通过取决于训练样本属性的动态t。到目前为止，我们只测试了56x56像素的补丁大小，尽管[12]表明更大的补丁大小3260方法（最终）EPE全部EPE未发生。EPE闭塞我们5.3632.30330.313[15]第十五话5.7282.62331.042流场[3]5.8102.62131.799[19]第十九话5.9602.99030.177[26]第二十六话6.0772.93731.685PatchBatch [12]6.7833.50733.498方法（清洁）EPE全部EPE未发生。EPE闭塞[19]第十九话3.5571.18922.889[26]第二十六话3.5671.10823.626FullFlow [9]3.6011.29622.424流场[3]3.7481.05625.700我们3.7780.99626.469[15]第十五话3.8631.29624.820PatchBatch [12]5.7892.74330.599表6. MPI-Sintel的结果[8]。所有已发表方法的最佳结果用粗体表示，次佳结果用下划线表示。可以表现得更好。这可能是有趣的，找出哪一个是最大的有益补丁大小。具有非常大的光流的MPI- Sintel帧显示出特别具有挑战性。由于稀有性，它们缺乏训练数据，但仍然对平均EPE有很大的影响（由于巨大的EPE）。我们希望为这些框架创建量身定制的训练数据，并检查基于学习的方法是否从中受益。致谢这项工作由BMBF项目DYNAM-ICS（01 IW15003）资助。3261引用[1] M. Bai，W. Luo，K. Kundu和R.乌塔松光流场的语义信息挖掘与深度匹配.欧洲计算机视觉会议（ECCV），2016。七、八[2] C. Bailer，M. Finckh和H. P. Lensch规模强大的多视图立体。2012年欧洲计算机视觉会议（ECCV）。7[3] C. 贝勒湾Taetz和D.斯特里克流场：高精度大位移光流估算的密集在2015年的国际计算机视觉会议（ICCV）上。一二三四五七八[4] L.鲍角，澳-地Yang和H.晋大位移光流场的快速边缘保持块匹配。在计算机视觉和模式识别（CVPR），2014年。2[5] C. Barnes ， E. Shechtman ， A. Finkelstein 和 D. 戈德曼Patchmatch：A randomized correspondence algorithm forstructure image editing. ACM图形汇刊-TOG，2009年。一、二[6] J. Bromley，J. W.本茨湖博图岛Guyon，Y. LeCun，C. Moore ，E. Sa？ckinge r和R. Shah. 利用一个连体时延神经网络进行签名验证International Journal of PatternRecognition and Artificial Intelligence，7（04）：669-688，1993. 2[7] M.布朗，G。Hua和S.发条人局部图像描述符的判别学习。PatternAnalysisandMachineIntelligence（PAMI），33（1）：43-57，2011. 二、四[8] D. J. Butler，J. Wulff，G. B. Stanley和M. J.布莱克。一个用于光流评估的自然主义开源电影。2012年欧洲计算机视觉会议（ECCV）http://sintel.is.tue.mpg.de/results网站。二七八[9] Q. Chen和V.科尔顿。全流：通过规则网格上的全局优化进行光流估计在计算机视觉和模式识别（C

下载后可阅读完整内容，剩余1页未读，立即下载