基于空间金字塔网络的光流计算

51 浏览量更新于2023-10-15 收藏 1.65MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4161基于空间金字塔网络Michael J. 黑色德国图宾根马克斯·普朗克智能系统研究所{anurag.ranjan，black}@ tuebingen.mpg.de摘要我们通过将经典的空间金字塔公式与深度学习相结合来学习计算光流这通过按当前流估计在每个金字塔层级处扭曲一对中的一个图像并且计算对流的更新来以从粗到细的方法估计大的运动。我们不是在每个金字塔级别上对目标函数进行标准的最小化，而是在每个级别上训练一个深度网络来计算流量更新。与最近的FlowNet方法不同，网络不需要处理大的运动;这些都由金字塔来处理。这具有若干优点。首先，我们的空间金字塔网络（SPyNet）在模型参数方面比FlowNet简单得多，小96%。这使得它更有效，更适合嵌入式应用程序。其次，由于每个金字塔级别的流量很小（1个像素），因此应用于扭曲图像对的卷积方法是适当的。<第三，与FlowNet不同的是，学习的卷积滤波器看起来类似于经典的时空滤波器，从而深入了解该方法以及如何改进它。在大多数标准基准上，我们的结果比FlowNet更准确，这表明了将经典流方法与深度学习相结合的新方向。1. 介绍近年来，在准确估计光流的问题上取得了重大进展，这一点可以通过在日益具有挑战性的基准点上提高性能来尽管如此，大多数流方法都是从一个“经典公式”中推导出来的，该公式对图像进行了各种解释，从亮度恒定性到空间平滑性。这些假设只是对现实的粗略估计，这可能会限制性能。该领域最近的历史集中在改进这些假设或使其对违规行为更加鲁棒[7]。这导致了稳步但渐进的进展。另一种方法抛弃了经典公式-序列）的图像，并学习直接计算流从他们。理想情况下，这样的网络将学习解决对应问题（短距离和长距离），学习与问题相关的滤波器，学习序列中什么是恒定的，并学习流的空间结构以及它如何与图像结构相关。第一次尝试是有希望的，但还没有像经典方法那样准确。我们认为，有一种替代方法，combines最好的两种方法。几十年的研究 OnFlow已经产生了设计良好的系统和有效的原理。但是，这些方法在某些地方会做出限制其性能的假设。因此，在这里，我们应用机器学习来解决弱点，同时保持工程架构，目标是1）提高现有神经网络和我们工作所基于的经典方法的性能;2）实现实时流量估计，其准确性优于慢得多的经典方法;以及3）减少存储器需求，以使流程对于嵌入式、机器人和移动应用更计算流需要解决两个问题。一个是解决长程相关性，而另一个是解决详细的亚像素光流和精确的运动边界。以前的神经网络方法FlowNet[17]试图同时学习这两种方法。相比之下，我们使用深度学习来解决后者，并依靠现有的方法来解决前者。为了处理大的运动，我们采用传统的粗到细的方法[20]，使用空间金字塔1。在金字塔的顶层，假设帧之间的运动小于几个像素，因此卷积滤波器可以学习有意义的时间结构。在金字塔的每一层，我们使用卷积网络求解流，并将流上采样到下一个金字塔层。作为标准，使用经典公式[38]，我们使用电流将一个图像向另一个图像弯曲，并在每个金字塔级别重复此过程我们不是在每一层最小化经典的目标函数，而是学习卷积网络来预测该层的流量增量。我们训练网络，并使用最近的神经网络建筑[17，42]。这种方法需要一对（或se-1），当然，这有众所周知的局限性，我们稍后会讨论。4162从粗到细，以学习每个级别的流量校正，并将其添加到上述网络的流量输出中。这个想法是，位移总是小于一个（或几个）像素在每个金字塔级别。我们将方法称为SPyNet，用于空间金字塔网络，并使用与FlowNet相同的Flying Chairs数据对其进行训练[17]。我们报告了FlowNet在飞椅和Sintel[11]上的类似性能，但在微调后，比Middlebury[4]和KITTI[19]上的FlowNet更准确。SPyNet的总大小比FlowNet小96%，这意味着它运行速度更快，占用的内存更少。用神经网络的非迭代计算代替了经典方法中昂贵的迭代传播我们并不声称能用SPyNet解决全光流问题;我们处理与传统方法相同的问题，并继承了它们的一些局限性。例如，众所周知，小或薄物体的大运动难以用金字塔表示来捕获。我们认为大运动问题是独立的，需要不同的解决方案。相反，我们所展示的是，传统的问题可以重新表述，它的一部分可以学习，并在许多情况下提高性能。此外，由于我们的方法将过去的方法与新工具联系起来，它提供了如何向前迈进的见解。特别是，我们发现SPyNet学习类似于传统时空导数或Gabor滤波器的时空卷积滤波器[2，24]。学习的滤波器类似于皮层区域MT和V1中运动处理滤波器的生物模型[36]。MT-V1滤波器也被证明对光流估计有用 [37 ， 14] 。这与FlowNet学习的随机过滤器形成对比（参见补充材料）。这表明，现在是时候用新的工具重新检查旧总结起来，我们的贡献是：1）将传统的粗到细金字塔方法与深度学习相结合用于光流估计; 2）新SPyNet模型比 FlowNet 小 96% ，速度更快 ; 3 ） SPyNet 在Sintel、KITTI和Middlebury等标准基准测试中的误差与FlowNet相当或更低; 4）学习的时空滤波器提供了关于流量估计需要什么滤波器的见解; 5）训练的网络和相关代码可公开用于研究2。2. 相关工作我们的公式有效地结合了“经典”光流和最近的深度学习方法的思想。我们的审查侧重于与此最相关的工作。空间金字塔和光流。光流问题的经典公式涉及优化2https://github.com/anuragranj/spynet基于亮度恒定性的数据项和空间平滑项的总和[25]。这样的方法的缺点在于，它们对图像亮度变化和流的空间结构做出与现实不匹配的假设许多方法通过改变假设来提高鲁棒性;参见[38]。学习计算流的关键优势在于我们不需要手工制作这些假设。相反，图像亮度和空间平滑度的变化体现在学习的网络中。使用空间金字塔进行流量估计有很长的历史[10，20]。典型地，高斯或拉普拉斯坐标系用于处理大运动。众所周知，这些方法在小物体快速移动时存在问题。Brox等人。[8]将长程匹配纳入传统的光流目标函数。这种结合图像匹配以捕获大运动的方法，以及用于精细运动的变分[32]或离散优化[21]，可以产生准确的结果。当然，空间金字塔被广泛用于计算机视觉的其他领域，最近被用于深度神经网络[16]以学习生成图像模型。时空滤波器Burt和Adelson[2]阐述了用于运动估计的时空模型的理论，Heeger[24]提供了计算实施例。虽然受到人类感知的启发，但这种方法在当时并没有表现得很好[6]。各种方法已经表明，时空滤波器是从学习中产生的，例如使用独立分量分析[43]，稀疏性[31]和多层模型[12]。Memisevic和Hinton使用受限玻尔兹曼机[29]学习简单的空间变换，找到各种滤波器。Taylor等[41]使用合成数据来学习使用受限玻尔兹曼机的“类流”特征，但不评估流精度。Dosovitskiy等人[17]使用深度网络学习用于流量估计的时空滤波器，但这些滤波器与受神经科学启发的经典滤波器不同。通过使用金字塔方法，在这里我们学习与经典时空滤波器视觉上相似的滤波器，但因为它们是从数据中学习的，所以产生良好的流量估计。学习建模和计算流程。可能第一次尝试学习一个模型来估计光流是弗里曼等人的工作。[18]使用MRF。他们认为一个简单的合成世界的均匀移动斑点与地面真理流。训练数据是不真实的，他们没有将该方法应用于真实的图像序列。Roth和Black[33]学习了一个专家场（FoE）模型来捕获光流的空间统计数据FoE可以被视为一个（浅）卷积神经网络。该模型使用从真实场景的激光扫描和自然相机运动生成的流场进行训练他们没有场景的图像（只有它们的流动），因此，4163KK方法只学习空间分量。Sun等人[15]描述了第一个完全学习的模型，可以被认为是一个（浅）卷积神经网络。他们制定了一个经典的流问题的数据项和空间项。空间项使用[33]中的FoE模型，而数据项则用一组学习的卷积图像滤波器取代传统的导数滤波器由于训练数据有限，过滤器也很少，它并没有完全展现出学习流的全部前景。Wulff和Black[46]通过将鲁棒PCA[22]应用于从自然电影计算的真实（噪声）光流来学习光流的空间统计虽然这会产生全局流量基础和过于平滑的流量，但他们使用该模型相对快速地计算合理的流量。深度学习上述学习方法受到有限的训练数据和使用浅模型的影响。相比之下，深度卷积神经网络已经成为解决识别[23，40]和密集估计[13，28]问题的强大模型。FlowNet[17]代表了用于流估计的第一个深度卷积架构，该架构是端到端训练的。该网络显示出有希望的结果，尽管经过训练，模型参数只有9.7 MB，这使得它很容易小到适合手机GPU。3. 空间金字塔网络我们的方法使用[16]的粗到细空间金字塔结构来学习每个金字塔级别的残差流在这里，我们描述了网络和训练过程。3.1. 空间采样设I是一个m×n的图像，维数是2的幂令d（. ）是将I抽取为大小为m/2×n/2的对应图像d（I）的下采样函数。让u（. ）是将图像上采样2倍的反向操作。这些算子是双线性的，也可用于光流场的重建。我们还定义了一个扭曲算子w（I，V），它使用双线性插值根据流场V扭曲图像I3.2. 推理令 {G0 ， . ，表示一组经训练的卷积神经网络（convnet）模型，每个模型计算剩余流量v k在一个随机飞过的椅子的人工数据集上，v=G（I1，w（I2，u（V）），u（V））（1）选定的图像。尽管结果很有希望，K KKkk−1k−1在准确性方面落后于现有技术[17]。深度匹配方法[21，32，44]不能完全解决问题，因为它们采用经典方法来计算在金字塔的第k层。convnetGk使用来自连续金字塔层级Vk−1的上采样流和层级处的帧{I1，I2}来计算残差流vkKK最终流场这仍然是一个悬而未决的问题，至于哪一个是-K.第二帧I2使用流进行扭曲，架构最适合解决问题，最好训练这些。Tran等人[42]使用传统的流方法为3D卷积网络创建“半真实”训练数据。性能低于最先进的水平，该方法没有在标准基准上进行测试。还有w（I2，u（Vk−1）），然后将其馈送到convnetGk。在第k个金字塔层的流Vk为V k= u（V k−1）+v k。（二）如图1，我们从下采样图像开始{I1，I2}和处处0 0在估计光流使用联合国的几次尝试监督学习[3，47]。然而，这些方法在标准基准上的准确度较低。来计算金字塔顶部的剩余流量v0=V0我们对结果流u（V0）进行上采样，并将其与{I1，w（I2，u（V0））}一起传递到网络G1以计算1 1快速流动。最近的几种方法试图平衡速度和精度，以实时处理（虽然不是最高的）准确度。GPU流[45]开始了这一趋势，但现在有几种方法优于它。PCA-Flow [46]在CPU上运行，比帧速率慢，并产生过于平滑的流场。EPPM[5]在Sintel（测试）上实现了类似的中等性能，在GPU上具有类似的速度。最近DIS-Fast[27]是一种GPU方法，比以前的方法快得多，但准确性也明显降低。我们的方法也比FlowNet快得多，FlowNet有一个运行-剩余流量V1。在每个金字塔级别，我们使用等式（2）计算流V k。流Vk类似地传播到金字塔的更高分辨率层，直到我们获得全分辨率的流VK。图1显示了我们使用3层金字塔的方法的工作原理。实际上，我们使用5层金字塔（K=4）。3.3. 培训和网络架构我们训练每个convnet {G0，...，G K}独立且顺序地计算给定输入{I1，w（I2，u（V k−1）），u（Vk− 1）}的残差流v k。我们来-K K80 ms/帧的时间（FlowNetS）。规模也很重要，但受到的关注不如速度。对于嵌入式处理器上的光流，将tar get残差流vk作为在第k个金字塔级别处的tar get残差流vk与从前一级别的经训练的卷积网络获得的上采样流u（Vk-1）的差打嗝、电话等，该算法需要较小的存储器脚印我们的网络比FlowNetS小96%，武克=Vk -u（Vk−1）的情况。（三）4164K0K0图1.3层金字塔网络中的推理[16]：网络G计算金字塔最高层的剩余流v使用低分辨率图像{I1，I2}来计算（最小图像）。在每个金字塔级别，网络Gk计算残差流vk，依次传播到金字塔的下一个较低级别中的每一个，以最终获得最高分辨率的流V2图2. 训练网络Gk需要经过训练的模型{G0. Gk−1} 到获得的初始流u（Vk−1）。我们通过减去downsampled来获得地面真实残差流使用EPE损失训练网络Gk如图2，我们训练每个网络G k，以最小化剩余流vk和vk之间的平均端点误差（EPE）损失1 Σ。（vx−v<$x）2+（vy−v<$y）2每个卷积层后面都有一个整流线性单元（ReLU），除了最后一个。我们对每一层使用7 x7卷积核;这些比较小的过滤器效果更好。每个convnet中的特征图的数量Gk为{32，64，32，16，2}。图像I1和变形图像w（I2，u（Vk-1））各自具有3个通道（RGB）。上采样流u（Vk−1）是2通道（水平和垂直）。我们将图像帧与上采样流堆叠在一起，以形成每个Gk的8通道输入。输出是对应于x和y方向速度的2通道流。使用Torch 7 3，我们训练了五个网络{G0，...， G4}这样每个网络G k使用前一个网络G k-1作为初始化。网络使用Adam[26]优化进行训练，β1=0。9和β2=0。999我们在所有网络中使用32的批量大小，每个epoch迭代 4000 我们在前60个epoch中使用1 e-4的学习率，并将其降低到1 e-5，直到网络收敛。我们使用Flying Chairs[17]数据集和MPI Sintel[11]进行训练。我们训练了G0三天，{G1，G2，G3，G4}在一个泰坦X上各一天。我们包括各种类型的数据增强，mknkk k k kx为oh训练我们随机缩放图像的因子[1，2]并在[-17，17]内随机应用旋转。那我们其中，mk×nk是k级的图像维度，X和Y上标表示流动矢量的水平和金字塔中的每一层都有一个相对于全光流估计问题的简化任务;它只需要估计对现有流场的小运动更新。当然，每个网络都可以很简单。这里，每个G k具有5个卷积层;这给出了精确度、尺寸和速度的最佳组合。我们训练五个convnet {G0，.， G4}在不同分辨率的飞椅数据集。网络G0使用24x32图像进行训练。我们加倍应用一个随机裁剪，以匹配的分辨率vnet，Gk正在训练。我们包括加性高斯白噪声均匀采样N（0，0。①的人。我们应用颜色抖动与加性亮度，对比度和饱和度采样从高斯，N（0，0。4）.我们最终使用从[23]中的Imagenet [34]数据的大样本计算的平均值和标准差对图像进行归一化。4. 实验我们在标准光流基准上评估我们的性能，并与FlowNet[17]和Clas进行比较。在每个金字塔级别的分辨率，并最终训练的CON-vnet，G4，分辨率为384x512。3http://torch.ch/4165方法Sintel Clean Sintel Final KITTIMiddlebury Flying Chairs时间（秒）火车测试火车测试火车测试火车测试测试经典+NLP4.136.735.908.29--0.220.323.93102FlowNetS4.507.425.458.438.26-1.09-2.710.080FlowNetC4.317.285.878.819.35-1.15-2.190.150SPyNet4.126.695.578.439.12-0.330.582.630.069FlowNetS+英尺3.666.964.447.767.529.10.98-3.040.080FlowNetC+ft3.786.855.288.518.79-0.932.270.150SPyNet+英尺3.176.644.328.368.2510.10.330.583.070.069SPyNet+英尺*----3.364.1----表1. 平均终点误差（EPE）。结果分为使用（+ft）训练的方法和没有微调的方法。与FlowNet+ft相比，SPyNet+ft* 使用更多的训练数据。粗体表示convnet方法中最准确的结果。所有运行时间都是在飞椅上测量的，不包括图像加载时间。方法Sintel最终Sintel清洁d0-10d10-60d60-140s0-10s10-4040岁以上d0-10d10-60d60-140s0-10s10-4040岁以上FlowNetS+英尺7.254.612.991.875.8343.245.993.562.191.423.8140.10FlowNetC+ft7.194.623.302.306.1740.785.573.181.991.623.9733.37SpyNet+英尺6.694.373.291.395.5349.715.503.121.710.833.3443.44表2.在Sintel基准上比较FlowNet和SpyNet的不同速度s和距离d（从运动边界）。sic+NLP[38]，一种传统的基于网络的方法。我们使用表1中的平均终点误差比较性能。我们对所有标准基准进行了评估，发现SPyNet总体上是最准确的，无论是否进行微调（详情如下）。此外，SPyNet比所有其他方法都快。请注意，MPI-Sintel网站上报告的FlowNet结果是针对将变分细化（“+v”）应用于convnet结果的版本这里我们对变分部分不感兴趣，只比较convnet输出的结果。飞椅 SPyNet 在 Flying Chairs 数据集上的性能优于FlowNetS[17]，但FlowNetC[17]的性能优于我们。我们在图中显示了飞椅数据集的定性结果。3并比较表1中的性能。MPI-Sintel Sintel图像的分辨率为436x1024。为了使用SPyNet，我们将图像缩放到448x1024，并使用6个金字塔级别来计算光流。每个金字塔级别上使用的网络是{G0，G1，G2，G3，G4，G4}。我们在金字塔的第六层重复G4由于Sintel具有非常大的运动，我们发现这比仅使用五个级别提供了更好的性能。在MPI-Sintel上对模型的性能进行了评价[11]两种方式。首先，我们直接使用在Flying Chairs数据集上训练的模型，并评估我们在两者上的性能框架1框架2地面实况SPyNet图3. 使用我们的模型（SPyNet）和Flying Chairs数据集上相应的地面真实流场进行光流估计的可视化。训练集和测试集。其次，我们从Sintel训练集中提取验证集，使用与[17]相同的分区。我们在Sintel Clean和Sintel Final分割上独立地微调我们的模型，并评估EPE。微调模型在表1中被列为“+ft”。我们在图中显示了MPI-Sintel上的定性结果。4.第一章表2比较了我们的微调模型和FlowNet[17]对于不同的速度和距离运动边界。我们观察到SPyNet比4166框架Ground Truth FlowNetS FlowNetC SPyNet图4.在MPI Sintel数据集上使用我们的SPyNet模型与FlowNet进行光流估计的视觉比较前五行来自Sintel Final集合，后五行来自Sintel Clean集合。每组5行按平均位移递增的顺序排序。当运动相对较小时，SPyNet的性能特别好。FlowNet适用于除最大位移（超过40像素/帧）以外的所有速度范围。SPyNet在接近运动边界时也比FlowNet更准确（见图4），这对许多问题都很重要。KITTI和Middlebury 我们使用在飞椅上训练的基本模型SPyNet来评估KITTI[19]场景。在这里，我们还使用[30]中的Driving和Monkaa场景对模型进行了微调，并评估了微调后的模型SPyNet+ft*。微调的结果在一个显着的改善，约5个像素的准确巨大的改善建议需要更好的数据集，这些数据集可以进一步提高SPyNet在一般场景中的准确性。对于 Middlebury [4]数据集，我们使用基本模型SPyNet以及SPyNet+ft来评估序列，SPyNet+ft在Sintel-Final数据集上进行了微调; Middle- bury数据集本身太小，无法进行微调。SPyNet在Middlebury上的准确性要高得多，而FlowNet在小运动方面有问题。这两种学习方法都不如Middlebury上的Classic+NL准确，但两者都明显更快。4167FlowNetSFlowNetCSPyNetGK模型参数数量一千二百二百五十二十四万零五十3207047232，561，032图5. 各种方法的模型尺寸。我们的模型比FlowNet小96%。5. 分析型号尺寸。将空间金字塔与convnets相结合可以大大降低模型的复杂性。在每个金字塔级别，网络Gk具有240，050个学习参数。整个网络学习的参数总数为1，200，250，具有5个空间金字塔级别。在COM中，FlowNetS 和 FlowNetC[17] 分别具有 32 ， 070 ，472SPyNet比FlowNet小约96%（图（五）。空间金字塔的方法，使一个显着的减少模型参数，而不牺牲精度。有两个原因通过直接使用warping函数，convnet不需要学习它。更重要的是，学习剩余流限制了输出空间中流场的范围。每个网络只需要在空间金字塔的每个级别上模拟较小范围的速度。SPyNet还具有较小的内存占用。存储所有模型参数所需的磁盘空间为9.7 MB。这简化了在具有GPU支持的移动或嵌入式设备上的部署;这是未来的工作。学习过滤器的可视化。图6（a）示出了由网络的第一层G2学习的滤波器的示例。在每一行中，前两列分别显示对两个输入图像的RGB通道进行操作的空间滤波器。第三列是两个空间滤波器之间的差异，因此表示我们的模型学习的时间特征。我们观察到，图中的大多数时空滤波器。图6（a）对所有颜色通道同样敏感，因此主要表现为灰度。请注意，实际的过滤器是7×7像素，并且为了可视化而进行了上采样。我们观察到，许多空间滤波器似乎与经典方法使用的传统高斯导数滤波器类似。这些经典的过滤器是手工制作的，通常应用于水平和垂直方向。在这里，我们观察到各种各样的衍生物一样的过滤器的不同规模和方向。我们还观察到在空间上类似于二阶导数或Gabor滤波器的滤波器[2]。时间滤波器在时间上显示出清晰的类似导数的结构。请注意，这些过滤器非常不同(a)（b）第（1）款图6. (a)G 2第一层中的滤波器权重的可视化，使用最近邻（左）和双线性（右）插值在RGB图像对上显示其时空性质。(b)金字塔级别的滤波器演进（从低分辨率（0）到高分辨率（4））[17]《明史》卷17. Mat.），其具有与经典滤波器不同的图6（b）说明了网络在金字塔的每一层学习的过滤器如何重新调用，在训练过程中，每个网络都是用它在金字塔中之前的网络初始化的。然而，过滤器并不完全与训练相同。我们网络中的大多数过滤器看起来像第1行和第2行，随着我们向金字塔的更高分辨率级别前进，过滤器随着对比度的增加而变得更清晰。但是，有一些过滤器与第3行和第4行类似这些过滤器在金字塔的更高分辨率级别上变得更加清晰。速度传统上，光流估计被视为涉及某种形式的变分推理的优化问题这在计算上是昂贵的，通常每帧花费几秒或几分钟。这限制了光流在机器人、嵌入式系统和视频分析中的应用。使用GPU可以加速传统方法[39，45]，但精度降低。前馈深度网络[17]利用快速GPU卷积并避免迭代优化。图7显示了几种众所周知的方法的速度-精度比较。所有显示的时间都是使用已加载到内存中的图像测量的。误差计算为干净和最终MPI-Sintel序列的平均EPESPyNet在速度和准确性之间提供了良好的平衡;没有更快的方法是准确的。6. 讨论和未来工作传统的光流法将亮度恒定方程线性化，从而得到一个光流约束方程，该方程用空间和时间导数滤波器实现。有时方法采用更通用的过滤器，4168图7.平均EPE与在MPI-Sintel上运行底部放大的版本我们测量了时间。改编自[46]。稳定性假设[1，9]。我们的过滤器有些不同。SPyNet学习的过滤器用于前馈网络的流量直接计算。SPyNet与其他最近的光流网络相比很小然而，对过滤器的检查表明，有可能使它更小。许多滤波器类似于高斯滤波器或伽柏滤波器在各种尺度、方向、空间频率和空间移位下的导数考虑到这一点，可以通过使用维度减少或通过使用一组解析时空特征来显著压缩滤波器组。一些过滤器也可以是可分离的。光流的早期方法使用解析的时空特征，但是在当时，没有产生好的结果，并且时空滤波的一般路线被削弱。与早期工作的不同之处在于，我们的方法建议需要一个大型的不同滤波器的滤波器组。还要注意的是，这些方法只考虑了滤波器的第一个卷积层，而没有寻求这一切都表明，深度分析过滤器网络可能表现良好。这可以大大减少网络的大小和需要学习的参数数量。我们观察到FlowNet[17]的第一层过滤器比大多数神经网络或以前的时空过滤器常见的Gabor类过滤器更随机（参见补充材料）。我们怀疑这是因为当运动超过几个像素时，第一层窗口不会重叠常见的图像块。相比之下，我们的金字塔结构意味着运动总是很小，卷积窗口总是关注两个相邻帧中的相关补丁。我们发现，这导致过滤器，即使在第一层，类似于经典的时空过滤器。请注意，金字塔在处理大运动时具有众所周知的局限性[8，35]。特别是小或者快速有效移动的薄对象在粗略的金字塔层级处消失，使得不可能捕捉它们的运动。最近用于处理这种大运动的方法使用稀疏匹配来增强标准金字塔[8，44]。今后的工作应探讨在SPyNet中增加远程匹配。或者Sevilla et al.[35]定义了保持金字塔中精细结构的信道恒定性表示。通道有效地对应于可以学习的过滤器。空间金字塔可以被认为是一组线性滤波器的简单应用。这里我们采用一个标准的空间金字塔，但人们可以学习金字塔本身的过滤器。SPyNet还使用一个标准的扭曲函数来对齐图像，使用从先前金字塔级别计算的流量。这也是可以学习的。SPyNet的一个吸引人的特点是它足够小，可以安装在移动终端上未来的工作将探索移动实现及其应用。此外，我们将探索扩展该方法以使用更多帧（例如，3或4）。多帧可以使网络更有效地推理遮挡。最后，飞椅不代表自然场景运动。我们正在探索新的训练数据集，以提高常见序列的性能。7. 结论总之，我们已经描述了一种新的光流方法，其将经典光流算法的特征与深度学习相结合。从某种意义上说，这里有两个“深度”概念首先，我们使用一个其次，我们在空间金字塔的每一层使用深度神经网络，并训练它们来估计每一层的流量更新这种方法意味着每个网络比必须估计任意大运动的完全通用流方法要做的工作更少。在每个金字塔级别，我们假设运动是小的（像素的顺序）。这一点可以通过网络学习类似于高斯经典导数的空间和时间滤波器来证明。由于每个子任务都简单得多，我们的网络需要的参数比以前的方法（如FlowNet）少得多。这导致具有小的内存占用的方法比现有方法更快。与此同时，SPyNet达到了与FlowNet相当的精度，在多个基准测试中超过了它。这开辟了光流的承诺，是准确的，实用的，广泛部署。确认我们感谢 Max Planck ETH Center for LearningSystems的支持。我们感谢Jonas Wulff对光流的深刻讨论。4169引用[1] E. H.阿德尔森角H.安德森，J。R.卑尔根，P. J.伯特，J. M.奥格登图像处理中的金字塔方法。RCA工程师，29（6）：33[2] E. H. Adelson和J. R.卑尔根运动感知的时空能量模型。光学学会杂志Am. A，2（2）：284-299，Feb. 一九八五年[3] A.艾哈迈迪和我。帕特雷用于运动估计的无监督卷积神经网络。arXiv预印本arXiv：1601.06087，2016年。[4] S. Baker、D. Scharstein，J.刘易斯，S。罗斯，M。J.Black和R. 塞利斯基光流数据库和评价方法International Journalof Computer Vision，92（1）：1[5] L.鲍角，澳-地Yang和H.晋快速边缘保持补丁-匹配大位移光流。图像处理，IEEE学报，23（12）：4996[6] J. Barron，D.J. Fleet和S.S. Beauchemin 光流技术的性能Int. J. Comp. 目视（IJCV），12（1）：43- 77，1994.[7] M. J. Black和P.阿南丹光流鲁棒估计计算机视觉，1993年。程序。，第四届国际会议，第231-236页。IEEE，1993年。[8] T. 布罗克斯角Bregler和J.马利克大位移光流。在计算机视觉和模式识别，2009年。CVPR 2009。 IEEE会议，第41-48页。IEEE，2009年。[9] T. Brox，A. Bruhn，N. Papenberg和J. Weickert基于变形理论的高精度光流估计欧洲计算机视觉会议，第25-36页。Springer，2004.[10] P.J.Burt和E. H.阿德尔森拉普拉斯金字塔作为一个紧凑的图像代码。IEEE通信学报，COM-34（4）：532[11] D. J. Butler，J. Wulff，G. B. Stanley和M. J.布莱克。一个自然的开放源代码电影光流评估。在A.菲茨吉本等人（编），编辑，欧洲会议关于计算机视觉（ECCV），第IV部分，LNCS 7577，第611-625页。Springer-Verlag，Oct. 2012年。[12] C. Cadieu和B. A.奥尔斯豪森从自然电影中学习变换不变量。神经信息处理系统，第209-216页，2008年[13] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crf的语义图像分割。arXiv预印本arXiv：1412.7062，2014。[14] M. Chessa，N. K. Medathati，G. S. Masson，F.索拉里，以及P. Kornprobst.解码用于光流估计的mt运动响应：实验性评估。在信号处理会议（EUSIPCO），2015年第23届欧洲会议，第2241IEEE，2015年。[15] S. D 、 S. Roth ， J.Lewis 和 M. 黑色 . 学习光流。见ECCV，第83-97页[16] E. L. Denton，S.钦塔拉河Fergus等人使用对抗网络的拉普拉斯金字塔的深度生成图像模型。神经信息处理系统的进展，第1486-1494页，2015年[17] A.多索维茨基山口Fischery，E.伊尔格角哈兹尔巴斯河谷戈尔科夫，P. van der Smagt，D.Cremers，T.Brox等人Flownet：使用卷积网络学习光流。2015年IEEE国际计算机视觉会议（ICCV），第2758IEEE，2015年。[18] W. T. Freeman，E. C. Pasztor和O. T.卡迈克尔学习低级视觉。国际计算机视觉杂志，40（1）：25[19] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？KITTI视觉基准套件。在计算机视觉和模式识别会议（CVPR），2012。[20] F.格雷泽分层运动检测。博士论文，马萨诸塞大学，马萨诸塞州阿默斯特，1987年。87-02.[21] F. Guéne y和A. 盖格河深离散流。2016年亚洲计算机视觉会议（ACCV）[22] S. Hauberg，A.费拉根河Enficiaud和M.黑色.使用格拉斯曼平均值的可扩展鲁棒主成分分析。 IEEE Trans. 模式分析和机器智能（PAMI），12月。2015年。[23] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习arXiv预印本arXiv：1512.03385，2015。[24] D. J. Heeger用于图像流的提取模型。光学学会杂志上午，4（8）：1455-1471，八月。一九八七年[25]B. K. Horn和B.G. Schunck 确定光流。1981年技术研讨会东部，第319[26] D. Kingma和J. BA. Adam：一种随机优化方法。arXiv预印本arXiv：1412.6980，2014。[27] T.克罗格河Alffte，D. Dai和L. V.Gool使用稠密逆搜索的快速光流。在计算机视觉[28] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议论文集（Proceedings of the IEEEConference on Computer Visionand PatternRecognition），第3431-3440页[29] R. Memisevic和G.E. 辛顿学习用分解高阶玻尔兹曼机表示空间变换。Neural Computation，22（6）：1473[30] N.Mayer，E.Ilg，P. Hüusser，P.Fischer，题名/责任者：A.用于训练卷积网络的大型数据集，用于视差，光流和场景流估计。 IEEEInternationalConference on Computer Vision and Pattern Recognition（CVPR），2016年。arXiv：1512.02134。[31] B. A.奥尔斯豪森学习时变自然图像的稀疏、过完备表示。图像处理，2003年。ICIP 2003。诉讼2003年国际会议，第1卷，第1 -41页。IEEE，2003年。[32] J. Revaud ，P. Weinzaepfel ，Z. Harchaoui和C.施密特EpicFlow：光流相关性的边缘保持插值。在计算机视觉和模式识别，2015年。[33] S. Roth和M. J.布莱克。专家领域。International Journalof Computer Vision，82（2）：2054170[34]O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。国际计算机视觉杂志（IJCV），115（3）：211[35] L. Sevilla-Lara，D. Sun，E. G. Learned-Miller和M. J.布莱克。具有信道恒定性的光流估计。计算机视觉施普林格国际出版社，9月。2014年[36] E. P. Simoncelli和D. J. Heeger视觉区MT神经元反应模型。Vision Res. ，38（5）：743[37] F.索拉里湾Chessa，N. K. Medathati，和P.科恩普罗布斯特对于光流估计的v1-mt前馈架构，我们可以期待什么？信号处理：图像通信，39：342 -354，2015。[38] D.孙习Roth和M. J.布莱克。光流估计的当前实践及其背后的原理的定量分析。 International Journal ofComputer Vision，106（2）：115[39] N. Sundaram，T. Brox和K.库茨用gpu加速的大位移光流实现稠密点轨迹欧洲计算机视觉会议，第438-451页。施普林格，2010年。[40] C. 塞格迪 W. 刘先生， Y. 贾， P. Sermanet S. 里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A.拉比诺维奇。更深的回旋。在IEEE

下载后可阅读完整内容，剩余1页未读，立即下载