从慢到快的插值器光流方法：多尺度匹配方案S2F解决快速移动小物体的困难，并避免了经典尺度空间中物体大小与速度之间的约束问题

152 浏览量更新于2023-10-16 收藏 12.62MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{yanchao.yang, soatto}@cs.ucla.edu20870S2F: 从慢到快的插值器光流0Yanchao Yang Stefano Soatto UCLA Vision Lab,加利福尼亚大学洛杉矶分校, 洛杉矶, CA 900950摘要0我们介绍了一种在多个运动尺度上计算光流的方法，而无需使用多分辨率或组合方法。它解决了小物体快速移动的关键问题，并解决了经典尺度空间中物体大小与其可以移动的速度之间的人为绑定问题。即使没有学习，它在最具挑战性的光流基准测试中也能达到最佳性能。此外，结果是可解释的，实际上我们明确列出了我们方法的假设。我们方法的关键在于从慢到快的匹配进展，以及插值方法的选择，或者等效地说，填充数据允许的区域的先验。我们使用了几个现成的组件，对参数调整的敏感性相对较低。计算成本与最先进的方法相当。01. 引言0大多数现有的光流算法在处理快速移动的小物体时都存在困难，即使是专门为大位移设计的算法也是如此。这种现象对基准测试没有太大的影响，因为问题出在小物体上，这样的算法并不会受到太严厉的惩罚。然而，小物体是重要的：人类可以轻松地辨别出远处飞行的蜜蜂。在分析大多数算法无法捕捉到快速移动的小物体的失败的根本原因时，我们发现了经典尺度空间存在的一个基本问题，即通过模糊和下采样图像来权衡空间频率（以模糊和下采样图像）和时间反混叠（计算时间导数）。这将物体的大小与其在多分辨率金字塔中被模糊掉之前可以移动的速度联系起来，而这种金字塔通常在多尺度/多分辨率阶段中被常规使用。0大多数变分光流技术都具有多尺度结构。这种多尺度结构在卷积神经网络架构中也很常见，因此基于它们的光流方案通常会出现类似的失败模式。我们提出了一种新颖的多尺度匹配方案，其中尺度空间变量不是空间分辨率的扩散/子采样量，而是基于本地匹配的感兴趣区域的大小，以本地分辨率为基础。因此，与以前的方法一样，我们执行多尺度而不是多分辨率。迭代是在感兴趣区域的半径上进行的，其中半径越来越大的区域在图像域的越来越小的子集上操作。首先匹配较慢的物体，然后匹配较快和较小的物体，因此命名为S2F。显然，先验或正则化模型在光流中起着关键作用。我们不将其委托给数据集和通用函数逼近器，而是讨论了我们方法中所做的具体模型假设以及我们认为像素“附近”的拓扑结构。换句话说，在深度学习时代，我们手工设计了先验，几乎是异端。尽管没有任何学习，我们的算法在最具挑战性的光流基准测试Sintel中达到了最佳性能。更重要的是，我们至少可以尝试解释性能，我们在第3节中进行了解释。在此之前，我们在第1.1节中将我们的工作与当前艺术联系起来，在第1.3节中总结了动机和实际算法，并在第2节中描述了实证测试。01.1. 相关工作0光流是计算机视觉领域的核心关注点已有二十多年，贡献众多，无法一一回顾。它是许多低级视觉任务的基石，并在许多应用中发挥着重要作用，从自主导航到视频后期处理。01.组合匹配方法不受此限制。20880生产中的许多应用都需要大位移光流，例如视频编辑，增强现实，机器人导航等。感兴趣的读者可以在[18]中了解最近发展的概述。大位移光流的快速运动问题已经在许多最近的工作中得到了解决，例如[4, 17, 1, 21, 25, 7,2, 8,30]等。提出了几种方法，将稀疏匹配与插值相结合[26,17]，这是我们采用的方法。然而，据我们所知，没有一种方法专门处理多尺度处理中尺寸和运动的相互作用，并提出了一个增加感兴趣区域并在图像上的递减残差域上起作用的迭代。特别是，[21]处理从小位移到大位移的匹配，但是它遵循[4]的标准尺度空间，并专注于受稀疏编码启发的新颖描述符。此外，[26]从计算的流中学习正则化器，但是它遵循标准的尺度空间方法。在基准测试中，这些方法在性能上明显不如我们的方法。然而，这些方法中的许多方法在捕捉小区域的快速运动方面是有效的，例如[4]的图10。我们的工作遵循这些趋势，并进一步改进了快速移动小物体的结果（图1）；[28]通过不完全依赖于从上层传播的流来解决粗到细匹配中丢失细节的问题。有些人使用保持本机分辨率的粗到细匹配[16,1, 13]或其他组合设置中的多尺度方法[21,9]。其他相关工作的示例包括[24, 27, 3, 29,6]。然而，这些工作中没有一种方法像我们这样以多尺度处理的方式进行处理：处理越来越小的区域，这些区域移动得越来越快。我们的代价函数完全是手工设计的，以解决已知的亮度恒定约束的缺点和违反假设。部分原因是因为对应现象已经被很好地理解，因此我们不需要重新学习它。公平地说，虽然遮挡、缩放和域变形等现象已经被很好地理解，但是非兰伯特材料中光与物质的复杂相互作用很难建模。这就是数据驱动方法（例如[20, 22, 15, 11]）具有最大潜力的地方。01.2. 贡献摘要和论文组织0我们提出了另一种光流算法，专注于多尺度/多分辨率方法中隐含的空间和时间统计耦合的特定问题。0我们的算法通过顺序假设密集流，并在缩小的域上测试假设的违反，从而进行多尺度推理，这些假设在测试越来越大的位移时进行测试。在基准数据集上进行测试时，我们的算法表现出竞争力。在撰写本文时，它是Sintel[5]上的最佳表现者，其中包括几个小结构的大位移示例。在Middlebury[19]上排名中等，但Middlebury是一个非常有限的基准，只有12对图像，其中只有8对有地面真值。有趣的是，唯一具有小物体大位移的图像对是没有地面真值的四个图像对，因此它们不计入评估分数。我们还在KITTI[12]上进行了测试，尽管没有对数据集进行微调，我们的方法仍然具有竞争力。在下一节中，我们简要描述我们的方法，然后在第2节中报告实证测试结果，展示它的工作原理，并在第3节中尝试解释为什么它有效。01.3. 理论基础和基本假设0给定两个（灰度）图像I1，I2：D � R2 → R+，光流是一个在点x ∈ D � R2上隐式定义的映射w：R2→ R2，满足I1(x) = I2(w(x)) +n(x)，其中n(x)是一个无信息（白色）残差。光流与运动场（在I1和I2中看到时空间中点的位移投影[23]）在关于x ∈ D的（预图像）点X ∈R3的场景上满足几个假设，包括：（i）兰伯特反射和恒定照明，（ii）共视性。当（i）被违反时，光流和运动场通常没有关系。当（ii）被违反时（遮挡），在图像I1中的点x没有对应的映射到图像I2中的点。当w存在时，它可能不是唯一的，即（iii）流可以是不可识别的，这发生在辐照度（“强度”）不足以激发（例如，恒定）的情况下。这个问题通常通过正则化来解决，通过允许先验填充来自足够激动的区域的流。不是必要的，但是对许多算法来说是常见的最后一个假设是（iv）小位移w(x) �x。这允许使用微分操作（正则化梯度），从而促进变分优化。在组合设置中不存在这个问题，其中允许任何大的位移，但计算成本很高。在变分设置中，通常通过多尺度方法来解决这个问题，其中通过创建多分辨率图像金字塔（平滑和子采样版本的图像）进行空间平滑来进行时间抗锯齿处理。20890图像[14]中的大位移在细粒度上对应于粗粒度上的小位移。0小物体快速移动0基于经典尺度空间的多尺度方法存在一个根本问题，即它将空间频率和时间频率耦合在一起。换句话说，它将物体的大小与其允许的速度联系在一起。这在典型的失败案例中表现出来，即小物体快速移动（图1）。一般来说，物体的大小和移动速度是独立的，应该将它们作为独立的处理，而不是为了数学上的方便而耦合在一起。那么如何解决图像速度的空间变异性呢？0多尺度而无多分辨率0我们避免多分辨率的陷阱，同时解决运动的固有空间变化尺度，并遵守光流计算的假设，设计了一种多尺度但不是多分辨率的方法。它在原始分辨率上操作，使用越来越大的感兴趣区域，作用于图像域的逐渐减少的子集。它不使用空间模糊作为尺度参数，而是使用速度或位移的大小。这是我们方法的关键，并解释了“从慢到快”的名称。下一节概述了我们算法的通用实现，随后的节详细介绍了我们的组件和参数的选择。0S2F-IF的草图0将φ(x; w, I1,I2)称为任何基准光流算法使用的逐点成本函数，例如φ(x;ˆw, I1, I2) = |I1(x) -I2(ˆw(x))|，其中我们可以根据上下文省略一些参数。然后：01. 选择一个初始半径r > 0；02.使用基准光流算法计算假设的前向ˆw和后向ˆw-1位移；逐点残差ρ，其中ˆw = arg min w �0Dφ(x; w, I1, I2)dx，ρ(x) = φ(x;ˆw)，且ˆw-1 =0Dφ(x; w, I2,I1)dx。还计算前向-后向（f-b）兼容性b(x)。=∥I2 × 2 - ˆw ◦ ˆw-1(x)∥。0使用残差ρ(x)和f-b兼容性b(x)来测试(i)和(ii)的违规情况，聚合起来。0在半径r的区域/窗口B(r)上使用保守阈值进行测试。0这将得到一组（通常是稀疏的）点D = { xi } Ni =1，并给出它们的（根据假设，通常很小的）位移wi = w(xi)。03. 插值稀疏匹配以填充违反(i)-(iv)的未匹配区域D \D，基于先验/正则化器的选择，再次得到密集场˜w和逐点残差˜ρ(x) =φ(x;˜w)。给定每个点的光流，通过变形后检查f-b兼容性；较大的残差被视为遮挡（违反(ii)）。04. 可选地将I1分割成分段常数区域{ Sj } Mj =1（超像素），以便于计算，并扩展D以包括具有小残差Sj ∩ χ(˜ρ < εr)的简单连通区域。05. 从图像中屏蔽匹配的区域D，I1 ← I1 ∙ χ(D \D)，对于经过变形的I2 ◦˜w，类似地进行操作，其中点表示逐点乘法（匹配的区域现在是黑色的）。06. r ← r + δ ，并转到步骤2。我们使用δ ≥1个像素，并在r达到图像大小或无法找到更多匹配时终止。0现在有几点需要注意：0• 我们选择在KITTI和Sintel数据集中分别使用r =5和8个像素作为[1]中的基准光流，我们使用[1]作为(2.)中的基准光流，并使用census变换来测试与(i)-(ii)的兼容性。我们拒绝那些无法通过残差(εr =30)或f-b测试(εc = 1,5)的点。我们选择[17]进行插值，选择[10]进行超像素化。最后，我们使用δ = 1, 2个像素作为尺度增量。0•第2步实现了一种保守的稀疏匹配过程，用于大小为r的区域，从而得到一组稀疏匹配。我们的选择[1]可以替换为任何其他保守的稀疏匹配。0•匹配区域D通常单调增长，因此该过程要么在找不到进一步匹配时终止，留下非空的未匹配集合，要么每个像素都匹配D = D。0•理论上，应在每个像素匹配之前终止该过程，因为在遮挡区域中未定义位移。实际上，通常匹配所有像素，利用插值步骤施加的正则化器。CPM-Flow53.7EpicFlow57.4DeepFlow254.0FlowNetS80.4S2F-IF38.6FlowFields41.220900•场景匹配的第一个区域是（i）兰伯特，具有（ii）足够激动的辐射，是（iii）共视的，并且是（iv）缓慢移动的。随着迭代的进行，匹配的区域越来越小，移动得越来越快。因此，我们将此方案称为Slow-To-Fast（S2F）InterpolatorFlow（IF），因为最终的解决方案受到先验的很大影响。0•上述算法的关键特征是其无损多尺度性质，即在多个运动尺度上进行搜索，而不改变图像的分辨率，这是其超越最先进技术的原因。0•算法对每个步骤中组件算法的选择相对不敏感，尽管最关键的是插值的选择，我们在第3.2节中讨论了这一点02. 实验02.1. 定性结果0图1说明了我们的方法与大多数替代方法的关键特征，我们选择将其表示为接近最先进的基线[18]。快速移动的小物体在尺度空间中被扩散，直到它们的位移足够小，以便变分光流算法解决。修改空间频率（平滑和下采样）以实现时间反锯齿（以便使用一阶差分近似时间导数）将物体的大小与其速度联系在一起，这是有害的。我们的方法将它们视为独立的，从而使我们能够捕捉它们的运动。应该提到的是，组合搜索基础方案不受此限制，但计算复杂度过高。图2说明了我们算法的各个演化阶段，对应于第1.3节中的草图。图3显示了匹配域的演化，通常单调缩小以包含整个图像域，最后一个未匹配的区域由正则化器填充。02.2. 基准比较0图4显示了使用的基准的代表性样本。Middlebury数据集[19]包括12对图像，主要是在短基线下观察到的静态人造场景。其中几乎没有小物体，并且在仅有的8个地面真值对中没有任何物体快速移动。0图1.小物体快速移动（左上角）中的两个图像来自Middlebury数据集（叠加显示），其中快速移动的球被突出显示，是多分辨率光流的经典失效模式（右上角；插图中的彩色轮显示了颜色到图像位移的映射）。小物体在粗糙分辨率下消失，在该分辨率下计算大运动（底部行），并且在基于差分的变分方案[18]（右上角）中永远无法恢复。0方法平均排名方法平均排名0表1.Sintel上表现最佳算法在Middlebury上的平均端点误差。完整排名可以直接访问Middlebury流页面http://vision.middlebury.edu/flow/eval/。0这些是4个没有地面真实值的序列，包括图4中显示的序列，遗憾的是它们没有包含在评估中。我们的算法在这些序列上更准确地估计了光流。在整体性能方面，我们的方法在该数据集中排名中等。作为一项合理性检查，我们使用Middlebury数据集与在Sintel上报告最佳性能的算法进行比较，Middlebury数据集显示了更广泛的运动变化，包括小物体的大位移。表1中的结果显示我们的算法表现出色。Sintel上的最佳性能者与Middlebury上的最佳性能者不同，这表明这两个数据集中的一个或两个都容易过拟合。Middlebury只有12对图像，其中只有8对有地面真实值，其中没有一对有大位移。更好的基准测试是KITTI数据集[12]，它包含室外驾驶序列和稀疏地面真实值。与竞争算法的定量比较显示在表2中。我们使用默认参数，没有为数据集进行微调，并展示了有竞争力的性能。如预期的那样，我们的算法优于我们用作组件的基线流算法，该算法显示为FlowField-。值得注意的是，该算法已经由作者对KITTI数据集进行了微调，显示为FlowFields，性能有了显著提高，这表明该数据集也可能过拟合。由于测试所选的参数没有公开，我们使用了与基线相同的参数进行测试，没有为数据集进行微调。我们认为这个测试比为每个数据集使用不同参数报告最佳分数更具代表性。20910图2.我们算法的各个阶段的可视化：原始图像（左），初始稀疏匹配（中左，步骤2），插值光流（中左，步骤3），超像素化（中右，步骤4），匹配集（中右，步骤5）和第一次迭代后的残差掩膜图像（右）。0图3.迭代过程中匹配区域的变化，从第一行（顶部）到最后一行（底部）。不匹配的区域（白色）的大小逐渐缩小，直到收敛到与假设兼容但没有唯一匹配的区域（第三行）。在这些区域上，正则化器有权填充（底部），我们突出显示了恐龙腿部的细节，整个过程纠正了基线流算法的初始匹配错误。0参数，没有为数据集进行微调，并展示了有竞争力的性能。如预期的那样，我们优于我们用作组件的基线流算法，该算法显示为FlowField-。值得注意的是，该算法已经由作者对KITTI数据集进行了微调，显示为FlowFields，性能有了显著提高，这表明该数据集也可能过拟合。由于测试所选的参数没有公开，我们使用了与基线相同的参数进行测试，没有为数据集进行微调。我们认为这个测试比为每个数据集使用不同参数报告最佳分数更具代表性。0我们在Sin-中使用与[1]相同的设置0方法 Out-Noc Out-All Avg-Noc Avg-All0CPM-Flow 5.79% 13.70% 1.3像素 3.2像素 EpicFlow7.88% 17.08% 1.5像素 3.8像素 DeepFlow2 6.61%17.35% 1.4像素 5.3像素 FlowNetS 37.05% 44.49%5.0像素 9.1像素 FlowFields 5.77% 14.01% 1.4像素3.5像素 S2F-IF 6.20% 15.68% 1.4像素 3.5像素FlowField- 6.49% 15.94% 1.5像素 3.9像素0表2.在KITTI数据集上的比较。我们的方法使用FlowField-作为光流计算的组件。如预期的那样，它提高了性能。然而，同样的算法对数据集进行了微调（标记为FlowFields，没有公开参数），进一步提高了性能。我们没有对其进行微调，只是报告了在所有数据集上相同调整的性能。Out-Noc表示非遮挡区域中误差大于3像素的像素百分比，而Out-All表示所有像素中的异常值百分比。Avg表示非遮挡或所有像素的平均端点误差。0tel数据集[5]是一个合成的数据集，但具有挑战性，因为它包含快速运动、运动模糊，并且具有精确的地面真实值。我们在表3中报告了官方基准测试的性能，我们的算法在整体端点误差方面表现出顶级性能。这些结果说明了在处理多尺度现象时，不会牺牲分辨率，并且不会将空间统计与时间统计混淆。在补充材料中展示了几个代表性的样本结果，并且可以在Sintel网站http://sintel.is.tue.mpg.de/results上验证基准测试的最新排名。下一节将更详细地介绍我们在第1.3节中描述的通用算法的组件方法选择。20920图4.来自各种数据集的代表性样本：Middlebury（第1行），KITTI（第2、3、4行），SINTEL（第5、6行）。我们将组件光流[1]（FlowFields）与我们的方法（S2F）进行比较。更多示例请参见补充材料；快速移动的小物体在黄色框中突出显示。03. 技术细节0基本算法在第1.3节中已经描述，包括稀疏匹配，然后是插值，然后是测试假设的违反，其中迭代是针对感兴趣区域的不断增长的半径进行的，该区域作用于图像域中越来越小的残余未匹配部分。03.1. 稀疏匹配0我们的算法的第2步结果是在短位移上匹配的稀疏区域集合。0不是因为我们积极寻求具有小位移的稀疏匹配。相反，我们从一个密集的光流开始，具体来说是[1]，然后根据残差或f-b兼容性保守地拒绝所有未能满足假设(i)-(ii)的区域。这自然地导致了一个稀疏集合，因为足够的激发条件（通过f-b兼容性测试）要求在两个独立方向上具有大梯度，这通常只在图像域的稀疏子集上满足。从概念上讲，任何其他稀疏匹配都可以，而且该算法对于此步骤的方法选择不太敏感，因此我们不再进一步讨论。FlowFields5.8102.62131.7994.8512.2321.6821.1573.73933.890FlowFields+5.7072.68430.3564.6912.1171.7931.1313.33034.167SPM-BPv25.8122.75430.7434.7362.2551.9331.0483.46835.118FullFlow5.8952.83830.7934.9052.5061.9131.1363.37335.592CPM-Flow5.9602.99030.1775.0382.4192.1431.1553.75535.136EpicFlow6.2853.06032.5645.2052.6112.2161.1353.72738.021DeepFlow26.9283.09338.1665.2072.8192.1441.1823.85942.854S2F-IF5.4172.54928.7954.7452.1981.7121.1573.46831.262pθ(w(x)|y) = N (Ax + b; Σ(x, y)) .(1)Σ(x, y) = β2 exp (d(x, y)) I2×2(2)ˆA,ˆb=arg maxθpθ(wi|x)=arg maxA,bN(Axi + b; Σ(xi, x))=arg minA,bN�i=1∥wi − Axi − b∥22β2 exp (d(xi, x))(3)w(x) = A(x)x + b(x).(4)20930方法 EPE all EPE matched EPE unmatched d0-10 d10-60 d60-140 s0-10 s10-40 s40+0表3. 在Sintel数据集上的比较。有关详细信息和左侧列出的各种方法的链接，请参阅 http://sintel.is.tue.mpg.de/results。EPE代表端点误差，包括所有、匹配和未匹配像素（第二到第三列）。dX-Y代表限制在对象边界的X和Y之间的像素的误差，因此不计算遮挡区域的误差。sX-Y代表位移在X和Y像素之间的像素。我们的方法在所有方面都具有竞争力，并且在大位移方面表现出色，正如预期的那样。03.2. 插值0该算法对先验的选择非常敏感，对于我们的情况，先验对应于插值算法的选择。为了描述和解释我们的选择，设 x, y ∈ D � R 2 是像素格上的两个点，其距离为 d (x, y ) ，其中 d 是某种范数的选择。我们有兴趣从在 y处进行的观测推断出 x 处的位移 w ( x )的值。我们假设似然函数的参数形式为0其中 x 处的位移 w 是一个高斯随机向量，其均值是点 x 的 y处的仿射变形，不确定性取决于观测点的距离。参数 θ = { A, b }可以通过最大似然估计来推断，给定样本 D = { x i , w i } N i =1 ，其中 w i =w ( x i ) ，如下所示：0N/A0N/A0N/A0保留 β作为一个调节参数。这本质上是[17]中方程(2)中的局部加权（LA）估计器。注意 p θ ( w ( x ) | x ) = N ( Ax +b ; β 2 I 2 × 2 ) ，参数 θ （它们是位移 w ( x )的数据集 D 的充分统计量）是位置的函数。0x . 我们通过写成 θ = { A ( x ) , b ( x ) }来明确这一点。可以在每个点 x处获得位移的点估计，例如条件均值。0这种方法遵循[17]，避免了求解带有显式正则化的变分优化问题，而是将正则化隐含在有限维度的变换类（仿射变换）和有限数据样本 D中。这种插值方法的行为在于距离 d的选择，我们将在下面进行描述。03.3. 拓扑关系0两点之间的距离 d ( x, y )可以基于图像域的拓扑关系来定义，例如 d 2 ( x, y ) =∥ x − y ∥ 2，其中附近的像素被认为是相近的；或者基于图像值域的拓扑关系，例如 d I ( x, y ) = ∥ I ( x ) − I ( y ) ∥，其中相似强度的像素被认为是相近的。理想情况下，我们希望使用场景的拓扑关系，如果点 x, y ∈ D的前像（反投影）在场景 X, Y ∈ R 3上的距离相近，则认为它们是相近的。这将是一种测地线距离，假设场景是多连通且分段光滑的，如果 X, Y在不同的连通分量上则距离是无穷大的。由于我们没有场景的模型，我们使用一个代理，即在同一连通分量上的两点之间的距离是它们在图像上的投影 x = π ( X ) ,y = π ( Y )的距离，而在不同连通分量上的点之间的距离则添加一个与它们相对于相机距离的深度差的项。虽然我们不知道它们的深度，但是断开的连通分量会导致面积与深度差成比例的遮挡区域。dw(x, y) .= minγ�γx→yφ(z)dz(5)dI(x, y) .= minγ�γx→y|∇I(z)|dz(6)20940与相对深度差成正比，其中光流残差 φ ( x ) = min w∥ I 1 ( x ) − I 2 ( w ( x )) ∥通常很大。因此，我们可以将光流残差的路径积分作为测地线距离的代理：0其中 γ x → y 是从 x 到 y的任意路径。我们还可以假设物体具有平滑的颜色，因此大的强度变化可以归因于点位于不同的物体上。显然，这并不总是成立，因为平滑的物体可能具有尖锐的材料过渡，但是我们仍然可以将拓扑关系限制在分段光滑反照率的简单连通分量上，并将 d I 定义为：0并通过使用弦距离来绕过最小化。可以导出各种乘积距离和各种测地线的近似，例如[17]中的距离。我们在算法中使用(6)。03.4. 检验假设(i)-(iv)0我们算法的关键是多尺度迭代，从移动缓慢的大区域开始，最终匹配移动快的小区域。在每次迭代中，根据感兴趣区域的固定半径，保守地测试（i）兰伯特反射和恒定照明的假设，以及（ii）共视性（大残差）。此外，进行反向-前向兼容性测试（iii）足够的激发；如果测试失败，则正则化器（在我们的情况下隐含在插值方案中）可以接管。虽然希望有一个集成的贝叶斯框架，其中阈值由竞争假设自动确定，但在实践中，这些阶段归结为阈值的选择。重要的是，该算法对阈值的选择并不是极其敏感的。为了重现的目的，所有参数都在补充材料中报告，我们的实现可以在以下网址找到：http://vision.ucla.edu/s2f.html。03.5. 计算成本0我们的算法的计算成本基本上由组件的选择所决定。运行时间取决于运动的复杂性，因为我们的迭代长度是数据相关的。平均而言，在Sintel中，每对帧需要大约1分钟，图像大小为1024×436，使用一台普通的4核计算机。03.1GHz台式机。我们观察到收敛时间短至20秒，长至2分钟。这包括我们的流程的所有组成部分。在较小的图像上，例如Middlebury的（300×400像素），我们的算法在大约15秒/对帧的时间内运行。在KITTI上，每个图像有400×1234像素，我们的算法平均每对帧运行1.5分钟。04. 讨论0我们的算法使用现成的组件（稀疏匹配、插值、超像素化），但以一种方式使用，使我们能够摆脱传统尺度空间的限制，将空间频率退化与时间抗混叠联系起来。相反，我们在原生分辨率上迭代匹配越来越大的感兴趣域，越来越小的区域。这是关键，再加上选择的正则化器，设计用于尊重对应现象学，包括遮挡、域变形和相对简单的照明变化。0致谢0由ONR N00014-15-1-2261和AFOSRFA9550-15-1-0229支持的研究。0参考文献0[1] Bailer, Christian和Taetz, Bertram和Stricker, Didier.流场：用于高精度大位移光流估计的密集对应场。在IEEE国际计算机视觉会议论文集中，页码4015-4023，2015年。2，3，5，60[2] Bao, Linchao和Yang, Qingxiong和Jin, Hailin.用于大位移光流的快速保边PatchMatch。在IEEE计算机视觉和模式识别会议论文集中，页码3534-3541，2014年。20[3] Braux-Zin, Jim和Dupont, Romain和Bartoli, Adrien.一种结合直接和基于特征的代价的通用密集图像匹配框架。在IEEE国际计算机视觉会议论文集中，页码185-192，2013年。20[4] Brox, Thomas和Bregler, Christoph和Malik, Jitendra.大位移光流。在2009年计算机视觉和模式识别会议上，页码41-48。IEEE，2009年。20[5] Butler, Daniel J和Wulff, Jonas和Stanley, GarrettB和Black, Michael J.用于光流评估的自然开源电影。在欧洲计算机视觉会议上，页码611-625。Springer，2012年10月。2，520950[6] vCech, Jan和Sanchez-Riera, Jordi和Horaud, Radu.通过增长对应种子进行场景流估计。在2011年IEEE计算机视觉和模式识别会议上，页码3129-3136。IEEE，2011年。20[7] Chang, Haw-Shiuan和Wang, Yu-Chiang Frank.基于超像素的大位移光流。在2013年第20届IEEE国际图像处理会议上，页码3835-3839。IEEE，2013年。20[8] Chen, Zhuoyuan和Jin, Hailin和Lin, Zhe和Cohen,Scott和Wu, Ying.从最近邻场获得大位移光流。在IEEE计算机视觉和模式识别会议论文集中，页码2443-2450，2013年。20[9] Dekel, Tali和Oron, Shaul和Rubinstein,Michael和Avidan, Shai和Freeman, William T.用于稳健模板匹配的最佳伙伴相似度。在IEEE计算机视觉和模式识别会议论文集中，页码2021-2029。IEEE，2015年。20[10] Doll´ar, Piotr和Zitnick, C Lawrence.使用结构化森林进行快速边缘检测。IEEE模式分析与机器智能交易，37（8），页码1558-1570。IEEE，2015年。30[11] Fischer, Philipp和Dosovitskiy, Alexey和Ilg,Eddy和H¨ausser, Philip和Hazırbas¸, Caner和Golkov,Vladimir和van der Smagt, Patrick和Cremers, Daniel和Brox,Thomas. Flownet:使用卷积网络学习光流。arXiv预印本arXiv:1504.06852，2015年。20[12] Geiger, Andreas和Lenz, Philip和Stiller,Christoph和Urtasun, Raquel.视觉与机器人技术相结合：KITTI数据集。《国际机器人研究杂志》，32(11)，1231-1237，Sage Publications Sage UK:London, England，2013年。2,40[13] Hu, Yinlin和Song, Rui和Li, Yunsong.用于大位移光流的高效粗到细PatchMatch。在《计算机视觉和模式识别的IEEE会议论文集》中，页码为5704-5712，2016年。20[14] Lindeberg, Tony. 计算机视觉中的尺度空间理论，第256卷。SpringerScience & Business Media，2013年。30[15] Mac Aodha, Oisin和Humayun, Ahmad和Pollefeys,Marc和Brostow, Gabriel J.学习光流的置信度度量。《IEEE模式分析与机器智能交易》，35(5)，页码为1107-1120。IEEE，2013年。20[16] Revaud, Jerome和Weinzaepfel, Philippe和Harchaoui,Zaid和Schmid, Cordelia. Deepmatching:分层可变形密集匹配。《国际计算机视觉杂志》，120(3)，页码为300-323。Springer，2016年。20[17] Revaud, Jerome和Weinzaepfel, Philippe和Harchaoui,Zaid和Schmid, Cordelia. Epicflow:用于光流的保边插值的对应关系。0光流。在《计算机视觉和模式识别的IEEE会议论文集》中，页码为1164-1172，2015年。2,3,7,80[18] Sun, Deqing和Roth, Stefan和Black, Michael J.光流估计的当前实践和原则的定量分析。《国际计算机视觉杂志》，106(2)，页码为115-137。Springer，2014年。2,40[19] Szeliski, Richard和Zabih, Ramin和Scharstein,Daniel和Veksler, Olga和Kolmogorov, Vladimir和Agarwala,Aseem和Tappen, Marshall和Rother, Carsten.基于平滑性先验的马尔可夫随机场能量最小化方法的比较研究。《IEEE模式分析与机器智能交易》，30(6)，页码为1068-1080。IEEE，2008年。2,40[20] Thewlis, James和Zheng, Shuai和Torr, Philip HS和Vedaldi,Andrea.完全可训练的深度匹配。arXiv预印本arXiv:1609.03532，2016年。20[21] Timofte, Radu和Van Gool, Luc.稀疏流：小到大位移光流的稀疏匹配。在《2015年IEEE冬季计算机视觉应用会议》中，页码为1100-1106。IEEE，2015年。20[22] Tran, Du和Bourdev, Lubomir和Fergus,Rob和Torresani, Lorenzo和Paluri, Manohar.使用3D卷积网络学习时空特征。在《计算机视觉的IEEE国际会议论文集》中，页码为4489-4497，2015年。20[23] Verri, Alessandro和Poggio, Tomaso.运动场和光流：定性特性。《IEEE模式分析与机器智能交易》，11(5)，页码为490-498。IEEE，1989年。20[24] Wedel, Andreas和Cremers, Daniel.光流估计。在《用于3D运动分析的立体场景流》中，页码为5-34。Springer，2011年。20[25] Weinzaepfel, Philippe和Revaud, Jerome和Harchaoui,Zaid和Schmid, Cordelia. Deepflow:大位移光流与深度匹配。在《IEEE国际计算机视觉会议论文集》中，页码为1385-1392，2013年。20[26] Wulff, Jonas和Black, Michael J.使用学习的基础和层次结构进行高效的稀疏到稠密光流估计。在《计算机视觉和模式识别的IEEE会议论文集》中，页码为120-130。IEEE，2015年。20[27] Xu, Li和Dai, Zhenlong和Jia, Jiaya. 尺度不变的光流.在计算机视觉-ECCV 2012中, 页码385-399. Springer, 2012. 20[28] Xu, Li和Jia, Jiaya和Matsushita, Yasuyuki.保留运动细节的光流估计. IEEE模式分析与机器智能交易, 34(9),页码1744-1757. IEEE 2012. 220960[29] Yang, Jiaolong和Li, Hongdong.具有分段参数模型的密集准确光流估计.在IEEE计算机视觉和模式识别会议论文集中, 页码1019-1027,2015. 20[30] Sevilla-Lara, Laura和Sun, Deqing和Learned-Miller, ErikG和Black, Michael J. 具有通道恒定性的光流估计.计算机视觉欧洲会议, 页码423-438. Springer, 2014. 2

下载后可阅读完整内容，剩余1页未读，立即下载