光流网络的多种策略训练方法及结果分析

111 浏览量更新于2023-10-16 收藏 12.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

49500光流需要多种策略（但只需要一个网络）0Tal Schuster 1 Lior Wolf 1 , 2 David Gadot 101以色列特拉维夫大学计算机科学学院，2 Facebook AI研究talschuster@gmail.com，wolf@cs.tau.ac.il，dedigadot@gmail.com0摘要0我们表明，光流背后的匹配问题需要根据图像运动的程度和其他因素采用多种策略。然后，我们研究了这一观察结果对在描述符为基础的光流上训练深度神经网络的影响。我们提出了一种度量学习方法，根据真实匹配的性质选择合适的负样本。这种类型的训练产生了一个根据输入显示多种策略的网络，并在KITTI 2012和KITTI2015光流基准测试中取得了最先进的结果。01. 引言0在许多人工智能挑战中，包括感知和规划，一个特定的问题需要多种策略。在计算机视觉文献中，这个主题得到了很少的关注。由于通常只训练一个单一模型，传统观点是采用一个统一的、尽管复杂但能够涵盖所有场景的解决方案。我们的工作表明，对光流多方面特性的仔细考虑可以明显改善执行这个任务的能力。在光流中，可以粗略地区分小位移和大位移的情况，并训练模型对这些不同情况应用不同的策略。小位移的情况特点是外观变化相对较小，需要能够捕捉细微外观差异的补丁描述符。另一方面，大位移的情况需要在匹配过程中具有更多的不变性。光流领域的最先进方法采用度量学习来学习补丁描述符。我们专注于训练过程中选择负样本的过程，并提出了两种修改。首先，我们提出了一种交错学习方法，不再选择所有接近真实匹配的负样本，而是选择与真实匹配（正样本）经历的位移量相匹配的距离的负样本。0(a)0(b)0(c)0图1. 选择负样本策略的示意图。(a)第一帧，其中一些位置被标记。(b)在基线方法[13]中，负样本是在接近真实匹配的位置进行采样，而不考虑真实匹配的属性。绿色是真实匹配，红色是负样本。(c)在提出的方法中，负样本是根据正样本的位移进行采样的。最好以彩色查看。0如图1所示。其次，我们建议逐渐增加训练中负样本的难度。在第二个组件的实现中，通过困难度调度样本，我们结合了文献中已知的两种方法。课程学习方法[6]按照困难度分层选择样本，使用预定义的顺序。自主学习方法[24]通过损失识别一组易样本，并仅使用这些样本进行学习。易样本的数量随时间增加。我们在这里提出的自主课程交错方法将样本的困难度和损失结合在选择过程中。然而，与自主学习方法不同，训练过程中没有样本被排除。相反，我们通过选择适当距离的负样本来控制训练中使用的实例的难度水平。用于计算光流的流程是49510类似于PatchBatch方法[13]。我们稍微修改了它，将DrLIM损失替换为Hinge损失。我们在这项工作中的主要贡献是：0• 我们首次分析了光流中需要多种策略的需求。0• 我们提出了一种新颖的、受心理启发的方法，可以同时处理多种情况。0• 我们展示了在光流中，我们提出的新方案如何转化为一种简单、意外的启发式方法。0• 我们改进了PatchBatch[13]流程本身。0• 我们在KITTI 2012和KITTI2015基准测试中展示了最先进的结果。02. 相关工作0许多计算机视觉任务需要像素级的图像比较（例如图像检索、物体识别、多视图重建）。为了使比较对尺度、旋转、光照等具有不变性，已经使用了图像描述符，如SIFT[28]、SURF [5]、HOG [10]和DAISY[35]。Brox和Malik是第一个将局部描述符应用于密集光流问题的人[7]。他们发现使用描述符可以提高大位移匹配的性能，但由于缺少正则化约束，得到的解决方案有很多异常值。为了解决这个问题，他们使用描述符构建稀疏初始光流，并使用图像平滑性假设将其插值为密集光流。在他们的成功之后，许多其他模型采用了局部描述符[39, 30, 20,34]。随着深度学习方法的出现，CNN在相关的立体匹配问题上显示出极高的能力[33,41]。对于光流，已经提出了一些基于CNN的模型。在[37]中，使用CNN从单个静态图像预测光流。FlowNet[11]是第一个用于光流的端到端CNN，并展示了竞争性的结果。在PatchBatch[13]流程中，使用CNN提取补丁描述符，然后通过PatchMatch[4]最近邻域（NNF）算法进行匹配。截至去年，它在KITTI基准测试[15,29]中取得了最先进的性能。尽管使用描述符极大地提高了整体性能和准确性，但方法在大位移时仍然失败，我们在第4节中进一步讨论。为了解决这个问题，人们已经致力于将描述符与局部假设相结合的方法[7, 34,30]。然而，在使描述符本身更适合这种情况方面，工作较少。一项并行工作[3]专注于通过对补丁进行下采样并在损失函数中添加阈值来减小大位移的误差。然而，这种方法在小位移的情况下会导致准确性下降。0这种方法的代价是降低了小位移的准确性。在我们的工作中，我们遵循PatchBatch流程，并使用CNN提取描述符。我们通过分析不同的匹配情况，特别是小位移和大位移的情况，并提出了一种方法来生成适用于两种情况的更好的匹配描述符。02.1. 学习多种策略0在一些视觉问题中发现了需要多种策略的需求，基本训练模型无法优化所有子类别的解决方案。例如，Antipov等人在年龄估计方面的工作中[1]。他们对0-12岁儿童的模型准确性不满意，因此只为这些年龄段训练了一个子模型，并将其应用于首先运行的另一个模型将其分类为该类别的样本。另一个常见情况是细粒度分类，例如确定汽车的确切型号或特定鸟类的物种。附近物种之间的细微差异要求例如专注于特定的身体区域。然而，不同的区分需要不同的身体部位，我们可以将每个身体部位视为单独的决策策略。为了达到所需的准确性，一些方法执行对象分割[23]或部分检测[22]以限制每个子类别的搜索范围。在[14]中展示了一种不同的方法，该方法在不同的样本上训练了多个模型以创建每个类别的专家模型。在测试时，选择具有最高置信度的答案。后一种方法由于每个模型利用所有输入数据，并单独学习所需的特征以在其任务中获得专业知识，因此取得了更好的结果。02.2. 不同难度水平的学习0课程学习[6]受到人类学习过程的启发，是第一种在训练过程中操纵向模型展示样本顺序的方法。具体而言，建议先呈现易学样本，然后在根据难度水平进行分层后呈现更难的样本。在自主学习[24]中，不使用预定义的顺序，而是通过检查相关损失动态估计每个样本的难度。在每个时期，只有较容易的样本被学习，并且它们的数量随时间增加，直到考虑整个数据。在[19]的工作中，这两种方法被结合起来，以便在自主学习迭代中考虑样本难度的先验知识。最近提出了从训练过程中消除过于简单或过于困难的样本[36]。为此，使用了损失上的特定百分位数。n1https://github.com/DediGadot/PatchBatch49520图2.PatchBatch流水线的流程图。相同的CNN应用于两个图像的补丁。PatchMatch [4]被应用两次以获得两个流方向。0未满足损失标准的样本被放置在预定义的时期之后。在光流问题中，大位移被认为更具挑战性。此外，正如我们在第4节中所示，描述符提取策略应该根据位移的不同而不同。由于难度水平和所需策略之间的相关性，应用现有的渐进学习方法可能导致在不同的训练阶段获取特定的策略，并可能出现不希望的传递效应。在第5节中，我们提出了新的学习技术，使用所有样本，支持不同的策略，并应用易到难的顺序。03. PatchBatch流水线0PatchBatch（PB）流水线如图2所示，由一个CNN生成每个像素的描述符和一个近似最近邻算法组成，后者用于计算实际的分配。PatchBatch的AC-CURATE网络配置生成512个浮点值的描述符。分配是通过最小化描述符向量之间的L2距离来计算的。为了创建每个像素的描述符，CNN使用一个补丁作为输入。在PatchBatch中描述的大多数CNN配置中，输入是以被检查像素为中心的51×51的补丁。CNN使用补丁的灰度数据来提取一个尽可能与第二幅图像上匹配像素提取的描述符相似的描述符。使用生成的描述符，使用PatchMatch[4]（PM）算法来计算初始的流分配。PM在两个流方向上应用，并且后面跟随一个双向一致性检查，允许消除不一致的匹配。在最后一步中，使用稀疏到稠密的EpicFlow[32]（EF）算法创建最终的估计0算法使用稀疏流和原始原始图像创建最终的估计。更详细的描述请参阅PatchBatch [13]论文和发布的代码1。03.1. 架构改进0在本文中，我们改进了生成描述符的CNN。我们通过几种方式实现这一目标。首先，我们采用了在原始PB论文[13]中部分测试的建议，将补丁大小从51×51扩大到71×71像素。其次，为了改进网络的训练，我们使用了两个新颖的方法：（1）我们引入了一种详细介绍在第5节中的多个位移的学习方法。（2）我们修改了损失函数，并使用了一种新形式的Hinge损失。第三，我们将MPI-Sintel上PM算法的初始随机猜测范围从10改为100，以允许更大的搜索距离和更好地利用我们的大位移描述符。对于KITTI基准测试，该参数保持不变（500）。03.2. 带有标准差的Hinge损失0与PatchBatch中使用的DrLIM[17]损失函数不同，我们发现将Hinge损失与我们的学习方法结合使用时可以获得最佳结果。为了使用这种损失，我们构建三元组样本。对于每个补丁，我们通过真实匹配收集一个匹配补丁和一个非匹配补丁。作为基线，我们使用相同的非匹配收集方法，即与匹配补丁相距不超过8个像素的随机补丁。我们将损失函数定义为：0L H = 10i =1 max (0 , m + Di,match − Di,non −0（1）其中D是所检查的补丁描述符与匹配或非匹配补丁之间的L2距离。在PatchBatch论文中，发现增加标准差参数可以更好地区分匹配和非匹配样本。受此启发，我们将类似的增加应用于Hinge损失：0L H + SD = λL H + (1 − λ)(σDmatch + σDnon − match) (2)0我们使用m = 100，λ = 0.8和每个时期的n =50k三元组训练集。04. 光流作为一个多方面的问题0通过检查常见的光流基准测试结果，可以明显看出光流方法在大位移下面临挑战。在MPI-Sintel[8]中，结果根据像素的速度分开，当前的平均<302.466.915.258.5726.3951.7665.15209.40>303.039.075.6410.2924.7446.8156.69199.6149530训练集 0-5 5-10 10-20 20-30 30-45 45-60 60-90 90- ∞0基线（全部）2.32 7.32 5.32 9.38 25.21 50.43 67.32 216.390表1.干扰物随位移增加的情况以及在部分范围上训练的模型的成功情况，显示了按位移范围划分的平均干扰物数量。给定补丁的干扰物数量是其描述符与真实匹配的距离小于某个较小距离的补丁的数量。每一列显示了在特定位移范围上训练的Hinge+SD PB模型的结果。0图3.更大位移与真实匹配之间的更大距离的相关性。显示了根据位移范围分组的匹配补丁描述符之间的平均L2距离。描述符是使用在KITTI2012基准测试上训练的Hinge+SD PB模型生成的。0速度大于40的前10个排名方法的端点误差（EPE）为35.47，而速度小于10的EPE约为1.01。在KITTI2015[29]中，没有根据速度的公开估计。然而，有前景与背景区域的分离。对于前10个方法，当前前景与背景的平均异常值百分比分别为26.43%和11.43%，这支持了相同的观察结果，即前景对象通常比背景移动得更快。在验证集上评估基线PatchBatch模型时，我们注意到位移小于10的像素误差大于3的错误率为4.90%，而位移大于40的错误率为42.15%。在更大距离上进行匹配的挑战在图3中得到了体现，图中显示了真实匹配的L2距离与真实位移的关系。此外，随着距离的增加，第二幅图像中与第一幅图像中的补丁相似度更高的干扰物的平均数量也增加了。这个计数是在真实匹配周围25像素的半径内进行的，并在表1中显示为基线训练集下的结果。04.1. 多种策略0当仅在小于30的位移上训练PatchBatch网络时，我们能够改善大多数小位移的情况，但是在大位移的情况下，增加了更多附近的干扰物。相反，仅在大于30像素的位移上进行训练，可以减少大位移的干扰物数量（表1）。然而，由于没有选择两个网络之间的机制，因此0图4.像素位移的范围与KITTI基准测试中的显著差异相关。样本以三元组的形式收集，其中匹配对旁边的显示器显示了像素值之间的L1距离大于0.2的位置。每一行显示了一个位移范围的示例，该范围显示在左侧。最佳以彩色查看。0在训练一个网络来处理两种情况时，我们尽力而为。有趣的是，当仅在所有样本上训练一个网络时，该网络似乎在非常小的位移领域优于两个专门的网络。这可能是由于将PatchBatch方法设计成在强调这一类别的基准测试中表现出色。大位移通常与外观上的较大差异相关，如图4所示。小位移情况下的补丁外观差异通常源于在补丁内移动的对象比中间像素更快。相反，在大运动中，我们可以预期外观上会有更明显的变化，原因如下：（1）随着快速移动的物体，它们的背景更有可能发生变化。（2）视点变化更剧烈，导致不同的物体部分被遮挡。（3）与光源的距离和角度更快地变化，导致照明发生变化。（4）当相机的Z轴发生显著位移时，物体的位置和尺度都会发生变化。05.学习多种策略和不同的难度0作为基准方法，我们应用了文献中的渐进学习方法。对于应用课程学习[6]，需要在训练之前将样本按难度分层。根据我们之前的发现，我们将难度级别定义为地面真值中的位移值，并在每个时期增加样本池的最大位移，我们称之为位移课程。另一种课程实现，我们称之为距离课程。d = v(1 − X)X ∼ log N(µ, σ)(3)P(X = x) =1σx√2π e(− (ln(x)−µ)22σ2)(4)49540通过距离的课程，可以在每个时期使用具有所有位移值的样本，并在训练开始时使用与真实匹配图像中的像素具有较大欧氏距离的虚假样本。随着训练的进行，减小该距离应该提供更难的虚假样本。0我们还通过每个时期仅从简单样本中学习来实现自适应学习模型。这里的简单性是通过要求损失低于阈值来对每个样本进行衡量的。阈值在训练过程中逐渐增加。05.1.交错学习0我们提出了一种新颖的机器学习方法，受认知文献的启发。课程学习方法和自适应学习方法都利用样本的难度多样性，并建议从易到难进行学习。虽然这个想法看起来很有吸引力，并且在许多机器学习问题中确实有效，但它可能导致网络在不同的训练阶段过度适应问题的不同方面。在光流中，模型必须在低位移任务中表现出色才能具有竞争力。因此，将注意力转移到越来越困难的任务上可能是有害的。此外，如果需要不同的策略，从简单任务到更具挑战性的任务的过渡并不明显。0我们的方法受心理学研究的启发。心理学研究人员Kornell和Bjork发现，在某些情况下，交错展示不同类别的示例可以增强归纳学习[21]。他们的测试表明，人们通过交错的样本顺序而不是相同类别的块来更好地学习区分类别，例如鸟类物种。另一个例子是体育训练，在这种训练中，常常将简单的基本练习与更复杂的练习交错进行，早期至少部分包含复杂动作，并在掌握基本动作后再回到基本动作。0训练机器学习模型的惯用方法是随机化样本的提供顺序。当感知策略和难度水平无关时，随机过程可能足够。然而，当需要策略A的样本一致比需要策略B的样本更难时，与策略A相关的样本的频繁损失意味着策略B将被剥夺训练信号。0为了保持策略的随机顺序，并同时促进更难样本的惩罚，我们建议学习过程应考虑每个样本的难度。这可以通过在计算惩罚时考虑样本的难度，或者在训练成对或三元样本时，通过控制这些小参考组的组成来实现。0图5. 交错学习虚假样本收集方法的示意图。 p 和 p T分别表示第一帧中的位置和其在第二帧中的真实匹配。 p L沿着运动线 ( p → p T ) 进行采样。虚假样本 ( p F )是从虚线区域内随机选择的，该区域距离 p L8个像素。虚线灰线表示从中取出 p L 的对数正态分布（大部分接近p ）。05.2. 光流交错学习0我们的方法的实现是通过使用进一步的补丁作为更大位移的虚假样本来完成的。因此，对于大位移的更困难的情况，我们选择了应该更容易与真实样本区分开的虚假样本，并规范了整体难度。从策略的角度来看，通过为大位移提供更远的负样本，模型学习更多地依赖上下文，而对于小位移，则更少依赖外观变化。所选择的虚假样本距离由以下公式确定：0其中 v 是匹配像素的位移，X 是从对数正态分布 [ 31 ]中采样的。使用对数正态分布，可以在大多数情况下相对于示例运动进行采样，同时还提供少量更难的样本。我们使用µ = 0 和 σ = 1作为参数，并在为所有批次样本采样值后，将它们归一化到[0,1]。为了在我们的学习过程中实现这种方法，我们沿着连接补丁的原始坐标和目标坐标的线收集虚假样本。具体来说，我们从距离真实匹配点在该线上距离为 d的位置开始，随机选择一个样本，该样本在距离为8个像素的半径范围内，并朝第一幅图像中的位置方向选择。有趣的是，为了创建双策略描述符，样本是否沿着运动线并不重要。然而，在我们的实验中，采用这种方式进行采样稍微有助于后续的PM步骤。这可能是因为PM最初在原始补丁位置的随机距离中进行搜索。通过选择一个更接近原始位置的虚假匹配，我们有助于消除那些样本。05.3. 自主学习课程交错学习0考虑到交错学习方法，与课程学习不同，它一次使用所有样本，我们可以预期CENT [13]6CENT+SD [13]8.91%4.85%4.3316.712.2919.9238.2060.6981.22216.0228.67(6)49550模型/学习误差百分比根据位移范围的干扰因素数量0方法后PM后EF 0-5 5-10 10-20 20-30 30-45 45-60 60-90 90- ∞ 全部0CENT+SD / Inter 8.75% 4.70% 2.61 10.50 8.64 15.29 30.38 42.87 66.16 137.81 20.730Hinge 7.78% 5.18% 1.93 8.14 5.81 10.98 31.95 50.97 73.24 185.81 21.400Hinge+SD 7.74% 4.85% 2.32 7.32 5.32 9.38 25.21 50.43 67.32 216.39 20.510Hinge+SD / Neg-mining 7.53% 5.00% 3.06 6.19 5.41 10.52 26.88 51.33 70.29 210.34 20.960Hinge+SD / Cur. by disp 7.67% 4.83% 2.71 8.61 5.26 10.26 14.76 48.88 65.15 220.13 20.670Hinge+SD / Cur. by dist 7.47% 4.93% 2.83 8.66 5.25 10.35 23.62 45.82 63.69 197.82 19.700Hinge+SD / Self-Paced 8.75% 5.23% 2.88 9.35 6.84 13.74 34.09 57.46 80.8 198.97 23.930Hinge+SD / Anti-Inter 14.53% 8.30% 2.98 9.12 13.36 20.63 37.69 42.41 81.41 132.03 24.110Hinge+SD / Inter 6.60% 4.41% 1.41 5.57 3.07 6.31 15.6 28.52 43.46 127.65 12.610Hinge+SD / SPCI 6.64% 4.37% 1.40 5.04 3.46 6.56 15.11 27.13 42.72 130.17 12.500Hinge+SD+PS71 7.34% 4.76% 1.96 5.44 5.28 11.8 22.76 42.3 67.27 190.3 18.910Hinge+SD+PS71 / Inter 6.17% 4.35% 1.00 3.96 2.22 4.11 11.33 20.87 32.53 119.74 9.800Hinge+SD+PS71 / SPCI 6.12% 4.27% 1.02 3.42 2.16 3.52 10.55 21.28 32.17 119.98 9.540表2.根据PatchMatch和EpicFlow步骤在流水线中的输出错误以及干扰物数量进行的架构和学习方法比较。SD表示将标准差添加到损失函数中，PS71表示使用71×71像素的补丁大小。Neg-mining是根据[33]中的描述实现的，因子为2。有关其他学习方法的说明，请参见第5节。错误是验证集中欧几里德距离大于3像素的像素百分比。干扰物的计算方法如第4节所述。0通过对难度级别进行动态控制，我们可以通过简单地修改第i个时期的距离方程来保持类别的多样性：0di = v(1 - X - Ri) (5)0其中Ri定义为：0Ri = im curriculum0∙ 0linit) × self-paced0其中m是总时期数，li是第i个时期的验证损失，lini是某个初始损失用于比较。我们将lini定义为第5个时期的损失。在那个时期之前，不应用自主学习。课程学习通过缩短所采取的距离来增强每次迭代中错误样本的全局难度，因此，它集成了一种由教师驱动的方法，假设学生会随着时间处理更困难的任务。为了增加学生驱动的部分，我们使用了自主学习组件，它允许模型的反馈影响下一次迭代的难度。将所有这些整合在一起，我们得到了一种同时学习所有策略的学习方法，其中难度随着迭代次数的增加而增加，并且具有成功反馈。06.实验0我们进行了两类实验。首先，我们以MNIST识别实验作为学习方案的测试平台。然后，我们进行了光流问题的主要实验。06.1. MNIST0为了验证我们的学习方法在与光流不同的任务上的有效性，我们使用了MNIST手写数字数据库[25]。该数据集包含显示带有真实标签的0到9之间数字的图像。我们将数据分为两个不同的类别 -类别L包含数字0到4，类别H包含数字5到9。为了使样本之间的难度有所区别，我们在H类别的图像的顶部一半和L类别的图像的底部一部分添加了随机噪声。此外，H类别的图像被随机旋转了[0,45]度的角度，与噪声量相关，这样，噪声更多的样本也会旋转更大的角度。我们将噪声更多的样本称为更难的样本，我们使用了几种方法来训练模型。在课程学习中，每个时期将更难的样本添加到训练池中。在自主学习模型中，样本的难度是根据损失来确定的。交错学习是通过在每个时期使用所有噪声范围级别，并为更难的H类别使用较少的噪声样本来实现的。在每个时期中，将噪声H样本的数量增加与交错学习、课程学习和自主学习方法的结合也被使用。如表3所示，交错学习产生了最大的改进，SPCI获得了最好的结果。06.2. 光流0为了评估我们的工作，我们使用了三个最具竞争力的光流基准测试-KITTI2012 [15]，KITTI2015 [29]和MPI-Sintel[8]。我们使用它们的数据来SPCI98.38%96.33%SPCI96.02%92.66%90.11%49560方法 L H0随机顺序 97.98% 82.24%0课程 98.10% 87.89%0自定学习 98.26% 88.33%0交错 98.26% 95.00%0交错+课程 98.30% 95.62%0交错+SP 98.14% 95.31%0表3.使用交错方法改进MNIST实验结果。列L显示了在图像底部带有随机噪声的数字[0,4]的结果，列H显示了在图像顶部随机旋转0到45度的数字[5,9]的结果。0进行一系列实验来测量我们每个贡献的效果，并将我们最好的结果与其他方法进行比较。通过在KITTI2012数据集的80%子集上训练不同模型500个时期，并在剩余的20%图像对上测试结果，我们在表2中总结了模型的比较。请注意，较低的PatchMatch（PM）误差并不总是与较低的EpicFlow（EF）误差相关，因为双向一致性检查会排除一些不一致的结果以生成稀疏的输入流用于EF。观察表2，可以注意到使用Hinge损失而不是CENT[13]改进了PM结果，并且对最终的EF输出没有这样的影响。然而，与批量标准差项（SD）和我们的交错学习（Inter）相结合，会带来Hinge损失的优势。我们的交错学习方法优于课程学习和自定学习。SPCI技术为进一步改进做出了额外的贡献。将我们所有的架构修改与SPCI集成在一起，可以在验证集上产生最低的错误百分比，并且在初始基准上有了重大改进。此外，与原始补丁相比，具有更相似描述符的附近干扰因子的数量减少到基准的三分之一。作为一个合理性检查实验，我们评估了一种反交错方法。在这种方法中，还使用了不同范围的负匹配。然而，如表2所示，该模型的高误差意味着使用不同范围的错误匹配不是交错方法的主要优势，而是与位移值的相关性是关键因素。我们还尝试了硬负样本挖掘[33]，并得出其好处有限的结论，因为与交错方法不同，它可能在训练过程中忽略一些位移范围。0方法 5 - 10 10 - 40 40 - ∞0基准 95.01% 97.61% 97.83%0位移调整* 96.82% 98.56% 101.04%0距离调整* 98.40% 98.32% 100.29%0自定学习* 93.66% 93.67% 99.78%0反交错 105.29% 116.34% 103.26%0交错 97.32% 94.67% 93.71%0交错+Cur.** 96.40% 95.39% 95.24%0交错+SP** 95.82% 95.38% 93.61%0表4.根据不同位移范围的位置移动对描述符敏感性的学习方法比较，通过将与某个位移范围相关联的5个像素邻域补丁的描述符的平均距离除以小于5个像素的位移的平均距离来测量。以*标记的方法按照第5节开头的描述进行实现，以**标记的方法像SPCI一样进行训练，但在公式6中只应用一个乘数。仅使用渐进方法似乎与位移值没有任何倾向性。相反，交错模型已经学会逐渐减小对较大值的敏感性。06.2.1 对外观变化的敏感性0网络学习的一部分是对具有不同预期位移的补丁表现出不同行为。与与小位移相关的补丁相似的补丁与与大位移相关的补丁在训练集中被处理方式不同。为了说明这一点并比较各种学习方法，我们探索了模型在同一图像的附近补丁上在不同位移范围内的行为。首先，我们测量了一个补丁描述符与相距5个像素的补丁的平均距离¯d0-5，这些像素的位移最多为5个像素。请注意，对于一个51×51的补丁，只有18%的像素完全被替换为这样一个小的位移。然后，我们将这个平均距离与相距5个像素的补丁的平均距离进行比较，以获得各个位移范围的归一化值。为了归一化，我们将这个平均距离除以第一个平均值¯dL-H¯d0-5，其中(L, H)∈{(5, 10),(10, 40), (40,inf)}。表4中的结果显示，PatchBatch原始模型对所有位移范围几乎都有相似的反应，而交错训练的模型对于较大位移的外观变化不敏感。此外，仅使用渐进学习会导致在所有范围内都具有高敏感性。这可能是从早期学习阶段对小位移的传递结果，其中外观敏感性更有价值。06.2.2 基准测试结果0我们在三个数据集上训练我们的模型，并提交每个基准测试的结果对应训练的模型。我们的49570方法 Out-Noc0改进 PatchBatch+SPCI 4.65%0CNN-HPM [3] 4.89%0改进 PatchBatch 4.92%0PatchBatch+PS71 [13] 5.29%0PatchBatch [13] 5.44%0PH-Flow [40] 5.76%0FlowFields [2] 5.77%0CPM-Flow [18] 5.79%0表5.截至提交日期，KITTI2012纯光流方法的前8名。改进的PatchBatch表示在第3节中描述的PB流水线。Out-Noc是非遮挡像素中欧氏距离误差>3像素的百分比。0方法 Fl-bg Fl-fg Fl-all0改进 PatchBatch+SPCI 17.25% 24.52% 18.46%0CNN-HPM [3] 18.90% 24.96% 19.44%0PatchBatch [13] 19.98% 30.24% 21.69%0DiscreteFlow [30] 21.53% 26.68% 22.38%0CPM-Flow [18] 22.32% 27.79% 23.23%0FullFlow [9] 23.09% 30.11% 24.26%0EpicFlow [32] 25.81% 33.56% 27.10%0DeepFlow [39] 27.96% 35.28% 29.18%0表6.截至提交日期，KITTI2015纯光流方法的前8名。改进的PatchBatch表示在第3节中描述的PB流水线。Fl-all是异常值的百分比（欧氏距离误差>3像素）。Fl-bg、Fl-fg分别是背景和前景区域的异常值百分比。0结果与PatchBatch模型直接可比较，因为我们使用了与他们相同的过程——在训练集的80%上对CNN进行4000个epoch的训练，并通过选择剩余20%数据中验证误差最低的配置来选择最佳配置。结果可以在表5、6、7中看到。我们在所有三个基准测试中都成功改进了结果，并在KITTI2012[15]和KITTI2015[29]中取得了最先进的结果。我们仅对不使用额外信息进行光流估计的方法进行评估，包括使用语义分割的方法。如表6所示，在KITTI2015上，我们减小了前景和背景区域的误差，获得了两种情况下的最低误差。对于两个区域的提高准确性与我们之前的实验相一致，并支持我们提取更好描述符的主张。与KITTI基准测试的误差百分比测量相比，MPI-Sintel使用了端点误差（EPE）。与原始的PatchBatch模型相比（表7），我们成功地保持了小位移的低EPE。0方法 EPE Fl s0-10 s40+0FlowFields+ [2] 5.71 8.14% 1.31 34.170DeepDiscreteFlow [16] 5.73 7.30% 0.96 35.820SPM-BPv2 [26] 5.81 9.17% 1.05 35.120FullFlow [9] 5.90 9.55% 1.14 35.590CPM-Flow [18] 5.96 8.31% 1.15 35.140GlobalPatchCollider [38] 6.04 10.21% 1.10 36.450DiscreteFlow [30] 6.08 9.52% 1.07 36.340Imp. PatchBatch+Inter 6.22 8.11% 0.91 39.910Imp. PatchBatch+SPCI 6.24 7.89% 0.88 40.070EpicFlow [32] 6.28 11.26% 1.13 38.020FGI [27] 6.61 12.34% 1.15 39.980TF+OFM [20] 6.73 11.35% 1.51 39.760Deep+R [12] 6.77 13.71% 1.16 41.690PatchBatch [13] 6.78 8.66% 0.72 45.860表7.我们的模型与MPI-Sintel基准测试的前几种方法的比较，截至提交日期。Imp.Patch-Batch表示PB流水线与第3节中描述的改进相结合。EPE（端点误差）是对所有像素进行平均，右侧的两列仅包含标题中提到的位移范围内像素的EPE。Fl列显示了异常值百分比的评估，尽管该基准测试没有提供，但是可以从每个场景的错误图像中计算出较大错误的像素值。Fl是像素值大于120的像素的百分比。0对于小位移，我们的模型在减少误差方面表现出色，而对于大位移，我们的模型在减少误差方面也有显著效果。我们的模型在使用EPE测量时并未达到最佳结果。然而，当考虑到从错误图像计算出的大误差位移的百分比时，我们的SPCI模型排名第二，我们的交错模型排名第三。我们训练的模型可在PatchBatch GitHub存储库上获得。07. 结论0常识告诉我们，大多数感知任务是异质的，需要多种策略。文献中的方法根据特定样本的难度进行训练。在我们的工作中，我们首次展示了如何同时解决多个子任务和不同的难度。这两者并不是独立的-有些子任务比其他子任务更难，我们的交错方法解决了这个挑战。使用这些新提出的方法，我们能够改进最近提出的光流模型，并在两个最具竞争力的真实世界基准测试中获得最新的结果。0致谢0本研究得到了英特尔计算智能协作研究所（ICRI-CI）的支持。[1] G. Antipov, M. Baccouche, S.-A. Berrani, and J.-L. Dugelay.Apparent age estimation from face images combining gen-eral and children-specialized deep learning models. In TheIEEE Conference on Computer Vision and Pattern Recogni-tion (CVPR) Workshops, June 2016.[2] C. Bailer, B. Taetz, and D. Stricker. Flow ﬁelds: Dense corre-spondence ﬁelds for highly accurate large displacement opti-cal ﬂow estimation. In Proceedings of the IEEE InternationalConference on Computer Vision (CVPR), pages 4015–4023,2015.[3] C. Bailer, K. Varanasi, and D. Stricker.Cnn based patchmatching for optical ﬂow with thresholded hinge loss. arXivpreprint arXiv:1607.08064, 2016.[4] C. Barnes, E. Shechtman, D. B. Goldman, and A. Finkel-stein.The generalized patchmatch correspondence algo-rithm. In European Conference on Computer Vision (ECCV),pages 29–43. Springer, 2010.[5] H. Bay, T. Tuytelaars, and L. Van Gool. Surf: Speeded uprobust features. In European conference on computer vision(ECCV), pages 404–417. Springer, 2006.[6] Y. Bengio, J. Louradour, R. Collobert, and J. Weston. Cur-riculum learning. In Proceedings of the 26th annual interna-tional conference on machine learning, pages 41–48. ACM,2009.[7] T. Brox and J. Malik. Large displacement optical ﬂow: de-scriptor

下载后可阅读完整内容，剩余1页未读，立即下载