没有合适的资源?快使用搜索试试~ 我知道了~
124620FlowNet 2.0:使用深度网络进行光流估计的演进0Eddy Ilg,Nikolaus Mayer,Tonmoy Saikia,Margret Keuper,AlexeyDosovitskiy,Thomas Brox,德国弗莱堡大学0{ilg,mayern,saikiat,keuper,dosovits,brox}@cs.uni-freiburg.de0摘要0FlowNet证明了光流估计可以作为一个学习问题。然而,就光流质量而言,传统方法仍然是最先进的。特别是在小位移和真实世界数据上,FlowNet无法与变分方法竞争。在本文中,我们推进了端到端学习光流的概念,并使其表现出色。质量和速度的大幅提升是由三个主要贡献引起的:首先,我们关注训练数据,并展示了在训练过程中呈现数据的时间表非常重要。其次,我们开发了一个堆叠的架构,其中包括使用中间光流对第二个图像进行变形。第三,我们通过引入一个专门处理小运动的子网络来详细说明小位移。FlowNet2.0与原始FlowNet相比,仅稍微慢一些,但估计误差减少了50%以上。它在与最先进的方法相当的同时以交互帧率运行。此外,我们还提供了更快的变体,可以以高达140fps的速度进行光流计算,并且准确度与原始FlowNet相匹配。01. 引言0Dosovitskiy等人的FlowNet [10]在光流估计中代表了一种范式转变。使用简单的卷积神经网络(CNN)架构直接从数据中学习光流的概念与所有已有方法完全不同。然而,新思路的首次实现往往很难与高度微调的现有方法竞争,FlowNet也不例外。连续的巩固解决了负面影响,并帮助我们欣赏新思维方式的好处。本文是关于FlowNet思想的巩固。由此产生的FlowNet2.0继承了原始FlowNet的优点,如掌握大位移、正确估计光流中非常细微的细节等。0FlowNet FlowNet 2.00图1. 我们提出了FlowNet的扩展。FlowNet2.0生成平滑的光流场,保留了细微的运动细节,并以8到140帧每秒的速度运行。在这个例子中,其准确性比原始的FlowNet高四倍。0光流场的进化,具有深度网络的光流估计,具有学习特定场景的先验知识和快速运行时间。同时,它解决了估计的光流场中的小位移和噪声伪影问题。这使得FlowNet2.0在动作识别和运动分割等实际应用中的性能显著提高,达到了最先进的水平。FlowNet2.0的发展经历了几个进化但决定性的修改,这些修改与观察到的问题并不直接相关。首先,我们评估了数据集时间表的影响。有趣的是,Mayer等人提供的更复杂的训练数据如果单独使用会导致较差的结果。然而,由多个数据集组成的学习时间表显著改善了结果。在这个范围内,我们还发现具有显式相关层的FlowNet版本优于没有这种层的版本。这与Dosovitskiy等人的研究结果[10]相反。作为第二个贡献,我们引入了一种变形操作,并展示了使用这种操作堆叠多个网络可以显著改善结果。通过改变堆叠的深度和各个组件的大小,我们获得了许多具有不同大小和运行时间的网络变体。这使我们能够在准确性和计算资源之间控制权衡。我们提供了8fps到140fps之间的多个网络。224630FlowNetS0图像10图像10图像10图像20图像20亮度误差0光流0光流幅度0光流幅度0图像10变形0亮度误差0亮度误差0亮度误差0光流0光流0图像10图像20变形0大位移大位移0融合0FlowNetC FlowNetS0小位移0FlowNet-SD0图2.完整架构的示意图:为了计算大位移光流,我们组合了多个FlowNet。大括号表示输入的连接。亮度误差是第一幅图像与先前估计的光流对第二幅图像进行变形的差异。为了最佳处理小位移,我们在FlowNetS架构的开始部分引入了较小的步幅,并在上卷积之间进行卷积。最后,我们应用一个小的融合网络来提供最终的估计。0最后,我们专注于小的亚像素运动和真实世界数据。为此,我们创建了一个特殊的训练数据集和一个专门的网络。我们展示了使用这个数据集训练的架构在适用于真实世界视频的小运动上表现良好。为了在任意位移上达到最佳性能,我们添加了一个网络,它学习将前面堆叠的网络与小位移网络以最佳方式融合。最终的网络在Sintel和KITTI基准测试中大幅超越了以前的FlowNet,并与最先进的方法表现相当。它可以以非常高的细节水平估计小和大的位移,并提供交互式帧速率。我们在http://lmb.informatik.uni-freiburg.de上提供代码和数据。02. 相关工作0Dosovitskiy等人在[10]中提出了使用CNN进行端到端光流估计的方法。他们的“FlowNet”模型直接输出一对图像的光流场。在FlowNet之后,有几篇论文研究了使用CNN进行光流估计:包括3D CNN [30],无监督学习[1,33],精心设计的旋转不变架构[28],或基于变分方法的由粗到细的金字塔方法[20]。这些方法都没有明显超越原始的FlowNet。另一种基于学习的光流估计方法是使用CNN来匹配图像补丁。Thewlis等人[29]将Deep Matching[31]制定为CNN并进行端到端优化。Gadot&Wolf[12]和Bailer等人[3]使用Siamese网络架构学习图像补丁描述符。这些方法可以达到较高的准确性,但是0对于大多数实际应用来说,需要对补丁进行详尽匹配,因此它们的速度相对较慢。此外,基于(小)补丁的方法本质上无法使用更大的整个图像上下文。针对像素级预测任务训练的CNN通常会产生嘈杂或模糊的结果。为了解决这个问题,可以对网络预测应用现成的优化方法(例如,可以使用变分方法对光流进行后处理)。在某些情况下,这种改进可以通过神经网络来近似实现:Chen&Pock[9]将他们的反应扩散模型制定为CNN,并将其应用于图像去噪,解锁和超分辨率。最近,已经证明类似的改进可以通过将多个CNN堆叠在一起来实现。这导致了人体姿势估计[17,8]和语义实例分割[22]方面的改进结果。在本文中,我们将网络堆叠的思想应用于光流估计。我们的网络架构包括校正层,用于补偿第二个图像中已经估计的初步运动。图像校正的概念适用于所有当代变分光流方法,并可以追溯到Lucas&Kanade[16]的工作。在Brox等人的工作中[6],它被证明对应于数值固定点迭代方案与连续方法的耦合。在一系列逐渐增加的任务上训练机器学习模型的策略被称为课程学习[5]。这个想法至少可以追溯到Elman[11],他证明了任务的演化和网络架构在语言处理场景中都是有益的。在本文中,我们重新审视了这个想法,并展示了它如何在计算机视觉的背景下在复杂的实际任务光流估计中带来显著的性能改进。0.00.10.20.30.40.50.60.70.80.91.0SshortSlongSfine3246403. 数据集计划0高质量的训练数据对于监督训练的成功至关重要。我们研究了根据呈现的训练数据质量对估计的光流质量的差异。有趣的是,不仅数据的种类重要,而且训练过程中呈现数据的顺序也很重要。原始的FlowNets[10]是在FlyingChairs数据集上训练的(我们将其称为Chairs)。这个相对简单的数据集包含约22k对来自Flickr的随机背景图像上叠加的椅子图像。对椅子和背景应用随机仿射变换以获得第二个图像和地面真实光流场。该数据集仅包含平面运动。Mayer等人提出的FlyingThings3D(Things3D)数据集可以看作是Chairs的三维版本:22k个随机场景的渲染显示了ShapeNet数据集[23]中的3D模型在静态3D背景前移动。与Chairs不同,这些图像展示了真实的3D运动和光照效果,并且对象模型之间的差异更大。我们测试了Dosovitskiy等人引入的两种网络架构:FlowNetS是一种直接的编码器-解码器架构,FlowNetC包括特征图的显式相关性。我们使用图3中显示的不同学习率计划在Chairs和Things3D以及两个数据集的等量样本混合上训练了FlowNetS和FlowNetC。基本计划Sshort(600k次迭代)与Dosovitskiy等人[10]相似,除了一些细微的改变1。除了这个基本计划Sshort,我们还研究了一个更长的计划Slong(1.2M次迭代),以及一个用于微调的计划Sfine,其中学习率较小。在表1中给出了在Chairs和Things3D上使用不同计划训练的网络的结果。结果得出以下观察结果:以不同属性的训练数据的顺序呈现很重要。尽管Things3D更加真实,但仅在Things3D上训练会导致比在Chairs上训练更差的结果。最好的结果始终是首先在Chairs上训练,然后再在Things3D上微调。这个计划也优于在Chairs和Things3D的混合上进行训练。我们推测,更简单的Chairs数据集有助于网络学习颜色匹配的一般概念,而不会过早地发展可能令人困惑的3D运动和真实光照的先验知识。结果表明,在深度网络中学习通用概念时,训练数据计划对于避免捷径非常重要。01(1)我们不是从学习率1e-6开始逐渐增加,而是立即从1e-4开始。(2)我们将学习率固定300k次迭代,然后每100k次迭代除以2。0100k 200k 300k 400k 500k 600k 700k 800k 900k 1M1.1M 1.2M 1.3M 1.4M 1.5M 1.6M 1.7M0迭代0学习率0×10^-40图3. 学习率计划:Sshort类似于Dosovitskiy等人的计划[10]。我们还研究了另一个更长的版本S long和一个微调计划S fine。0架构 数据集 S short S long S fine0FlowNetS0Chairs 4.45 - -0Chairs - 4.24 4.210Things3D - 5.07 4.500mixed - 4.52 4.100Chairs → Things3D - 4.24 3.790FlowNetC Chairs 3.77 - -0Chairs → Things3D - 3.58 3.040表1.使用不同数据集和不同训练计划训练FlowNets的结果(每行一个网络)。数字表示在Sintel trainclean上的终点误差。mixed表示Chairs和Things3D的等量混合。首先在Chairs上训练,然后在Things3D上微调可以获得最好的结果(在KITTI数据集上测试时也是如此;详见补充材料)。FlowNetC的性能优于FlowNetS。0FlowNetC优于FlowNetS。我们使用FlowNetS和Sshort得到的结果与Dosovitskiy等人[10]报告的结果相符。然而,我们在FlowNetC上获得了更好的结果。我们得出结论,Dosovitskiy等人[10]没有在完全相同的条件下训练FlowNetS和FlowNetC。在这样做时,FlowNetC架构与FlowNetS架构相比具有优势。0改进的结果。仅通过修改数据集和训练计划,我们将Dosovitskiy等人[10]报告的FlowNetS结果提高了约25%,FlowNetC的结果提高了约30%。在本节中,我们尚未使用特殊情景的专用训练集。训练的网络应该是通用的,并且在任何地方都能良好运行。数据集计划中的一个额外可选组件是将通用网络微调到特定场景,例如驾驶场景,我们在第6节中展示。424650堆叠训练 变形 变形 损失(EPE) Chairs上的EPE Sintel上的EPE0架构 启用 包含 梯度 测试 训练 clean0Net1 Net2 启用 Net1 Net20Net1 � – – – � – 3.01 3.790Net1 + Net2 � � � – – � 2.60 4.290Net1 + Net2 � � � – � � 2.55 4.290Net1 + Net2 � � � – � � 2.38 3.940Net1 + W + Net2 � � � – – � 1.94 2.930Net1 + W + Net2 � � � � � � 1.96 3.490Net1 + W + Net2 � � � � � � 1.78 3.330表2. 堆叠两个FlowNetS网络(Net1和Net2)的选项评估。Net1使用第3节的Chairs →Things3D计划进行训练。Net2是随机初始化的,然后使用S long 在Chairs上训练Net1和Net2,或仅训练Net2;详见正文。列“WarpingGradientEnabled”表示变形操作在反向传播过程中是否产生梯度。当不使用变形进行训练时,堆叠网络会过拟合到Chairs数据集。在Sintel上获得最佳结果的方法是固定Net1并使用变形训练Net2。04. 堆叠网络04.1. 堆叠两个网络进行流细化0所有先进的光流方法都依赖于迭代方法[7, 31, 21,2]。深度网络也能从迭代细化中受益吗?为了回答这个问题,我们尝试堆叠多个FlowNetC/S架构。堆叠中的第一个网络始终以图像I1和I2作为输入。后续的网络获取I1、I2和前一个流估计wi=(ui,vi)�,其中i表示堆叠中的网络索引。为了使网络更容易评估前一个误差并计算增量更新,我们还可以选择通过流wi和双线性插值将第二个图像I2(x,y)进行变形为˜I2,i(x,y)=I2(x+ui,y+vi)。这样,堆叠中的下一个网络可以专注于I1和˜I2,i之间的剩余增量。当使用变形时,我们还提供˜I2,i和误差ei=||˜I2,i−I1||作为下一个网络的输入;参见图2。由于双线性插值,可以计算变形操作的导数(详见补充材料)。这使得堆叠网络的端到端训练成为可能。表2显示了堆叠两个网络、变形和端到端训练的效果。我们采用第3节中最好的FlowNetS,并在其上添加另一个FlowNetS。第二个网络是随机初始化的,然后使用S long训练堆叠网络。我们尝试了两种情况:保持第一个网络的权重固定,或者与第二个网络的权重一起更新。在后一种情况下,前400k次迭代中第一个网络的权重固定,以首先为第二个网络提供良好的初始化。我们报告了Sintel trainclean和Chairs测试集上的误差。由于Chairs测试集与训练数据相比更相似,比较两个数据集上的结果可以帮助我们检测到过拟合的趋势。0我们得出以下观察结果:(1)仅堆叠网络而不进行扭曲会在Chairs数据集上获得更好的结果,但在Sintel数据集上获得更差的结果;堆叠网络过拟合。(2)堆叠网络并进行扭曲总是能改善结果。(3)在Net1之后添加中间损失对于端到端训练堆叠网络是有优势的。(4)在扭曲操作之后,保持第一个网络固定并只训练第二个网络可以获得最佳结果。显然,由于堆叠网络是单个网络的两倍大小,过拟合是一个问题。扭曲后的流程细化的积极效果可以抵消这个问题,但当堆叠网络一个接一个地训练时,可以避免过拟合,并且具有流程细化的好处。04.2. 堆叠多个不同的网络0与堆叠相同的网络不同,可以堆叠不同类型的网络(FlowNetC和FlowNetS)。减小单个网络的大小是另一个有效的选择。我们现在研究不同的组合,并且还可以改变网络的大小。我们将第一个网络称为引导网络,因为它与第二个网络的输入不同。然而,第二个网络可以以循环的方式重复任意次数。我们进行了这个实验,并发现多次应用具有相同权重的网络并对这个循环部分进行微调并不能改善结果(详见补充材料)。因此,与相同权重相比,将具有不同权重的网络堆叠在一起会增加内存占用,但不会增加运行时间。在这种情况下,顶部网络不受其输入的整体改进的限制,可以在不同阶段执行不同的任务,并且可以通过固定现有网络并添加新网络来以较小的块训练堆叠。4.4.55.05.56.06.5510152025303512345246600.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 通道数乘数0Sintel训练集上的EPE0网络前向传递时间0图4.FlowNetS的准确性和运行时间取决于网络宽度。乘数1对应于原始FlowNet架构的宽度。更宽的网络不会提高准确性。为了快速执行时间,因子为308是一个不错的选择。计时来自Nvidia GTX 1080。0网络数量0架构s ss sss0运行时间7毫秒 14毫秒 20毫秒 –0EPE 4.55 3.22 3.120架构S SS0运行时间18毫秒 37毫秒 – –0EPE 3.79 2.560架构c cs css csss0运行时间17毫秒 24毫秒 31毫秒 36毫秒0EPE 3.62 2.65 2.51 2.490架构C CS CSS0运行时间33毫秒 51毫秒 69毫秒 –0EPE 3.04 2.20 2.100表3.对于一些堆叠FlowNet架构的变体,按照第3节和第4.1节的最佳实践,在Sintel训练集上进行了结果测试。每个新网络首先在Chairs数据集上进行S长时间的训练,然后在Things3D数据集上进行S细时间的训练(Chairs → Things3D进度表)。前向传递时间来自Nvidia GTX 1080。0逐个堆叠。我们通过使用第3节的Chairs →Things3D进度表为每个新网络和第4.1节中的扭曲最佳配置来进行。此外,我们尝试不同的网络大小,并且在引导网络中使用FlowNetS或FlowNetC。只有在引导网络的情况下,才会使用FlowNetC,因为下一个网络的输入太多样化,无法被FlowNetC的连体结构正确处理。网络的较小尺寸版本是通过在网络的每一层中仅采用部分通道数来创建的。图4显示了单个FlowNetS不同网络尺寸的准确性和运行时间。因子为308在追求更快的网络时,可以在速度和准确性之间取得良好的平衡。0符号:我们用FlowNet2表示从第3节的Chairs→Things3D计划开始训练的网络。堆栈中的网络按照这个计划逐个进行训练。对于堆栈配置,我们添加大写或小写字母来表示原始FlowNet或具有3个通道的精简版本。08个通道。例如:FlowNet2-CSS代表由一个FlowNetC和两个FlowNetS组成的网络堆栈。FlowNet2-css也是一样,只是通道更少。0表3显示了不同网络堆栈的性能。值得注意的是,最终的FlowNet2-CSS结果比第3节中的单个网络FlowNet2提高了约30%,比原始的FlowNetC[10]提高了约50%。此外,尽管速度更快且权重更少,但开始时的两个小网络始终优于一个大网络:FlowNet2-ss(11M个权重)优于FlowNet2-S(38M个权重),FlowNet2-cs(11M个权重)优于FlowNet2-C(38M个权重)。逐步训练较小的单元证明是有优势的,并且使我们能够为光流训练非常深的网络。最后,FlowNet2-s在保持几乎相同准确性的同时,每秒运行140帧。05. 小位移05.1. 数据集0尽管原始的FlowNet[10]在Sintel基准测试中表现良好,但在实际应用中存在一些限制。特别是,该网络无法可靠地估计小的运动(见图1)。这与传统方法相反,因为小的运动对于传统方法来说更容易,而且没有明显的原因说明为什么网络在这种情况下不能达到相同的性能。因此,我们将训练数据与UCF101数据集[25]进行了比较,作为实际数据的一个示例。虽然Chairs与Sintel相似,但UCF101基本上是不同的(我们在补充材料中进行了分析):Sintel是一部动作电影,因此包含许多对传统方法来说很困难的快速运动,而我们在UCF101数据集中看到的位移要小得多,大多数小于1个像素。因此,我们创建了一个以Chairs的视觉风格为基础的数据集,但位移非常小,并且位移直方图更接近UCF101。我们还添加了背景是均匀的或仅由颜色渐变组成的情况。我们将这个数据集称为ChairsSDHom。05.2. 小位移网络和融合0通过在Things3D和ChairsSDHom的混合数据上对FlowNet2-CSS网络进行整体训练,并对误差应用非线性处理,我们进一步调整了FlowNet2-CSS网络以适应较小的位移。234567100101102103104105106624670加权大位移2。我们将这个网络称为FlowNet2-CSS-ft-sd。这提高了对小位移的结果,并且我们发现这种特定的混合不会牺牲对大位移的性能。然而,在亚像素运动的情况下,噪声仍然是一个问题,我们推测FlowNet架构可能总体上不适用于这种运动。因此,我们稍微修改了原始的FlowNetS架构,并在第一层中去除了步长2。我们通过将开始的网络更深入地交换7×7和5×5的卷积核为多个3×3的卷积核来实现。由于噪声往往是小位移的一个问题,我们在上采样之间添加卷积以获得更平滑的估计,就像[18]中一样。我们将得到的架构称为FlowNet2-SD;参见图2。最后,我们创建了一个将FlowNet2-CSS-ft-sd和FlowNet2-SD融合在一起的小型网络(见图2)。融合网络接收流、流大小和扭曲后的亮度误差作为输入。它将分辨率缩小两倍,然后再扩展两倍。与原始的FlowNet架构相反,它扩展到完整的分辨率。我们发现这样可以产生清晰的运动边界,并且在小位移和大位移上表现良好。我们将最终的网络称为FlowNet2。06. 实验0我们将我们网络的最佳变体与最先进的方法在公共基准测试上进行比较。此外,我们还提供了在运动分割和动作识别等应用任务上的比较。这可以在真实数据上对该方法进行基准测试。06.1. 公共基准测试的速度和性能0我们在Intel Xeon E5 2.40GHz和Nvidia GTX1080上评估了所有方法3。在适用的情况下,使用具有最佳错误得分的数据集特定参数。表4给出了端点误差和运行时间。Sintel:在Sintel上,FlowNet2始终优于DeepFlow[31]和EpicFlow [21],与FlowFields[2]相当。具有相似运行时间的所有方法的准确性明显较差。我们在Sintel clean +final训练数据的混合上对FlowNet2进行了微调(FlowNet2-ft-sintel)。在基准测试中,对于clean数据,这稍微降低了结果,而对于final数据,FlowNet2-ft-sintel与当前发布的最先进方法DeepDiscreteFlow[13]相当。KITTI:在KITTI上,FlowNet2-CSS的结果与EpicFlow [21]和FlowFields[2]相当。在小位移数据上进行微调会降低结果,0有关详细信息,请参阅补充材料。对于EPPM,我们无法提供所需的Windows环境并使用[4]中的结果。0MPI Sintel(训练最终)0平均EPE0运行时间(每帧毫秒)0CPUGPU我们的0150fps060fps030fps0EpicFlow DeepFlow0FlowField0LDOF0LDOF(GPU)0CA-Flow0PCA-Layers0DIS-Fast0FlowNetS0FlowNetC0FN2-s0FN2-ss0FN0FN2-CSS-ft-sd FlowNet20图5.运行时间与端点误差与现有最快方法的比较。FlowNet2系列在很大程度上优于其他方法。KITTI数据集的行为相同;请参阅补充材料。0这可能是因为KITTI通常包含非常大的光流。在KITTI2012和KITTI2015训练集的组合上进行微调可以将误差降低约3倍(FlowNet2-ft-kitti)。在非立体方法中,我们在KITTI2012上获得了最佳EPE,并在KITTI2015上排名第一。这表明学习方法可以很好地、优雅地整合驾驶场景的先验知识。Middlebury:在Middlebury训练集上,FlowNet2的性能与传统方法相当。然而,在Middlebury测试集上的结果出乎意料地更差。尽管如此,与FlowNetS[10]相比,仍然有很大的改进。Sintel的端点误差与运行时间的评估见图5。FlowNet2系列在性能上大大超过了现有的最佳和最快方法。根据应用类型,可以使用每秒8到140帧的FlowNet2变体。06.2. 定性结果0图6和图7展示了在Sintel和实际数据上的示例结果。在Sintel上的性能与FlowFields[2]相似,而在实际数据上,FlowNet2.0对于均匀区域(第2行和第5行)和图像压缩伪影(第3行和第4行)更具鲁棒性,并且产生具有清晰运动边界的平滑光流场。06.3. 运动分割和动作识别的性能0为了评估FlowNet2.0在实际应用中的性能,我们比较了动作识别和运动分割的性能。对于这两个应用,良好的光流是关键。因此,这些任务的良好性能也可以作为良好光流的指标。对于运动分割,我们依赖于Ochs等人[19]的成熟方法来计算长时间的光流。EpicFlow† [21]2.274.123.566.293.093.89.2727.18%27.10%0.310.3942,600–DeepFlow† [31]2.665.383.577.214.485.810.6326.52%29.18%0.250.4251,940–FlowFields [2]1.863.753.065.813.333.58.3324.43%–0.270.3322,810–LDOF (CPU) [7]4.647.565.969.1210.9412.418.1938.11%–0.440.5664,900–LDOF (GPU) [26]4.76–6.32–10.43–18.2038.05%–0.36––6,270PCA-Layers [32]3.225.734.527.895.995.212.7427.26%–0.66–3,300–EPPM [4]–6.49–8.38–9.2––––0.33–200PCA-Flow [32]4.046.835.188.655.486.214.0139.59%–0.70–140–DIS-Fast [15]5.619.356.3110.1311.0114.421.2053.73%–0.92–70∐–FlowNetS [10]4.506.96‡5.457.52‡8.26––––1.09––18FlowNetC [10]4.316.85‡5.878.51‡9.35––––1.15––32FlowNet 2.0FlowNet2-s4.55–5.21–8.89–16.4256.81%–1.27––7FlowNet2-ss3.22–3.85–5.45–12.8441.03%–0.68––14FlowNet2-css2.51–3.54–4.49–11.0135.19%–0.54––31FlowNet2-css-ft-sd2.50–3.50–4.71–11.1834.10%–0.43––31FlowNet2-CSS2.10–3.23–3.55–8.9429.77%–0.44––69FlowNet2-CSS-ft-sd2.08–3.17–4.05–10.0730.73%–0.38––69FlowNet22.023.963.146.024.09–10.0630.37%–0.350.52–123FlowNet2-ft-sintel(1.45)4.16(2.01)5.743.61–9.8428.20%–0.35––123FlowNet2-ft-kitti3.43–4.66–(1.28)1.8(2.30)(8.61%)11.48%0.56––123724680方法 Sintel 清晰 Sintel 最终 KITTI 2012 KITTI 2015 Middlebury 运行时间0AEE AEE AEE AEE Fl-all Fl-all AEE 每帧毫秒数0训练 测试 训练 测试 训练 测试 训练 训练 测试 训练 测试 CPU GPU0准确的0快速0表4.公共基准测试的性能比较。AEE:平均端点误差;Fl-all:像素流估计错误的比例,其中误差≥3个像素且≥5%。每个类别的最佳数值以粗体突出显示。有关详细信息,请参阅正文。对于运行时间在10秒以下的方法,我们排除了I /O时间。†这些方法的训练数字使用较慢但更好的“改进”选项。‡对于这些结果,我们报告了微调后的数字(FlowNetS-ft和FlowNetC-ft)。�DIS-Fast的RGB版本(我们在RGB上比较所有方法);DIS-Fast灰度图像需要22.2毫秒,误差略大于2%。0图像叠加地面实况流场[2] PCA-Flow [32] FlowNetS [10] FlowNet2 ( 22 , 810 ms) ( 140 ms) ( 18 ms) ( 123 ms)0图6.不同方法在Sintel上估计的流场示例。FlowNet2的性能与FlowFields相似,并能提取细节,而以相似速度运行的方法效果要差得多(PCA-Flow和FlowNetS)。0通过使用Keuper等人的最新方法[14]从这些轨迹中获得运动分割结果。结果如表5所示。Ochs等人[14]的原始模型是基于大位移光流[7]构建的。我们还在比较中包括了其他流行的光流方法。旧的FlowNet[10]对于运动分割没有用处。相比之下,FlowNet2与其他最先进的方法一样可靠,但速度快了几个数量级。0光流对于动作识别也是一个关键特征。为了评估性能,我们使用Simonyan等人的两流方法[24]的时间流训练了不同的光流输入。表5显示FlowNetS[10]没有提供有用的结果,而FlowNet2.0的光流产生了与最先进方法相当的结果。LDOF-CPU [7]79.51%28/6579.91%†DeepFlow [31]80.18%29/6581.89%EpicFlow [21]78.36%27/6578.90%FlowFields [2]79.70%30/6579.38%FlowNetS [10]56.87%‡3/62‡55.27%FlowNet2-css-ft-sd77.88%26/6575.36%FlowNet2-CSS-ft-sd79.52%30/6579.64%FlowNet279.92%32/6579.51%824690图像叠加 FlowFields [2] DeepFlow [31] LDOF (GPU) [26] PCA-Flow [32] FlowNetS [10] FlowNet20图7.不同方法在真实数据上估计的光流场示例。前两行是来自Middlebury数据集的,后三行是来自UCF101的。请注意FlowNet2在真实数据上的泛化能力,即它产生平滑的光流场、清晰的边界,并且对运动模糊和压缩伪影具有鲁棒性。由于不同图像分辨率的不同,所以给出的方法的计时也有所不同。0运动分割. 动作识别0F-度量 提取准确度0物体0表5.使用不同方法进行运动分割和动作识别;详细信息请参阅正文。运动分割:我们使用[19, 14]在FBMS-59 [27,19]的训练集上报告结果,像素密度为4个像素。不同的像素密度和误差度量见补充材料。“提取的物体”是指F≥75%的物体。‡FlowNetS在29个序列中评估;在序列lion02上,优化甚至在一周后仍未收敛。动作识别:我们在训练时使用[24]的时间流进行分类准确度。我们使用5个光流场的堆栈作为输入。†为了重现[24]的结果,对于动作识别,我们使用了OpenCV的LDOF实现。请注意FlowNetS和FlowNet2相对于传统方法的性能差异较大。07. 结论0我们提出了几种改进FlowNet思想的方法,使得准确性完全与最先进的方法相当,而FlowNet2.0的运行速度则快了几个数量级。我们量化了每个改进的效果,并表明它们都起到了重要作用。运动分割和动作识别的实验表明,FlowNet2.0估计的光流在各种场景和应用中都是可靠的。FlowNet2.0系列提供的网络速度从8到140帧每秒不等。这进一步扩展了应用的可能范围。虽然Middlebury的结果表明在亚像素运动上的性能不完美,但FlowNet2.0的结果突出显示了非常清晰的运动边界、对细节结构的检索以及对压缩伪影的鲁棒性。因此,我们期望它成为所有需要准确且快速的光流计算的应用的得力工具。0致谢0我们感谢ERC Starting Grant VideoLearn、DFG GrantBR-3815/7-1和EUHorizon2020项目TrimBot2020的资助。[1] A. Ahmadi and I. Patras. Unsupervised convolutional neuralnetworks for motion estimation. In 2016 IEEE Int. Confer-ence on Image Processing (ICIP), 2016.[2] C. Bailer, B. Taetz, and D. Stricker. Flow fields: Dense corre-spondence fields for highly accurate large displacement op-tical flow estimation. In IEEE Int. Conference on ComputerVision (ICCV), 2015.[3] C. Bailer, K. Varanasi, and D. Stricker. CNN based patchmatching for optical flow with thresholded hinge loss. arXivpre-print, arXiv:1607.08064, Aug. 2016.[4] L. Bao, Q. Yang, and H. Jin. Fast edge-preserving patch-match for large displacement optical flow. In IEEE Confer-ence on Computer Vision and Pattern Recognition (CVPR),2014.[5] Y. Bengio, J. Louradour, R. Collobert, and J. Weston. Cur-riculum learning. In Int. Conference on Machine Learning(ICML), 2009.[6] T. Brox, A. Bruhn, N. Papenberg, and J. Weickert. High ac-curacy optical flow estimation based on a theory for warping.In European Conference on Computer Vision (ECCV), 2004.[7] T. Brox and J. Malik. Large displacement optical flow: de-scriptor matching in variational motion estimation.IEEETransactions on Pattern Analysis and Machine Intelligence(TPAMI), 33(3):500–513, 2011.[8] J. Carreira, P. Agrawal, K. Fragkiadaki, and J. Malik. Hu-man pose estimation with iterative error feedback. In IEEEConference on Computer Vision and Pattern Recognition(CVPR), June 2016.[9] Y. Chen and T. Pock. Trainable nonlinear reaction diffusion:A flexible framework for fast and effective image restora-tion. IEEE Tra
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功