没有合适的资源?快使用搜索试试~ 我知道了~
可分离流:学习光流估计的运动代价体积张飞虎*OliverJ.Woodford Victor Prisacariu,Philip H.S.托*牛津大学摘要全运动成本量在当前最先进的光流方法中起着核心作用。然而,使用简单的特征相关性构造,它们缺乏封装先验知识或甚至非局部知识的能力这会在约束不佳的模糊区域(例如遮挡和无纹理区域)中创建伪影。我们提出了一个可分离的成本量模块,一个下拉式的替代相关成本量,使用非本地聚合层的exploit全球上下文线索和先验知识,以消除这些地区的运动。我们的方法在准确性方面领先于现在标准的Sintel和KITTI光流基准,并且还被证明可以更好地从合成数据推广到真实数据。(a)输入视图(b)地面实况我们1. 介绍光流是估计两个图像或视频帧之间的每像素2D运动的任务。这种低级视觉任务是许多高级视觉任务的基本构建块。201001020604080200204065432101236080级任务,如目标跟踪、场景重建(c) RAFT [54]输出成本量(d) 我们的产出成本量和视频压缩。在手工设计[5,19]和更现代的深度学习方法[53,54]中使用的该任务的常见方法是首先计算所有像素的运动的成本虽然最先进的方法[54,62]倾向于使用这种方法,但它面临两个关键挑战。首先,成本体积大小在搜索空间的维度中是指数的。因此,对于光流的存储器和计算要求(具有其2D搜索空间)随着运动范围二次地增长。相比之下,1D立体匹配任务的这种成本仅随着视差范围其次,解决由遮挡、缺乏纹理或其他这样的问题引起的模糊需要对场景的更全局而不是局部的理解以及先验知识。成本量一般不封装这种信息,将解决这种模糊性的工作留给每种方法的第二阶段。如图第14章这让你更难代码:https://github.com/feihuzhang/SeparableFlow图1:性能说明。 (a)从Sintel输入视图。(b)地面实况光流。(c)现有技术RAFT的光流结果和2D运动成本体积(对于圆圈区域中的单个像素)[54]。(d)结果和成本体积(对于相同的像素)由我们的可分离流学习。RAFT不能准确地预测模糊区域中的运动,例如遮挡(由圆圈突出显示)。实际上,在该区域的成本量中存在许多假峰值。相比之下,可分离流通过整合可分离的非本地匹配成本聚合来预测这些具有挑战性的区域中的准确流结果所得到的学习成本量具有一个大的峰值,其正确地匹配地面实况。参见第2节。4.2更多详情计算这些区域中的精确运动。这项工作提出了一种新的可分离的成本体积计算模块,它插入到现有的基于成本体积的光流框架,有两个关键的创新,解决这些挑战。第一种方法是将光流场的二维运动分解为水平运动和垂直运动两个独立的一维问题,压缩了四维计算量10807筏206543210123108006040201002020406080210808−−使用自适应分离层分成两个较小的3D体积。这种因子化表示显著减少了推断(并因此也学习)成本量所需的存储器和计算资源此外,它还实现了第二个创新:使用非局部聚集层来学习细化的成本量。这些层以前曾用于1D立体问题[67,68],其中它们提高了模糊区域的准确性和跨域泛化。我们在这里首次将它们应用于光流,通过一步运动回归来学习具有非局部先验知识的成本量,该运动回归能够预测低分辨率(即1/8),但高质量的运动。该预测还用作插值和细化模块的更好输入。我们在标准Sintel [7]和KITTI [16]光流数据集上训练和评估我们的可分离流模块我们实现了目前最好的准确度在所有已公布的opti- cal流方法在这两个基准。此外,在合成数据训练和真实数据测试的跨域情况下(即KITTI),我们的结果以更大的幅度提高了先前的最 新 技 术 水 平 , 甚 至 优 于 一 些 DNN 模 型 ( 例 如FlowNet 2 [28]和PWC-Net [53])在目标KITTI场景上进行微调。我们提供了一项消融研究,以显示这种改善在多大程度上归功于我们的每一项贡献。我们重申,任何计算成本量的光流框架都可以从这些改进中受益。2. 相关工作现在,我们回顾以前的工作与我们的方法,重点是传统的和基于神经网络的光流,立体声和成本聚合方法。2.1. 传统方法传统的光流法主要有三种类型。第一种通常基于局部滤波[20]、插值[21,48,63]、最近邻搜索[2,22,39,40,49]或密集逆搜索[34]。第二个通常使用基于梯度的求解器优化由局部匹配成本数据项和基于MRF的平滑度正则化项组成的全局能量函数[5,6,19,45,47,57,66]。第三类方法使用离散求解器[10,43,60]来找到全局能量函数的更多全局最优解然而,大的运动范围意味着每个像素可以与数千个离散对应中的任何一个配对,从而导致巨大的搜索空间。为了解决这一问题,Menezet al. [43]使用特征描述符修剪搜索空间,并使用消息传递进行优化,而Chen等人。[10]使用距离变换来解决整个搜索空间上的2.2. 用于光流的深度神经网络已经提出了许多深度神经网络(DNN)来推断一对帧之间的光流,解决了任务的许多不同方面。这些包括遮挡处理[70]、鲁棒损失函数[3,15]、特征表示[50,69],细化/插值[26,54,73]、不确定性估计[27]、轻量级架构[24]、数据重采样[4]和黑暗场景中的运动估计[71]。一些作品共同学习分割和光流[1,11,51,58,58],将图像分割成对象或背景,并根据区域类型计算运动。从粗到精的加工已经成为许多近期作品中的流行成分[4,18,24自我监督操作-也已经探索了逻辑流网络[29-在这些方法中,显式成本体积频繁出现,[18,20,23,38,53-例如,PWC-Net [53]使用图像金字塔,扭曲和成本量开发了DNN Xiao等[59]使用Cayley表示学习成本量,但没有有效的成本汇总。Hui等人[23]通过利用本地流一致性的自适应调制先验改进成本量来解决模糊匹配挑战。Hofinger等人[18]通过基于抽样的策略改进成本量构建过程,该策略修正了金字塔级别上的梯度流。Wang等人[55]通过位移感知投影(DAP)层将4D成本体积重塑为3D,利用低维卷积学习高维成本体积。然而,它只能处理固定的小位移范围(例如3,..,(3)第三章。 Yang等[62]提出了一种具有可分离体积滤波的5D体积编码器-解码器结构。专为本地搜索窗口(例如9,.., 9),它不能捕获成本量中的非本地知识。与这些方法相比,我们可以学习和完善整个运动空间的全方位成本量,使用非局部聚合,作为我们的可分离流模型的结果。这与Xuet al相似。[60],他们使用DNN特征构建4D成本体积,并将改进的半全局匹配[17]应用于成本聚合。这种策略对于DNN的端到端训练是不切实际的,因为成本聚合步骤是不可微的,并且会产生巨大的存储器和计算成本。当前最先进的光流模型RAFT [54]也为所有像素对构建多尺度4D相关体积。然而,受限于其巨大的存储器和计算成本,RAFT不将任何成本聚合应用于4D体积。210809∈≪||||u∈−----·uuvuuu2.3. 立体匹配在整个位移空间上构建的全范围成本体积已经广泛用于最先进的立体匹配DNN [9,12,14,32,67,68]。成本体积中的匹配成本聚集也已成为立体匹配中的关键组成部分[32,67],因为局部的基于特征的匹配通常由于遮挡、重复或均匀纹理、反射、噪声等而模糊。基于全范围成本量,已经开发了几种成本聚合方法,例如几何和上下文网络[32],以及使用具有金字塔编码器-解码器的3D卷积进行成本量学习的金字塔匹配网络[9],以及使用非局部半全局匹配层进行非局部成本聚合的引导聚合网络[67]我们的可分离流运动表示使得可以使用这些有效的局部和非局部匹配成本聚合层来学习用于光流估计的更好3. 方法本节首先描述了我们的可分离流模块可以应用的原型光流框架,然后详细介绍了模块本身,最后介绍了用于训练它的方法。3.1. 基于原型成本-体积的光流基于成本体积的光流方法[53,54]通常包括以下阶段:1)图像特征提取,2)成本体积计算和3)运动细化。我们的工作地址通过引入可分离的成本量和成本汇总模块的第二阶段。我们简要地描述了现有方法中的常见模块,但请读者参考以前的作品[53,54]以获得完整的细节。图像特征提取卷积网络(例如,ResNet [54])被训练以提取每像素的局部特征从图像,并产生特征张量,F∈RH×W×D,更新,通常在一个由粗到细的框架[53更新层将当前运动估计、成本量和上下文特征作为输入,并且输出加性运动更新。运动通常初始化为零。本工作使用回归(sec. 3.2.3)以更好地初始化运动。3.2. 可分离流我们建议用一个有效的,可分离的成本量来取代纯粹的基于相关性的成本量以前的光流方法。我们的可分离流模块由以下三个阶段组成,功能描述如下:自适应成本分离、非局部成本聚集和运动回归。图2提供了设计的高级示意图,而整个架构的参数和层设置可以在补充材料中找到3.2.1自适应成本分离为了提高存储器和计算效率,并且在学习的成本体积中实现非局部聚合,我们将4D成本体积C分离并压缩成两个3D、K维特征张量,|U| ×K和CvRH×W×|V| ×K,其中KU,V分别代表水平和垂直运动。Cu的前两个通道(由上标索引)被计算为:Cl(i, j, u)=1∑C(i, j, u, v),(2)|V|v∈VC2(i,j,u)= max C(i,j,u,v).(三)v∈ V由于平均值和最大值选择预定值的成本量,我们建议学习自适应选择剩余的K-2通道,与注意力模-ULE。为了效率,使用压缩的Cv的前两个通道,通过下式实现该自适应压缩:其中,F(i, j)是在下式中的像素的D维特征:一 =φ(C1:2),∈RH×W×|V |×K−2(4)成本量计算。 给定特征张量F1和F2,成本体积,C∈C k+2(i,j,u)= σ.Ak(i, j)Σ·C(i, j,u,:),(5)公司简介|U |×|V|,其中U = umin,..,0,..,u max并且V=v min,...,0,..,是针对每个像素考虑的离散水平和垂直运动每个通常[53,54]通过特征向量的点积为像素i, j和像素运动u, v计算4D体积中的条目,因此:C(i, j, u, v)=F1(i, j)·F2(i+u,j+v)(1)使用这种方法,较高的“成本”表示更大的相似性。我们的工作提出了一种新的方法来表示和计算这个成本量,如第3.2节所述。位置i, j.210810| |||运动细化。 通过迭代其中φu是单个3D卷积层,并且σ()表示发送softmax操作。注意,可以计算Cu而不存储中间4D成本体积C。一个类似的方法是用来计算Cv。这里我们使用K=4。这种自适应压缩具有几个优点平均、最大或卷积压缩。例如,卷积需要U和V的固定范围,而我们的方法可以处理可变的搜索空间。更重要的是,卷积是平移不变的,但运动在空间上变化我们的注意力模块输出平移变化的权重,使其能够适应不同的运动,学习更好的成本体积表示。210811............ ...这是什么?.................L特征提取细化Luv.Σu(i,j)=U·σC(i,j,:),(6)--.Σv(i,j)=V·σC(i,j,:)。(七)可分离流量模块图2:体系结构概述。我们的模型由三个主要部分组成:1)特征提取网络,2)我们的成本量分离和聚合网络的可分离流模块,以及3)细化模块。顶层是一个上下文网络[54],它学习权重和上下文信息,用于成本聚合,细化和上采样(一些模型没有这个)。我们的可分离流模块将从特征生成的4D运动成本体积分离成两个独立的3D位移成本体积。这些卷通过多个非本地聚合层,如图所示。细化的体积,加上从它们回归的初始流量估计,被输入到细化网络中,用于进一步的粗到细的改进和插值。3.2.2学习成本聚合UEs,CA,CA被发送到细化模块以计算u v半全局匹配聚合了传统立体[17]中的非局部信息,以及最近的光流[60],最终的运动预测。在运动细化先前使用相关性成本C(i, j, u, v)的情况下,替代地将相关性成本C(i,j,u,v)馈送给运动细化。级联的、合计的成本[CA(i, j, u),CA(i, j,v)]。方法. 同样有效的聚合层自uv已经被应用于立体匹配的神经网络[11,32,67],效果很好,但尚未被证明对光流网络是实用的。然而,我们的可分离框架使我们能够将这些聚合层直接应用于分离的2D运动。我们的成本聚合模块使用编码器-解码器架构,该架构由GANet [ 67 ]中提出的四个非局部半全局聚合(SGA)层和八个3D卷积层组成,以从H ×W ×|U |×K特征张量到H × W × |U|成本量模拟-该运动回归学习较低分辨率(例如,1/8,如在RAFT [54]中所使用的),但是考虑到先前的方法以零运动初始化[53,54],高质量的运动预测用作细化模块的更好输入。正如我们的消融研究所示(第4.3节),使用该回归估计值初始化运动是提高预测质量的关键值得注意的是,标准(即非分离)2D运动回归是自然可分离的:C′=σ ( C ( i , j , : ,: ) ) ,( 8)训练了一个迭代网络来计算CA。u(i, j)=∑∑U(u)C′(u, v),(9)u v3.2.3运动回归视差回归已被用于立体匹配[32],其中它被证明比基于分类的方法更鲁棒,并且可以生成亚像素精度。此外,回归已被用于学习立体成本卷,这些立体成本卷具有丰富的几何和上下文信息[32,67]。它被计算为每个差异的总和,由其概率加权,通过softmax在成本量上计算。我们在这里使用类似的方法来学习光流回归,f〇=u(,v(,对于每个pix eli,j,在运动细化之前一u一v然后,初始流量预测fo和学习成本vol。AGGAGGAGGAGG210812·.Σ′使得σ C(i,j,:)扮演与C(:,v)相似的角色。∑v--=U∑C′(:,v),(10)v一u[32,67]由于其在立体声域的功效[32,67],和分离,由于2D运动回归的可耕地性质,这给我们一些关于为什么运动回归可以用于有效地学习也富含先前上下文和几何信息的两个可分离的3D成本体积的3.3. 损失函数在RAFT [54]之后,我们使用预测流和地面实况流之间的L1损失来进行光流的N个细化预测的序列,f1,…fN.然而,除此之外,我们还有运动回归流,f0。给定210813训练数据方法Sintel(训练)KITTI-15(训练)Sintel(测试)KITTI-15(测试)表1:Sintel和KITTI数据集的结果。C+T:我们在FlyingChairs(C)和FlyingThings(T)上训练后,在KITTI(train)上测试泛化性能。C+T+V:我们还提供Virtual KITTI的额外合成驾驶场景(V)[8]进一步提高真实驾驶场景的泛化能力。我们的方法优于现有的方法合成真正的推广。我们还评估我们的模型在微调后的公共基准。C+T+S/K包括在Sintel上进行评估时仅对Sintel数据进行微调的方法,或者在KITTI上进行评估时仅对KITTI数据进行微调的方法C+T+S+K+H包括在微调时组合KITTI、HD1K和Sintel数据的Separable Flow的性能优于之前的最先进方法,在Sintel(清洁和最终通过)和KITTI 2015光流基准测试中,在所有已发布的光流方法中排名第一因此,我们的损失被定义为4. 实验NL=∑λi=0时N−i ||1(11)||1(11)本节详细介绍了实验和结果,证明我们的可分离流模块是其中λ= 0。在我们的实验中,对稍后的细化步骤进行更高的加权以确保收敛。在光流的准确性方面的技术。它还展示了其改进的跨域泛化,以及我们的模型修复的特定错误类别,并讨论了原因。消融研究完成了评价。实施详情:我们的模型是在清洁最终埃佩奥尔Fl-all清洁最终Fl-all- 流场[2]----3.755.8115.31- FlowFields++[49]----2.945.4914.82S DCFlow [60]----3.545.1214.86S MRFlow [58]----2.535.3812.19HD3 [65]3.848.7713.1724.0---PWC-Net [53]2.553.9310.3533.7---[25]第二十五话2.243.788.9725.9---VCN [62]2.213.688.3625.1---C + TMaskFlowNet [70]2.253.61-23.1---[28]第二十八话2.023.5410.0830.03.966.02-DICL-Flow [55]1.943.778.7023.6--救生筏[54]1.432.715.0417.4---我们1.302.594.6015.9---C + T + VRAFT [54]1.452.753.209.13---我们1.322.612.607.74--7.92[28]第二十八话(1.45)(2.01)(二点三十分)(6.8)4.165.7411.48PWC-Net [53]----4.395.049.60LiteFlowNet [24](1.35)(1.78)(1.62)(5.58)4.545.389.38HD3 [65](1.87)(1.17)(1.31)(4.1)4.794.676.55C+T+S/K ScopeFlow [4]----3.594.106.82DICL-Flow [55](1.11)(1.60)(1.02)(3.60)2.123.446.31VCN+LCV [59](1.62)(2.22)(1.13)(3.80)2.834.206.25RAFT+LCV [59](0.94)(1.31)(1.06)(3.77)2.753.556.26救生筏[54](0.77)(1.20)(0.64)(1.5分)2.083.415.27我们(0.71(1.1(0.68(1.51.993.274.89210814×10−3×10−340 2040200200200 2040020捷克共和国404020∆(a) 筏捷克共和国404020阿鲁(b) 我们图3:成本量的比较。(Xu,Xv)是从地面实况流(坐标原点)的偏移。可视化跨100个图像对的遮挡区域中的所有像素上的平均归一化成本体积我们的方法的中心值(在地面真实位移处)比筏。我曾在《古兰经》中说:“我曾在《古兰经》中说:‘我曾在《古兰经》中说:‘我曾在《古兰经》中说:除非另有说明(例如秒4.3),我们使用RAFT [54]的特征提取和细化模块。在RAFT [54]之后,我们在FlyingChairs [ 13 ]上训练我们的网络进行10万次迭代(批量大小为12),然后在FlyingThings [41]上进行10万次迭代(批量大小为6),最后在FlyingThings [41],Sintel [7],KITTI-2015[42]和HD 1 K [33]的数据组合上进行微调,再进行10万次迭代(批量6)。所有其他学习设置(包括数据增强)与RAFT中的设置相同[54]。4.1. 定量评价我们在现在的标准、在线、Sintel [7]和KITTI [16]基准上评估我们的可分离流模型我们在每个基准上评估两个模型。第一个是在特定基准的训练集上进行微调(即.Sin- tel或KITTI)。第二个是对上述组合训练集进行微调。结果分别呈现在表1的底部两个部分中。当与在相同数据上训练的其他方法相比时,我们的方法在epe(终点误差)和Fl-all(阈值误差率)评估中均处于领先地位。在这两个基准上,使用混合训练集实现了我们的方法的最佳结果。在Sintel上,平均终点误差(EPE)为1.50(干净)和2.67(最终),与RAFT [54]的先前最佳结果相比均降低了7%。在KITTI上,4.64%的错误率比之前的最佳结果减少了9%,RAFT也实现了这一点。4.1.1跨领域泛化由于收集真实数据的基础事实是昂贵的,因此泛化能力在实际应用场景中特别重要。在合成FlyingChairs(C)和FlyingThings(T)上训练后,我们在Sintel(train)和KITTI(train)上测试了我们的模型的跨域泛化性能,结果如表1第二部分所示我们模型再次优于所有现有的已发布方法。此外,在真实的KITTI评估中,我们的模型实现了15.9%的错误率,远远优于大多数现有模型,并且比之前的最佳模型减少了9%(再次,RAFT [54])。此外,我们使用额外的合成驾驶场景[8]来提高从合成场景到真实驾驶数据集的泛化能力。通过仅使用这些 合 成 数 据 ( FlyingChairs , FlyingThings 和 VirtualKITTI2 [8])进行训练,我们的模型在真实KITTI训练集上实现了7.60%的错误率(表1,第三节),在KITTI测试集上实现了7.92%的错误率若干DNN(例如PWC-Net [53],FlowNet 2 [28]和LitleFlowNet [24])的表现比这更差,即使在目标KITTI训练集上进行微调。因此,我们发现,可分离流提供更大的性能增益时,应用到跨域的情况。我们将这些泛化能力归因于我们的可分离的非局部聚合,其捕获更鲁棒的非局部几何形状和上下文信息,而不是局部的域敏感特征。可视化结果和比较见补充材料。4.2. 定性分析Separable Flow在准确性方面产生了明显的定量改善。在本节中,我们试图定性地解释这些改进的原因和原因。图3可视化了具有挑战性的闭塞区域和RAFT [54]的平均归一化可分离流成本体积(b)。可以看出,我们的成本体积在地面真实运动处提供单个大峰值,与RAFT形成对比,RAFT在其成本体积中具有许多噪声假峰值。在反射区域中可以看到类似的效果(在补充材料中可用)。这表明,我们学习的成本体积能够克服区域模糊性,通过利用全球几何形状和上下文信息。图4比较了我们模型的光流输出与RAFT [54]的在具有挑战性的地区,如2.72.72.42.42.12.11.81.81.51.51.21.20.90.90.60.60.30.0400.30.0u210815uv(a)[54]第54话:我的世界图4:定性比较。(b)最先进的RAFT的结果[54]。(c)可分离流的结果显著的改进由箭头突出显示。成本聚合可以有效地将运动信息聚合到大的无纹理区域(例如,无纹理区域)。汽车后面的白墙),和反射区域(例如,汽车车窗),给出精确的估计。通过学习上下文对象信息,它还很好地保留了对象边界(顶行)。大的无纹理区域(例如,汽车后面的白墙),和反射区域(例如,车窗),匹配信息通常是模糊的,因此导致RAFT中的错误匹配[54]。我们的可分离流中的非局部聚合使其能够识别和捕获长距离上下文信息,从而在这些区域中生成更准确的运动估计。这种丰富的上下文信息也很好地保留了对象边界(顶行)。4.3. 消融研究我们进行了一组烧蚀实验,以验证的需要,并显示的相对重要性,我们提出的可分离流模块所有消融模型均在FlyingChairs(C)+FlyingThings(T)上进行训练,并在Sintel和KITTI训练集上进行评估。组件消融:按部件消融的结果如表2所示。在表格的每个部分中,我们单独测试了我们方法的一个特定组件,并在最终模型中使用了下划线的设置。分离通道:我们的自适应成本分离的注意力层提供了一个显着的提升,而不仅仅是平均或最大聚合。聚合层都可以提高性能,SGA层[67]提供了最大的好处,突出了对非本地聚合的需求共享Agg.权重:用于计算CA和CA的成本聚合网络可以共享权重,或者学习单独的权重。由于自然场景的旋转方差,后者产生合理的优势聚合块:[9,67]中使用的沙漏块在这里资源太重。相反,我们使用UNet和ResNet块进行了测试,前者提供了更好的性能。运动回归大幅提高性能时,用于初始化的运动细化块,而不增加网络带宽。这表明它有助于网络更好地学习,而不是更多。这些实验验证了这项工作的每一个贡献的重要性不同的框架:表3显示了在不同框架中使用可分离流的性能提升,反之亦然。我们将可分离流应用于两个流行的光流框架[53,54],它们在细化模块方面有所不同。这两个框架都得到了显着改进,PWC-Net [53]甚至比RAFT [54]更好,误差减少了11-31%(与后者已经报道的7%相比给定我们分离的运动成本体积,我们还能够使用许多不同的立体匹配主干来独立地处理这些体积,并直接预测运动。我们测试了PSMNet [9]和GANet [67]。即使没有从粗到细的光流细化模块,这些模型仍然可以比一些流行的光流模型(例如,光流模型)更准确地估计运动。PWC-Net [53]),证明了可分离运动成本体积表示的灵活性。4.4. 定时、参数和准确度在表4中,我们比较了我们的方法与几种方法的参数计数、推理时间和训练迭代210816∗实验变化Sintel(系列)KITTI-15(系列)参数清洁最终Epe-all和Fl-all基线[54]平均值1.39 2.65 4.80 16.7 5.9M分离通道聚合层最大值1.38 2.65 4.74 16.5 5.9M关注1.32 2.62 4.72 16.2 6.0M全部1.30 2.59 4.60 15.9 6.0M2×3D转换器1.39 2.68 4.91 16.8 5.9M8×3D转换器1.33 2.63 4.75 16.4 6.2M2×SGA 1.34 2.64 4.71 16.2 6.0M4×SGA1.30 2.59 4.60 15.9 6.0M共享Agg.重量编号1.302.594.6015.96.0M是1.34 2.65 4.72 16.3 5.7M聚合块ResNet 1.33 2.63 4.74 16.1 6.0MUNet1.30 2.59 4.60 15.9 6.0M运动回归编号1.37 2.65 4.89 16.8 6.0M是1.30 2.59 4.60 15.9 6.0M表2:消融实验。我们最终模型中使用的设置加下划线。参见第4.3详情成本累计精炼Sintel(系列)KITTI(系列)模块模块最终清洁Fl-all(%)方法参数速度迭代KITTI Fl-all(%)FlowNet 2[28] 162.5M 0.1s 7100K 11.48Ours+GANet [67]表3:使用不同细化和聚合模块的性能。模型在FlyingChairs和FlyingThings数据集上进行训练,并在Sintel和KITTI训练集上进行评估。最近的基于成本-体积的光流网络[54,59,62]。可分离流与另一种基于成本-体积的方法[59]具有相似数量的参数和与最先进的RAFT [54]相比,我们的可分离流引入了大约0.7M的新参数,并且稍微慢一些。因此,我们的方法的主要优点是其提高的准确性。5. 结论我们已经引入了可分离流模块,用于光流推断的成本-体积计算模块,其能够通过使用可分离成本体积表示和运动回归来利用非局部成本聚合我们的实验结果在准确度上击败了先前的现有技术,误差一致减少了7%,表明该模块既解决了遮挡、无纹理和其他此类区域中的表4:参数计数、推理时间和训练迭代与准确性,我们的模型对最近的成本-体积为基础的光流网络[54,59,62]。速度测量来自KITTI2015基准。通过使用非本地的上下文信息和先验知识,并且当将综合训练的网络应用于真实数据时,还改进了跨域的生成。我们的消融研究验证了构成可分离流量模块的每个模块的重要性。我们注意到,这个模块可以受益于广泛的光流方法,基于成本量。我们的模型只在少数情况下失败,其中对象(例如这是光流方法的常见限制:当移动对象仅在一个图像中可见时,网络预测该对象是静止的,因为这是最合理的运动(至少对于KITTI中的汽车)。为了解决这个问题,可以采用多视图或视频输入。致谢本工作得到Snap Inc.的支持。图灵人工智能奖学金 : EP/W 002981/1 , EPSRC/MURI 资 助 EP/N019474/1。我们还要感谢皇家工程学院和FiveAI。–PWC-Net [53]2.553.9333.7VCN [62]6.2M0.18s300k6.30我们PWC-Net [53]1.893.5123.1VCN+LCV [59]6.3M0.26s–6.25–救生筏[54]1.432.7117.4救生筏[54]5.3M0.2s350k5.10我们救生筏[54]1.302.5915.9我们6.0M0.25s350k4.64Ours+PSMNet [9]–3.214.3232.8210817引用[1] Min Bai , Wenjie Luo , Kaustav Kundu , and RaquelUrtasun.利用语义信息和深度匹配实现光流。在欧洲计算机视觉会议(ECCV)中,第154施普林格,2016年。2[2] Christian Bailer Bertram Taetz和Didier Stricker流场:用于高精度大位移光流估计的密集对应场。在IEEE计算机视觉国际会议论文集,第4015-4023页,2015年。二、五[3] Christian Bailer,Kiran Varanasi,and Didier Stricker.基于Cnn的阈值铰链嵌入损失光流场块匹配在IEEE计算机视觉和模式识别会议论文集,第3250- 3259页2[4] 阿维拉姆·巴尔-海姆和里奥·沃尔夫。Scopeflow:光流的动态场景范围。在IEEE/CVF计算机视觉和模式识别会议论文集,第7998-8007页,2020年。二、五[5] 迈克尔·J·布莱克和帕德马纳班·阿南丹。光流鲁棒估计的框架。 法律程序中 IEEE International Conference onComputer Vision,第231-236页。IEEE,1993年。一、二[6] Thomas Brox,Christoph Bregler,and Jitendra Malik.大位移光流。2009年IEEE计算机视觉和模式识别会议,第41IEEE,2009年。2[7] Daniel J Butler 、 Jonas Wulff 、 Garrett B Stanley 和Michael J Black。一个用于光流评估的自然主义开源电影 在 欧 洲 计 算 机 视 觉 会 议 ( ECCV ) 中 , 第611Springer,2012.二、六[8] YohannCabon,NailaMurray,andMartinHumenberger.Vir-tual kitti 2,2020. 五、六[9] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议论文集,第5410- 5418页三、七、八[10] Qifeng Chen和Vladlen Koltun。全流:通过规则网格上的全局优化进行在IEEE计算机视觉和模式识别会议的论文集,第4706-4714页2[11] 程景春,蔡义轩,王胜金,杨明轩。Segflow:视频对象分割和光流的联合学习。在IEEE国际计算机视觉会议论文集,第686-695页二、四[12] Xinjing Cheng,Peng Wang,and Ruigang Yang.使用卷积 空 间 传 播 网 络 学 习 深 度 。 IEEE Transactions onPattern Analysis and Machine Intelligence,42(10):2361-2379,2019。3[13] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet:使用卷积网络学习光流。在IEEE计算机视觉国际会议的论文集,第2758-2766页,2015年。6[14] Xianzhi Du , Mostafa El-Khamy , and Jungwon Lee.Amnet:Deep atrous multiscale stereo disparity estimationnetworks.arXiv预印本arXiv:1904.09099,2019。3[15] David Gadot和Lior WolfPatchbatch:光流的批量增强损失在IEEE计算机视觉和模式识别会议论文集,第4236-4245页2[16] Andreas Geiger , Philip Lenz , Christoph Stiller , andRaquel Urtasun.视觉与机器人技术的结合:Kitti数据集。The InternationalJournal of Robotics Research ,32(11):1231 二、六[17] 海科·赫希穆勒基于半全局匹配和互信息的立体图像处理 IEEE Transactions on pattern analysis and machineintelligence,30(2):328-341,2007. 二、四[18] MarkusHofinger , SamuelRotaBulo` , LorenzoPorzi ,ArnoKnapitsch,and Peter Kontschieder.在金字塔层次上改进光流。欧洲计算机视觉会议(ECCV)论文集,2020年。2[19] Berthold KP Horn和Brian G Schunck。确定光学流量。图像理解的技术和应用,第281卷,第319-331页。国际光学与光子学学会一、二[20] Asmaa Hosni , Christoph Rhemann , Michael Bleyer ,Carsten Rother,and Margrit Gelautz.快速的成本-体积过滤 , 用 于 视 觉 对 应 和 超 越 。 IEEE Transactions onPattern Analysis and Machine Intelligence,35(2 ):504 2[21] Yinlin Hu,Yunsong Li,and Rui Song.大位移光流对应的鲁棒插值。在IEEE计算机视觉和模式识别会议论文集,第481-489页2[22] Yinlin Hu,Rui Song,and Yunsong Li.用于大位移光流的有效的从粗到细的块匹配。在IEEE计算机视觉和模式识别会议的Proceedings中,第5704-5712页2[23] 许德威及陈昌来。Liteflownet3:解决对应模糊性以获得 更 准 确 的光 流 估 计 。 在 欧 洲 计 算 机 视 觉 会 议(ECCV)中,第169Springer,2020年。2[24] Tak-Wai Hui,Xiaoou Tang,and Chen Change Loy. Lite-flownet:用于光流估计的轻量级卷积神经网络。在IEEE计算机视觉和模式识别会议论文集,第8981- 8989页二、五、六[25] Tak-Wai Hui,Xiaoou Tang,and Chen Change Loy.一种轻量级的光流arXiv预印本arXiv:1903.07414,2019。二、五[26] Junhwa Hur和Stefan Roth。联合光流和遮挡估计的迭代残差细化。在IEEE计算机视觉和模式识别会议论文集中,第5754-5763页,2019年。2[27] Eddy Ilg、Ozgun Cicek、Silvio Galesso、Aaron Klein、Osama Makansi、Frank Hutter和Thomas Brox。光流的不确定性估计和多假设网络。在欧洲计算机视觉会议(ECCV)的会议记录中,第652-667页,2018年。2210818[28] Eddy Ilg , Ni
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功