没有合适的资源?快使用搜索试试~ 我知道了~
多对多Splatting视频帧内插算法
3553精度(PSNR)×多对多Splatting视频帧内插算法胡平1*Simon Niklaus2Stan Sclaroff1Kate Saenko1,31波士顿大学2Adobe Research3麻省理工学院-IBM沃森人工智能实验室摘要32基于运动的视频帧内插通常依赖于30在光流上,将像素从输入扭曲到期望的插值时刻。然而,由于固有的挑战,运动估计(例如,遮挡和不连续),大多数最先进的内插方法需要低于26对变形结果进行优化,以生成满意的减少输出,这大大降低了24小时多帧插值在这项工作中,我们提出了一个完全可微的多对多(M2M)飞溅框架,以22有效地内插帧。 具体来说,给定一个框架300速度(ms/f)3000对,我们估计多个双向流以直接向前弯曲像素到期望的时间步长,然后融合任何重叠的像素。在这样做时,每个源像素渲染多个目标像素,并且每个目标像素可以从视觉上下文的较大区域合成。这建立了一个多对多的飞溅计划与鲁棒性的文物,如洞。此外,对于每个输入帧对,M2M仅执行一次运动估计,并且当内插任意数量的中间帧时具有微计算开销,因此实现快速多帧内插。我们进行了大量的实验来分析M2M,发现它在保持高效率的同时显著提高了效率。1. 介绍视频帧内插(VFI)旨在通过在原始帧之间合成中间帧来提高视频的帧速率[1,40]。作为视频处理中的经典问题,VFI有助于许多实际应用,包括慢动作动画[12],视频编辑[22],视频压缩[45]等。近年来,已经提出了过多的用于视频帧内插的技术[18,23,24,36,44,47,51]。然而,由于诸如遮挡、大运动和照明变化的挑战,帧内插仍然是未解决的问题。参考的研究可以大致分为无运动和基于运动的,这取决于是否*工作主要在Ping在Adobe实习期间完成。图1. 性能8“2K”版本上的插值X测试[39]。使用Titan XGPU测量所有方法的运行时间。每个圆圈的大小表示模型参数的数量。相关方法的结果包括RIFE [11],SoftSplat [28],AdaCof [16],SepConv [30],XVFI [39],DAIN [2],[ 33 ][ 32 ][33 ][34][35]我们使用两种不同的现成流量估计器来评估我们提出的M2M溅射,像光流这样的线索被并入[15,42]。无运动模型通常依赖于内核预测[6,9,31,34]或时空解码[7,8,13],其有效但限于以固定时间步长内插帧,并且其运行时间在期望的输出帧的数量上线性增加。在光谱的另一端,基于运动的方法在帧之间建立密集的对应关系,并应用扭曲来渲染中间像素。一种常见的基于运动的技术估计所需时间步长的双边流,然后通过向后扭曲合成中间帧[2,11,12,32,33]。然而,双边运动的估计是具有挑战性的,并且不正确的流很容易降低插值质量。因此,对于每个时间步,这些方法通常应用合成网络来细化双边流。另一种基于运动的解决方案是通过光流将扭曲像素向前移动到期望的时间步长[1]。然而,前向扭曲会受到多个像素映射到同一位置的漏洞和模糊性的影响。因此,通常采用图像细化网络来校正剩余伪影[27,28,46]。然而,这两种方法都是重新--(我软我COF我NCApConvSeAdaEFRI在DAABSplatFXVS)2M-DI(M)-PWCM2m303554T =1T =2(a) M2O飞溅(b) M2M飞溅与利用细化网络[27,28]的先前方法相比,允许我们更快地执行多帧插值,如图所示。1.一、总之,我们提出了1)运动细化网络,估计两个输入图像之间的多对多关系,2)基于学习的像素融合策略,图2. (a)多对一溅射与(b)多对多溅射,用于在包含蓝色和/或蓝色像素的场景中缩放运动。M2O溅射可能导致孔,而M2M溅射允许更灵活的图像形成模型。需要大量的计算,并且需要为每个期望的插值时刻执行精化网络。这降低了它们在多帧插值任务中的效率,因为它们的运行时间在期望的输出帧的数量上线性增加。我们通过多对多(M2M)溅射框架应对这些挑战并努力提高效率。具体来说,我们提出的M2M溅射估计多个双向流场,然后有效地向前扭曲输入图像到所需的时间步长,然后融合任何重叠的像素。由于我们直接对像素颜色进行操作,因此底层光流的质量和分辨率起着关键作用。出于这个原因,我们首先应用现成的光流估计器[15,42]来以粗略的水平提取两个输入帧之间的基于这种低分辨率的光流估计,运动细化网络(MRN)以全分辨率为每个像素预测多个流矢量,然后我们通过多点溅射将其用于图像合成。传统的基于运动的帧内插方法仅为每个像素估计一个帧间运动矢量[2,11,27,28,32,33,46]。然而,如图2(a)所示,具有这样的运动场的前向扭曲表现为多对一溅射,在扭曲结果中留下不必要的孔为了克服这一限制,我们通过预测每个输入像素的多个运动矢量,然后在所需的时间步长将像素向前扭曲到多个位置,来对像素之间的多对多关系进行建模。如图2(b)所示,多对多溅射允许像素之间更复杂的交互,即。每个源像素被允许呈现多个目标像素,并且每个目标像素可以与较大区域的视觉上下文合成毫不奇怪,多对多的溅射导致更多的重叠像素。为了合并这些,我们进一步引入了一种基于学习的融合策略,该策略自适应地将映射到同一位置的像素相结合。由于我们的流水线中的光流估计步骤预测时不变的对应估计,因此对于给定的输入帧对,它只需要执行一次。一旦建立了多对多帧间运动,则生成新的中间帧仅需要扭曲和融合输入图像。这是在斯塔克康-egy,它解决了重叠像素之间的模糊性,以及3)一个动机良好的多对多(M2M)分裂合成模型,用于高效和有效的帧内插。我们的实验表明,M2M实现了效率高,速度快,例如使用Titan X执行2K视频的×8插值,速度为40 ms/f。2. 相关工作基于运动的视频帧插值方法通常从给定帧估计光流[15,42],然后将像素/特征传播到期望的目标时间步长[26,46,48,49]。前向翘曲是实现这一目标的有效 解 决 方 案 [1] 。 通 过 给 定 帧 之 间 的 双 向 光 流 ,Niklauset al. [27]在利用合成网络渲染输出帧之前,直接向前弯曲图像以及上下文特征到插值时刻。为了使这种飞溅完全不同,他们进一步引入了softmax飞溅[28],这允许他们端到端地训练特征提取。但是,溅射有其缺点,因为它不仅需要解决映射到同一位置的多个像素的模糊性,而且还需要处理稀疏结果中存在的孔。为了避免必须处理这些挑战,一些方法是基于向后翘曲[3,39]。例如,必要的双边流量可以通过神经网络[12]或基于深度的飞溅[2]从现成的流量估计中近似。Park等人[32,33]扩展这些想法并引入网络以进一步改进运动表示,而Huang等人。[11]学会直接估算双边流量。然而,估计双边流仍然具有挑战性,并且向后翘曲的像素仍然可能遭受伪影。因此,这些方法也依赖于图像合成网络来提高插值质量[11,27,28,32,33]。虽然被证明是有效的,双边流估计和图像合成网络需要完全执行每个所需的输出,导致线性增加的运行时间时,插值一个以上的中间帧。与这些方法相比,我们的M2M方法依赖于多对多溅射来解决前向扭曲的问题,而不依赖于图像合成网络或双边流近似/估计。VFI的另一个主要研究方向旨在完全避免显式运动估计。一种流行的方法是使用空间自适应滤波器对输入像素进行重采样[19,34]。Niklaus等人[29]空间变化的估计3555孔夫斯孔夫斯浓浓经纱111→0...1→0解码器LFMH投影仪W投影仪C投影仪Mx( Cx 1x1)...Mx( 1xHx 1)...Kronecker产品Cx HxWMx( 1x 1xW)...(b)联合流编码Cx HxW0→1→N{}→→--0′0→1′1→01(a) 运动细化网络(c)低秩特征调制(LFM)图3. 概述(a)运动细化网络及其核心模块:(b)联合流编码和(c)低秩特征调制。给定图像对{I0,I1}和初始双向帧间流{F0′→1,F1′→0},目标是生成多个细化双向流{Fi1,Fi0}i=1 以及颜色可靠性图{S0,S1}。JFE中的在后续工作中被分解为可分离的内核[30,31]的内核,也制定了像素之间的多对多相关性。然而,由于局部贴片受到有限空间范围的影响,因此引入可变形卷积来处理大运动[6,16]。为了提高模型效率,Dinget al. [9]引入模型压缩[16]。还提出了时空解码方法,以经由通道注意力[7,8]或3D卷积[13]将时空特征直接转换为目标帧。然而,这些方法中的大多数在固定时间生成输出,通常在输入图像之间的中途,这限制了任意时间内插并且线性地增加了多帧内插的运行时间。3. 多对多Splatting框架在本节中,我们将描述用于视频帧插值的多对多(M2M)溅射框架给定一个输入帧对,我们首先用现成的方法[15,42]估计双向运动。一个运动细化网络(图。3(a))然后将现成的运动预测作为输入,并估计多个运动矢量以及输入帧中每个单独像素的可靠性得分。最后,所有输入像素经由多个运动向量中的每一个被前向扭曲到期望的目标时间步长若干次,并且最终经由利用估计的可靠性分数的像素融合被合并以生成通过全面的端到端监管,我们的M2M框架不仅能够实现效率,而且能够实现有效性。在下文中,我们首先提出动议,在SEC中细化网络。3.1节介绍了像素的多点溅射和融合。3.2.3.1. 运动细化网络光流是对视频中的帧间运动进行建模的常用技术然而,直接应用现成的光流估计器和基于该估计的前向扭曲像素可能是具有挑战性的。光流仅对每个像素的单个运动矢量进行建模,从而限制了像素可以飞溅的区域,从而潜在地导致孔。此外,大多数光流估计器是用相对低分辨率的训练数据来监督的,并且迫使它们处理高分辨率帧可能产生差的结果。相比之下,我们提出了运动细化网络(MRN)来上采样和细化现成的光流估计,同时预测每个像素的多个运动如图在图3(a)中,MRN流水线由三个部分组成:运动特征编码、低秩特征调制和输出解码。运动特征编码旨在对来自输入帧I0、I1以及由现成估计器[15,42]以粗略分辨率估计的光流F0′1、F1′0的多级如图3(a)所示,编码过程以分层方式设计。首先,我们从I0和I1中提取两个L级图像特征金字塔,第0级是图像本身。为了在每个金字塔级别生成特征表示,我们利用两个具有间歇性PReLU激活的卷积层来下采样特征010→1...0→1解码器JFELFMJFEJFE3556→→N4{F}×--××× × ×××∈----0→1N1→0比之前的水平提高了两倍在我们的实现中,我们使用L=4,从浅到深的特征通道的数量分别为16,32,64和128然后,从第零级到最后一级,我们应用如图3(b)所示的联合流编码(JFE)模块来逐步生成双向流场F0′1和F1′0的运动特征金字塔。在第l具体地,使用现成的光学器件将来自对应于I0的金字塔的特征朝向I1翘曲,反之亦然010���′0→110→120→130→140→1图4.MRN的输出示例(N = 4)。如直观预期的那样,S0在具有复杂运动的区域中显示低可靠性。流量估算 然后,原始特征和扭曲的{F0→1}n=1 细化初始流F0′→1更好的细节,使用两层CNN组合和下采样特征以编码第l低秩特征调制的目的是进一步加强与低秩约束的运动特征表示。该模块背后的想法是,由于潜在的物理约束,自然动态场景的流场是高度结构化的,可以通过以下方式利用将具有阴影变化的复杂运动(如红色圆圈所示)分解为多个运动场。特征图的初始大小。也就是说,解码器在从粗略到精细的L个阶段中操作,同时利用由JFE模块编码的在最后的解码阶段,在每个方向上的流的全分辨率特征映射低秩模型来增强运动估计质量,[10,37,38,43]。为了避免公式化的显式优化-转换为多个字段,0→1,Fi1→0 i=1作为与以前的方法一样,这些方法在高分辨率应用中可能是无效的,我们从规范多元(CP)分解[14]中得到启发,并构建了一个有效的低秩调制模块,以增强每个流如图在图3(c)中,给定大小为C H W的输入特征图,采用三组投影仪将特征图重新收缩为通道、高度和宽度维度。每个投影仪由池化层、11个卷积层和S形函数组成。我们对三个维度中的每一个应用M个投影仪,这导致三组1-D特征,其大小可以表示为通道的M×(C×1×1尺寸,M×(1×H×1)为高度尺寸,以及相应的可靠性图S0,S1,稍后用于在生成新的中间帧时融合映射到相同位置的像素这些输出的一个例子是可视化的图。4.第一章3.2. 像素变形和融合先前估计的多运动场首先用于将扭曲像素向前扭曲到给定的目标时间步长。随后,我们提出了一种融合策略,以合并输出中重叠像素的颜色由于扭曲和融合步骤都是利用像素的颜色进行操作,而没有任何后续的后处理步骤,因此像素扭曲。 到目前为止,我们已经生成了N个全分辨率双向运动场{Fn,Fn}N和像素-和对于宽度尺寸。 那么对于明智可靠性分数0→11→0n=1M(1 1W)每个来自三维的M个向量,我们应用Kronecker积得到一个秩为1的张量,其形状为CHW。M秩-1张量随后逐点平均。为了确保低秩特性,M被设置为S0,S1对于输入视频帧对I0,I1。下一步是在期望的时间步长t(0,1)合成中间帧It。在线性运动的假设下,我们首先通过期望的插值时间t将每个像素小于C,H和W(我们在这项工作中采用M=16)。我们通过逐点乘法将输入特征和低秩张量结合起来,后者用作权重Fn0→tFn1→t(i0)=t·Fn(i0)(i1)=(1−t)·F(i1)(一)以调制具有低秩特性的前者。基于深度学习的低秩约束也被用于模型压缩[35],分割[5]和其中,i0和i1表示I0和I1记录中的第i个源像素然后,源像素i s通过其第n个运动向量被前向扭曲到i n=f(is,F n),图像重建[50]。 在这项工作中,我们探索的AP-中间时间s→ts→t应用于运动建模,并证明其有效性-t,其中s∈ {0,1}表示源frame,其中F是前向扭曲操作,并且Fn是视频帧插值的任务。的 i的第n个子运动向量,如等式(1)中所定义。1.一、s→t输出解码生成N个运动矢量以及基于运动特征金字塔和服从低秩先验的特征图的每个输入像素的可靠性分n3557数。我们采用去泡沫层来扩大水疗中心-我们首先考虑利用单个运动矢量进行扭曲,这意味着每个像素仅被扭曲到目标帧中的一个位置。在动态场景中,运动矢量可能彼此重叠,从而导致3558ΣNS--−不i∈I<$1i=j·e(bi·si·α)·ris→ts→t是调整权重比例的可学习参数,It是在时间t的所有扭曲像素的集合,并且1i=j指示不Many-to-OneMany-to-ManyMany-to-ManyMany-to-One(a)单一源帧(b)两个源帧图5.通过多对一(M2O)溅射和多对多(M2M)溅射实现前向翘曲的可视化。(a)在一个源帧的情况下,M2M溅射遭受条带伪影的影响较小,并且对不连续运动的边界附近的模糊性提供了改进的鲁棒性。(b)带状伪影可以用多个源帧来减轻,但是M2O溅射仍然遭受边界处的杂散效应,这是由于其图像形成模型不如M2M溅射灵活。放大时最佳观看。多对一(M2O)传播,其中融合后的像素集小于帧的实际像素集。这导致如图5(a)所示的孔。虽然利用多个源帧减轻了这个问题,但M2O扭曲仍然限制每个源像素仅在输出帧中渲染小的4像素附近。这限制了表示并因此内插像素之间具有复杂相互作用的区域的有效性,如图5(b)所示。幸运的是,这样的限制可以通过多对多(M2M)像素溅射来减轻,该像素溅射通过使用多个运动矢量来对每个源像素的运动进行建模。我们向前扭曲源s中的每个像素,其中N(N>1)Eq的有效性3不仅取决于运动,而且还取决于像素的颜色,这可能会受到各种因素的影响,如噪音,模糊的为了增强鲁棒性,我们进一步采用了学习的每像素可靠性得分。3)可靠性得分si与运动矢量一起通过运动细化网络联合估计,如在第2节中所介绍的。3.1从数据中学习。利用这三个测量,我们以加权求和的形式融合位置j<$i∈I<$1i=j·e(bi·si·α)·ri·ciI=[Inn=1(二)其中c是 表示第i个扭曲像素ˆ多对多溅射放宽了每个源像素只能贡献于单个位置的限制。因此,它允许底层的运动估计器学习有关遮挡的原因,并在更大的像素区域上对复杂的颜色交互进行建模。像素融合。通过对I0、I1中的所有输入像素应用M2M变形,我们得到完整的变形像素集其 中 多 个 目 标 像 素 可 对 应 于 相 同 的 pixel 位 置 :I=1→t。为了融合重叠的像素,我们测量每个像素本文从时间相关性、亮度一致性和信度得分三个方面对亮度的1) 时间相关性表征不基于运动的变化(例如,照明改变)。 为了简单起见,我们采用线性插值,如果i来自I 0,则设置ri=1 t,否则设置ri=t,其中t是所需的插值时间。2) 亮度一致性bi通过向后扭曲将帧与其目标进行比较来指示遮挡:.−1·||I0(i)−I1(i+F0→1(i))||1,如果i∈I0,如果扭曲的像素i映射到像素位置j。我们注意到,我们的最终融合函数类似于Soft-Splat[28]的softmax加权形式,但我们的方法在三个方面有所不同首先,我们提供了一个直接在像素颜色域中操作的解决方案,而Soft-Splat则使用图像合成网络来代替。其次,我们提出了一个通用的框架,融合像素从多帧,而SoftSplat融合每个帧单独。第三,我们引入了基于学习的可靠性分数,以数据驱动的方式融合重叠像素,而SoftSplat使用特征一致性。4. 实验在该部分中,我们随后将我们提出的建议与相关的最先进的帧内插技术进行比较,并对其进行定量和定性分析4.1. 数据集我们在Vimeo90K的训练分割上监督我们提出的方法,并在各种数据集上进行测试,总结如下:bi=−1·||I1(i)−I0(i+F1→0(i))||1,如果i∈ I1,(三)1)Vimeo90K [46],测试分割包含3,782个三元组,分辨率为448×256像素。2)UCF101[41],子运动矢量到t,并得到变形像素的集合,It( j)=(四)3559××不×·××× ×××SepConv [30]N/A9310133.79.97034.78.96727.40.95034.77.92932.06.880DAIN [2]7121308977✓34.71.97635.00.96827.38.95535.97.94033.51.898Cain [7]N/A294734.65.97334.98.96925.28.95235.21.93732.56.901AdaCoF [16]N/A1173634.47.97334.90.96827.75.95034.82.92732.19.882[28]第二十八话95218122✓36.10.98035.39.97028.22.95736.62.94433.60.901BMBC [32]4413761213✓35.01.97635.15.96927.68.945––––RIFE [11]N/A201735.51.97835.25.96928.59.95336.15.96233.27.942ABME [33]N/A54949736.18.98135.38.97028.71.95935.18.96432.36.940M2M-PWC87<132✓35.40.97835.17.97029.03.95936.45.96733.93.945M2M-DIS61<128✓35.06.97635.13.96828.95.95636.14.96533.25.942表1.Vimeo90K、UCF101、ATD12K和Xiph数据集上的定量结果我们基于640 × 480输入计算模型包含大小为256 × 256像素的人类动作视频的数据集。Liu等人选择了一组379个三胞胎。[19]作为帧插值的测试集。3)Xiph [25],由Niklaus 等人提出。[28]其中“Xiph-2K”是通过下采样4K镜头生成的,而“Xiph-4k”是基于中心裁剪的2K补丁。4)ATD12K [17],包含来自各种动画视频的2,000个三元组,分辨率为960 480像素。5)X-TEST [39],来自X4 K1000 FPS [39]的测试集,包含从4K视频中以1000 fps提取的15个场景我们将原始分辨率表示为X-TEST(4K),并且通过将X-TEST(4K)下采样2倍来另外采用X-TEST(2K)。4.2. 培训我们以端到端的方式训练我们提出的管道。给定输出 It 和 地 面 真 实 值 Igt , 我 们 将 训 练 损 失 定 义 为Charbonnier 损 失 [4] 和 普 查 损 失 [21] 之 和 ,L=Lchar+Lcen。 为了训练模型,我们利用Vimeo90K训练分割的51,312个三元组[46]。我们应用随机数据增强,包括空间和时间翻转,颜色抖动,ING,随机裁剪与256 256补丁。我们采用Adam [20]进行优化,权重衰减为1 e-4。我们训练模型进行40万次迭代,批量大小为8,在此期间,学习率通过余弦退火从1 e-4衰减到0 。 所 有实 验 都 是 使用 PyTorch实 现 的, 并 在 单 个Nvidia Titan X上执行。4.3. 与最新技术水平的我们报告了两个变种,我们提出的方法的基础上不同的方法来估计现成的运动矢量。“M2M-PWC” isbased on PWC-Net [在这种情况下,我们在训练过程中联合优化PWC-Net,并以原始分辨率的1/4生成初始流。另一种变体基于DISFlow [15],并表示为“M2M-DIS”。在我们的实验中,我们为每个像素生成N=4个子运动矢量为了比较,我们重新-端口最近的VFI方法的性能,包括:SepConv [30],DAIN [2] CAIN [7],AdaCoF [16],Soft-[28][29]我们首先在Tab中分析这些模型的计算成本1.一、我们将与所需帧速率无关的所需计算表示为“共享”,否则表示为“不共享”。因此,可以通过“# share+ n #unshare”来计算用于内插n个帧的无运动方法(包括SepConv、CAIN和AdaCof)和纯基于双边运动的方法( 如 RIFE 和 ABME ) 没 有 共 享 计 算 ( 表 示 为 像SoftSplat和BMBC这样的AP方法可以插入任意帧,但仍然受到高计算和非共享计算的影响。 例如,在8插值设置中,它们分别采用1.6 TFLOP和3.1 TFLOP。相比之下,我们的M2M总共只需要0.1 TFLOP。图6(a) 将不同方法的平均运行时间与变化的内插因子进行比较。我们的方法比多帧设置中的所有其他方法都快。对于16插值,我们的方法需要大约5 ms的插值时间一帧,分别比RIFE、SoftSplat和ABME快5、20和100左右。抛开效率不谈,我们的方法在多个数据集上实现了最先进的性能。2插值的度量如表1所示。1.一、在Vimeo90K和UCF101上,我们的M2M方法与最近提出的实时方法RIFE相当,性能略差于SoftSplat和ABME。在Xiph-2K上,我们的M2M方法实现的PSNR略低于SoftSplat,但在所有方法中实现了最高的SSIM。此外,在动画数据集ATD 12 K和高分辨率数据集Xiph-这证明了我们的方法GFLOPS速度任意Vimeo90KUCF101ATD12KXIPH-2KXiph-“4k”分享取消分享ms/fInterp.PSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIM3560PSNR×××××××1200BMBC33DainM2M-PWCABME300ABME31SoftSplatCAIN29DainSoftSplatRIFE303 2x4 x8x16AdaCofRIFEM2M-PWC272523123456 7AdaCoFSepConv该隐插值因子时间步长表3. Vimeo90K上的消融实验(PSNR),(a)(b)第(1)款图6.评估多帧插值。(a)在对数尺度下,使用不同的插值因子对640 480个视频帧进行插值。(b)X-TEXT(2K)上8次插值的每帧精度。最好用彩色观看。X-TEST(4K)X-TEST(2K)不同的初始流方法。“MRN”N=1N =2N =4N =8PWC-NetPSNR35.24 35.35 35.40 35.3916 16 17 20DISFlow峰值信噪比34.93 34.98 35.06 35.071212 13 15表2. X-TEST数据集上8插值的定量结果。 †表示使用X-TRAIN训练的模型。表示数字是从[33]复制的。所有运行时间都在X-TEST(2K)上测量。跨域实现,如动画视频。我们报告了X-TEST数据集上8插值的结果,该数据集包含具有高分辨率和高帧速率的不同序列,在Tab中。二、我们的M2M方法在原始4K全分辨率(40962160)和下采样2K分辨率(2048 1080)上都优于所有以前的方法,在效率上具有实质性的优势。对于使用Vimeo90K训练的模型,ABME在4K和2K设置下都实现了第二好的PSNR,但插值2K帧需要2,904 ms,比M2M慢近70。为了评估时间一致性,我们比较了图中每个插值时间步长第6(b)段。我们发现,以前的方法在对输入之间时间居中的帧进行插值时往往会恶化这表明M2M不仅以更好的质量而且以更高的时间一致性来内插帧。4.4. 方法分析模块消融。我们首先在Tab中分析我们方法的不同组件3 .第三章。我们联合流编码(JFE)和低秩特征调制(LFM)已经可以显著提高性能,0.97 PWC-Net和DISFlow分别为2.38 dB和2.38 dB。进一步应用JFE或LFM导致两种现成的流量方法的改善超过0.15 dB同时使用JFE和LFM有助于将性能分别提高到35.15 dB和34.78 dB在最后两行中,我们还显示了由细化网络生成并用于像素融合的可靠性分数的影响。如果没有该评分,则per-cycle降低,因此与仅使用光一致性相比突出了该度量的重要性每像素流数的影响选项卡. 图4比较了使用不同数量的子运动矢量用于M2M溅射的效果。当N=1时,它减少了到M2O映射的翘曲,并达到最低的精度。当N增加到4时,M2M将精度提高了0.1 dB以上,运行时间增加了非常小的增量(1 ms)。此外,如最后一行所示,我们注意到进一步增加子运动矢量的数量会导致边际改进。图7示出了M2O溅射和M2M溅射的视觉结果。分辨率对初始流估计的影响我们的方法依赖于现成的光流估计器来生成初始流。然而,大多数光流估计模型使用相对低的分辨率进行训练直接应用它们来估计2K或4K时的流量(ms/f)MRN JFE LFM RSPWC-NetDISFlow33.97 31.93✓34.9434.32✓ ✓35.0934.59✓ ✓35.0734.51✓ ✓ ✓35.1534.78✓ ✓ ✓ ✓35.2434.93Cain [7]22.51.77523.62.773287表4. 分析了子运动矢量个数对运动矢量的影响,AdaCoF [16]23.90.72726.03.778234在Vimeo90K上的多对多飞溅中,每个像素的参数[28]第二十八话25.48.72529.73.824318有两个不同的初始流量估计器。RIFE [11]24.67.79727.49.806104ABME [33]30.16米 0.879毫米口径30.65.9122904从每个像素单个运动矢量开始第一[39]第三十九话30.12.87030.85.913203行演示了直接使用现成的流M2M-PWC30.81.91232.070.92344因为翘曲导致次优精度。所示PSNRSSIMPSNRSSIM(ms/f)SepConv [30]23.94.79425.70.800693DAIN [2]26.78美元0.807毫米口径29.33.91031323561(a)重叠输入(b)初始流量(c)N=1(d)N=4(e)地面实况图7.多对一溅射和多对多溅射的比较。给定输入帧(a),具有初始流(b)或单个细化的子运动矢量(c)的M2O飞溅导致具有复杂运动的区域的不期望的视觉伪影。相比之下,我们提出的具有四个子运动矢量的M2M溅射(b)可以以高得多的质量进行内插。R=Xiph-2K Xiph-1 36.15 32.94 28.35 24.85236.4533.76 31.004 36.3633.93 32.0735.74 33.75 31.6530.81136.14 33.2531.0330.186.04.02.00.0PWC-Net DISFlow初始流量N=1 N=2 N=4 N=8236.05 33.1831.184 35.73 32.94 30.54 29.682019年12月31日星期一表5.应用初始光流估计器的分辨率的影响。看跌期权可能导致次优结果。因此,我们研究了初始流五、由于PWC-Net是基于学习的,并且在小分辨率上进行了预训练,因此它在处理高分辨率帧时的效率较低,这一点可以通过4K数据的插值质量降低来证明。通过对输入进行4倍或8倍的下采样,准确性显著提高。相比之下,DISFlow不受监督,因此不太容易受到类似领域差距的影响。讨论和限制。虽然我们的方法实现了非常高的效率,特别是对于高帧率插值,但它在低分辨率数据集(如Vimeo90K)上的准确性落后于几种最先进的方法。我们相信,仔细调整和扩大模型容量可以使M2M与这些最先进的方法竞争。所提出的方法基于前向扭曲渲染中间帧,这可能会在输出中出现孔。在图8中,我们计算了Vimeo90K上不同配置的剩余孔的平均数量(以像素为单位)。正如我们所看到的,我们的M2M飞溅与N=4仍然受到约0.5像素的孔,在每个图8.多对多溅射中剩余孔的数量(以像素为单位)与子运动矢量的数量的分析帧平均。然而,与初始的基于单个子运动的M2O溅射相比,我们的方法显著减少了孔的数量我们的方法的另一个限制是多对多溅射过程可能导致模糊,如图7(d)所示。这可以通过进一步改进融合策略或应用轻量级网络来细化输出来解决。5. 结论在这项工作中,我们提出了一个多对多的飞溅技术,nique有效地插入中间视频帧。我们首先设计一个运动细化网络,为每个像素生成多个子运动矢量。然后应用这些子运动场以将像素向前扭曲到任何期望的时间步长,然后将其融合以获得最终输出。通过共享用于流细化的计算,并且仅需要很少的计算来生成每帧,我们的方法特别适合于多帧插值。在多个基准数据集上的实验表明,该方法具有较高的效率.Acknowledgements.Acknowledgements. 这项工作得到了DARPA和NSF的部分支持。PWC-NetDISFlow3562引用[1] Simon Baker 、 Daniel Scharstein 、 JP Lewis 、 StefanRoth、Michael J Black和Richard Szeliski。光流数据库和评价方法。国际计算机目视,92(1):1-31,2011.一、二、五[2] Wenbo Bao , Wei-Sheng Lai , Chao Ma , XiaoyunZhang,Zhiyong Gao,and Ming-Hsuan Yang.深度感知视频帧插值。在CVPR,2019年。一、二、六、七[3] Wenbo Bao,Wei-Sheng Lai,Xiaoyun Zhang,ZhiyongGao,Ming-Hsuan Yang.MEMC-NET:运动估计和运动补偿驱动的神经网络,用于视频插值和增强。 IEEETrans. 模式分析马赫内特尔,2019年。2[4] Pierre Charbonnier、Laure Blanc-Feraud、Gilles Aubert和Michel Barlaud。计算成像的两种确定性半二次正则化算法。载于ICIP,1994年。6[5] Wanli Chen,Xinge Zhu,Ruoqi Sun,Junjun He,RuiyuLi,Xiaoyong Shen,and Bei Yu.用于语义分割的张量低秩在ECCV,2020年。4[6] 程先航和陈振中通过可变形可分离卷积的视频帧在AAAI,2020年。第1、3条[7] Myungsub Choi , Heewon Kim , Bohyung Han , NingXu,and Kyoung Mu Lee.通道注意力是视频帧插值所需的全部在AAAI,2020年。一、三、六、七[8] 崔明燮,李秀英,金熙媛,李基武。运动感知的动态架构,有效的帧内插。ICCV,2021。第1、3条[9] 丁天宇,梁鲁明,朱智辉,Ilya Zharkov。Cdfi:压缩驱动的帧内插网络设计在CVPR,2021年。第1、3条[10] 董伟胜,施光明,胡晓成,马毅。光流估计的非局部稀疏低秩正则化 IEEE Trans. 图像处理。,23(10):45274[11] 黄哲伟,张天元,温恒,石博新,周书昌。Rife:用于视频帧插值的实时中间流估计。arXiv预印本arXiv:2011.06294,2020。一、二、六、七[12] Huaiizu Jiang , Deqing Sun , Varun Jampani , Ming-Hsuan Yang,Erik Learned-Miller,and Jan Kautz. Superslomo:用于视频插值的多个中间帧的高质量估计。在CVPR,2018年。一、二[13] Tarun Kadhi,Deepak Pathak,Manmohan Chandraker和Du Tran。Flavr:用于快速帧插值的流无关视频表示。arXiv预印本arXiv:2012.08512,2020。第1、3条[14] Tamara G Kolda和Brett W Bader。张量分解及其应用。SIAM review,51(3):455-500,2009. 4[15] Till Kroeger,Radu Timofte,Dengxin Dai,and Luc VanGool.使用密集逆搜索的快速光流在ECCV,2016年。一、二、三、六[16] Hyeongmin Lee , Taeoh Kim , Tae-young Chung ,Daehyun Pak,Yuseok Ban,and Sangyoun Lee.Adacof:用于视频帧插值的自适应在CVPR,2020年。一、三、六、七[17] 李浩鹏,袁媛,王琦视频帧插值通过残差细化。在ICASSP。美国电气与电子工程师协会。6[18] Yihao Liu,Liangbin Xie,Li Siyao,Wenxiu Sun,YuQiao,and Chao Dong.增强的二次视频插值。在ECCV,2020年。1[19] Ziwei Liu , Raymond A Yeh , Xiaoou Tang , YimingLiu,and Aseem Agarwala.使用深体素流的视频帧合成。InICCV,2017. 二、六[20] 伊利亚·罗希洛夫和弗兰克·哈特。修正亚当中的权重衰减正则化。2018. 6[21] Simon Meister,Junhwa Hur,and Stefan Roth. Unflow:对具 有双 向集 中损 失的 光流进 行无 监督 学习 。在AAAI,2018。6[22] 我是一个Me yer,维克多·科尼尔·Le`re,阿卜杜拉齐兹·杰卢阿,克里斯托弗·施罗德和马库斯·格罗斯。深度视频色彩传播。BMVC,2018年。1[23] SimoneMeyer、AbdelazizDjelouah、BrianMcWilliams、Alexander Sorkine-Hornung、Markus Gross和Christo-pher Schroers。用于视频帧插值的相位网。在CVPR,2018年。1[24] Simone Meyer、Oliver Wang、H
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功