没有合适的资源?快使用搜索试试~ 我知道了~
5049叠加输入地面实况PWC-净运动内插帧我们的动内插帧用于视频帧内插的增强型双向运动估计辛金1龙海吴1沈国涛1陈有信1陈杰1 古俊云2韩卓熙21三星电子(中国)研发中心2韩国三星电子{xin. jin,longhai. wu,guotao. shen,yx113.chen,ada. chen,j.goo,chhahm}@ samsung.com图1. 前两列:覆盖输入和地面实况帧。中间两列:PWC-Net [32]的运动场(从第一帧到第二帧)和相应的插值。PWC-Net使用我们的帧合成网络进行端到端训练。最后两列:运动场和由我们的双向运动估计器(比PWC-Net小15倍)和合成网络插值的帧摘要提出了一种简单有效的基于运动的视频帧内插算法.现有的基于运动的内插方法通常依赖于现成的光流模型或基于U-Net的金字塔网络来进行运动估计,其在处理各种具有挑战性的运动情况时遭受大的模型尺寸或有限的容量在这项工作中,我们提出了一种新的紧凑的模型来模拟估计输入帧之间的双向运动它的设计是通过仔细调整输入(例如,翘曲、相关)在光流研究中用于在柔性金字塔递归框架内的同时双向运动估计我们的运动估计器非常轻巧(比PWC-Net小15倍),但能够可靠地处理大型和复杂的运动情况。基于估计的双向运动,我们采用合成网络来融合前向扭曲表示并预测中间帧。我们的方法在广泛的帧插值基准上实现 了 优 异 的 性 能 代 码 和 训 练 模 型 可 在https://github.com/srcn-ivl/EBME上获得。1. 介绍视频帧内插的目的是通过在原始连续帧之间合成不存在的中间帧来提高视频的帧速率增加帧速率有利于人类感知[13],并且在新颖视图合成[7]、视频压缩[19]、自适应流[34]等。帧插值的关键挑战是输入帧和中间帧之间可能存在复杂的大运动。基于是否采用运动模型来捕获每像素运动(即,光流),现有的方法可以分为两类:运动不可知方法[25,22,5,6]和运动不可知方法[25,22,5,6]。基于方法[12,17,23,3,24,26,27,20]。与最近在光流[11,9,32,33]中的进步,基于运动的内插已经发展成为一种有前途的框架。基于运动的插值包括两个步骤:(i)运动估计和(ii)帧合成。运动场被估计以引导中间帧的合成,通过向前扭曲[23,24]或向后扭曲[12,27,30]输入帧朝向中间帧。前向扭曲由从输入帧到中间帧的运动引导,而后向扭曲需要反向运动特别地,当输入帧之间的双向运动已经被估计时,从输入帧到前向扭曲所需的任意中间帧的运动可以通过线性缩放运动幅度来容易地近似[23,24]。双向运动估计是大多数基于运动的插值方法的关键步骤[23,24,12,2,30]。许多现有的方法[23,2,24]采用现成的光流模型(例如,PWC-Net[32])用于双向运动,然而,其具有较大的模型大小,需要运行模型两次,并且几乎无法处理超出训练数据的超大运动。最近,提出了一种BiOF-I模块[30],用于同时进行。5050叠加输入地面实况放大局部细节(见图2)。通过大量的实验验证了EBME增强尽管其模型尺寸较小,但EBME在广泛的基准测试中表现优于最先进的方法,从低分辨率UCF 101 [31],Vimeo 90 K [35]到中等分辨率SNU-FILM [6]和极高分辨率4K 1000 FPS[30]。2. 相关工作光流和相关体积。光流是一种低级视觉任务,其目的是估计连续帧之间的每像素现代光流模型(a) 估计的双向运动(b)插值图2. PWC-Net[32]、 BiOF-I[30]和我们的运动估计器,当与我们的合成网络结合用于帧内插时。由于缺乏相关体积,BiOF-I无法捕获手指的运动。OUS双向运动估计。它基于灵活的金字塔递归结构,可在测试中自定义金字塔级别,以处理大的运动。在每个金字塔级别,BiOF-I使用当前运动估计将两个输入帧的特征朝向彼此向后弯曲,并采用共享的普通U-网来细化当前运动。然而,由于缺乏相关体积,U-Net对于光流过于简化,这是现代光流模型的重要组成部分[32,33]。在这项工作中,我们提出了一个简单而有效的帧内插算法。我们的主要贡献是一种新的双向运动估计。在一个灵活的金字塔式循环框架中,我们调整了成分(例如,翘曲、相关)来同时估计输入帧之间的双向运动。特别地,在每个金字塔级别,我们将两个输入帧向前扭曲到隐藏的中间帧。这种面向中间的前向扭曲提高了对大运动的鲁棒性,并允许我们构建一个单一的相关体积,同时双向运动估计。基于估计的双向运动,我们将输入帧及其上下文特征前向扭曲为中间帧,并采用合成网络从扭曲表示预测中间帧。我们的双向运动估计,使更好的插值性能比其单向对应需要运行两次。 它比PWC-Net [32]小15倍,但可以更好地处理大运动情况并产生更好的插值结果(见图1)。与BiOF-I [30]相比,我们的运动估计器可以捕获快速移动的小物体的运动,为ELS [32,10,33]遵循类似的设计理念:提取两个输入帧的CNN特征,用CNN特征构建相关体积,并在金字塔结构[32]或固定的高分辨率[33]上更新流场。相关体是光流场的判别式表示,它存储了两帧图像像素之间的匹配分数。在构建相关体之前,通常采用向后扭曲来将第二帧与第一帧对准以补偿估计的运动。通过扭曲操作(和下采样特征),具有有限匹配范围的部分相关体积足以进行光流估计[32]。帧插值的现成流模型。PWC-Net[32]和RAFT[33]是两个代表性的现代光流模型。特别地,PWC-Net已被广泛用于帧内插,以通过运行两次来估计双向运动[2,23,24]。PWC-Net构建了一个6级特征金字塔来处理大的运动。在每一层,利用当前运动估计将第二帧的运动特征向后弯曲到第一帧,并将弯曲后的运动特征和第一帧的运动特征构造相关体,然后从相关注入表示中推断出细化运动现成的光流模型有两个缺点时,帧内插应用。首先,它们通常具有大量参数。第二,当端到端的训练与合成网络帧插值,他们往往过拟合的运动幅度的训练数据。我们的双向运动估计器借鉴了现代光流模型的一些设计,但更轻巧,对大运动鲁棒,并专门针对同时双向运动估计进行了优化。用于帧插值的U-Net运动估计器。 U-Net[29]为密集预测任务提供了一个强大的框架。近年来,U-Net和基于U-Net的金字塔网络已被用于估计双向运动。我们BiOF-IPWC-Net5051图像金字塔0图像金字塔1最后估计在金字塔各级共用的经常单位上采样············线性标尺输入帧正向映射<·,·>CNN预测器相关性············线性标尺光特征编码器上采样细化的运最后估计上下文特征(a)双向运动估计线性标尺正向映射∈插值U-Net(b) 帧合成图3.我们的帧插值流水线概述。(a)我们重复地在图像金字塔上应用新的递归单元来细化输入帧之间的估计双向运动递归单元集成了面向中间的前向扭曲、轻量级特征编码器和用于同时双向运动估计的单个相关体积。(b)基于估计的双向运动,我们对输入帧及其上下文特征进行前向扭曲,并使用合成网络来预测中间帧。运动[12,30]或双边中间运动[36,8]用于帧插值。然而,由于缺乏基于相关性的表示,这些模型在处理挑战动作(例如,局部复杂运动、小的快速移动物体)。此外,类似于现成的光流模型,普通的U-Net很难估计超出训练数据的超大运动。灵活的金字塔经常性运动估计。通过对特征编码器和运动更新器的重新设计,最近提出的金字塔递归运动估计器可以灵活地处理极端大的运动情况[36,30,15]。由于递归单元(基本估计器)可以多次应用于金字塔结构,因此在测试中使用更大数量的金字塔级别可以处理训练阶段之外的更大运动。BiOF-I模块[30]结合了U-Net和金字塔递归结构,用于同时进行双向运动估计。虽然BiOF-I能够实现出色的高分辨率帧插值1,但其基于U-Net的递归单元过于简化,无法处理具有挑战性的运动情况。 Lee等[15]提出了金字塔递归网络中的增强相关匹配(ECM)。然而,它不是设计用于同时双向运动估计。此外,BiOF-I将输入帧朝向彼此向后扭曲,并且ECM将一个输入帧朝向另一个输入帧向前扭曲。根据我们的实验,这两种变形策略在大运动的情况下都不是最佳的。帧插值的前向扭曲。 相比用于帧插值的流水线然而,前向扭曲较少用于帧内插,部分原因是它可能导致扭曲输出中的孔。Niklaus和Liu[23]证明了这个问题可以通过扭曲两个输入帧来解决。一个变形帧中的空洞可以由来自另一个变形帧的上下文信息前向扭曲的另一个限制是源图像中的多个像素可能被映射到同一目标位置。为了解决这个问题,开发了softmax splatting[24]来自适应地为冲突像素分配权重。随着前向变形的最新进展,我们采用前向变形的运动估计和帧合成。特别地,我们使用[24]中的平均飞溅操作作为前向扭曲,其直接对冲突像素进行平均以生成目标位置中的像素平均飞溅是简单的softmax飞溅操作依赖于一个置信图。3. 我们的方法3.1. 管道概述如图3所示,我们的帧插值流水线包括两个步骤:(a)双向运动估计,以及(b)帧合成。我们的主要创新是双向运动估计。形式上,给定两个输入帧I0和I1,我们的目标是预测任意时间t(0,1)的中间帧It。首先,我们使用我们的新的双向运动估计器来计算运动F0→1和F1→0之间,I0和I1,并线性缩放它们以获得F0→t和F1→t,即,从I0和I1到It的运动:相对于后向扭曲,前向扭曲所需的运动场更容易获得,因此能够实现更简单的F0→t=t·F0→1F1→t=(1−t)· F1→0(一)1这是通过在4K数据集上训练,并结合额外的模块来近似向后的双边中间运动来实现的。与F0→t 和F1→t,我们向前扭曲输入帧,基于扭曲的帧合成。它们的上下文特征,并将扭曲的表示馈送到堆叠5052中国0的情况。5一个合成网络来预测It。合成网络输出用于组合被包装的帧的掩模M和用于进一步细化的残差图像MtI=M→(I,F→t)+(1−M)→(I1,F 1→t)+It(2)tW0 0W→(a)叠加输入(b)从100到101的(c) 从2001年到2000年的运动哪里表示逐元素乘法,表示前向扭曲操作(平均飞溅[24])。在测试中,我们的双向运动估计器可以在灵活的可定制图像金字塔上操作,以处理大的运动。由于运动幅度与分辨率成比例,我们提出了一种简单的方法来计算金字塔的数量(d) 前向翘曲0.00(e) 后向翘曲的(f) 我们扭曲的身体测试中的水平假设训练中的金字塔层数为Ltrain,测试图像的平均宽度(或高度)为训练图像的n倍然后,我们可以计算测试金字塔的层数,如下所示。Ltest=ceil(Ltrain+log2n)(3)其中ceil()将浮点数舍入为整数。3.2. 双向运动估计金字塔递归框架和递归单元。如图3(a)所示,我们的双向运动估计器的宏观结构是金字塔递归网络。给定两个输入帧,我们首先为它们构造图像金字塔,然后在金字塔层上重复应用一种新的递归单元,以从粗到细地细化估计的双向运动。在每个金字塔级别,我们首先对来自前一级别的估计的双向运动进行上采样作为初始运动(顶层的零初始化)。基于缩放的初始运动,我们将两个输入帧向前扭曲到隐藏的中间帧。然后,我们采用一个非常轻量级的特征编码器来提取两个扭曲帧的CNN特征。最后,我们构造了一个相关卷与CNN特征的翘曲帧,并估计双向运动相关注入的功能。下文详细介绍了我们经常性单位的三个关键组成部分:面向中间的前向变形、极其轻量级的特征编码器和基于相关性的双向运动估计。中观导向的前向翘曲。将两个输入帧朝向彼此扭曲是用于同时双向运动估计的自然想法[30]。然而,这带来了两个缺点。首先,在大运动的情况下,它可能导致扭曲输出中的严重伪影(参见图4(d)和(e))。第二,需要两个(而不是一个)相关体积来记录两个原始帧和朝向它们扭曲的帧之间的匹配分数考虑到这些 在第i金字塔级, 我们首先向前扭曲两个输入帧Ii和Ii朝向隐藏的图4. 大运动情况下不同翘曲策略的比较。我们的面向中间的向前扭曲可以减少扭曲引起的可能的伪影,因为它使用具有较小幅度的线性缩放运动。比初始运动小由于减少了运动幅度,我们的面向中间的向前扭曲有机会减少扭曲引起的可能伪影的影响(见图4(f))。此外,扭曲两个输入帧的隐藏帧允许我们构建一个单一的角相关体积同时双向运动估计。非常轻量级的功能编码器。像PWC-Net[32]这样的金字塔光流模型通常需要具有许多下采样层的特征编码器来构建特征金字塔。为了处理大的运动,PWC-Net采用了6个下采样层的特征编码器。我们的运动估计器通过自定义外部图像金字塔的金字塔级别数来处理大运动因此,内部递归单元中涉及的特征编码器不需要许多下采样层。我们采用了一个非常轻量级的特征编码器,只有两个下采样层来提取两个扭曲帧的CNN特征。它只有大约0.1M的参数,而PWC-Net基于相关性的双向运动估计。现有的作品在一个原始帧和向其扭曲的另一帧之间构建相关体积,以估计输入帧之间的单向运动[32,15]。而对于同时双向运动估计,如果输入帧朝向彼此翘曲,则需要两个相关体积。相反,我们使用已经补偿了估计的双向运动的两个扭曲帧的CNN特征来构建用于同时双向运动估计的单个遵循PWC-Net[32],我们在sec的特征图上设置本地搜索范围,0 1中框Ii,使用线性缩放的运动,第二个扭曲的框架为4。我们将相关性连接起来-5053不××××××不不卷积神经网络、CNN特征和上采样的双向运动以形成输入特征,并使用6层卷积网络来预测双向运动。由于我们的特征编码器具有两个下采样层,因此估计的运动是输入帧的1/4分辨率我们使用双线性插值来将运动放大到原始尺度。3.3. 帧合成基于估计的双向运动,我们采用一个合成网络来预测中间帧从向前翘曲表示。EBME-H扩 展:它使用 EBME-H 的测试时 间增强(参见第3.5节),使计算成本加倍,但进一步提高了性能。3.5.实现细节损失函数为了与最近的作品进行公平的比较,所有模型都只使用合成损失进行训练,没有对运动的辅助监督 。 我 们 的 损 失 是 地 面 真 实 IGT 和 插 值 It 之 间 的Charbonnier损失[4]和普查损失[21]的加权和:L=ρ(IGT−It)+λ·Lcen(IGT,It),(4)一个简单的基线合成网络。我们的合成网络遵循先前上下文感知合成网络的设计[24,8],其将扭曲帧和扭曲上下文特征作为输入。我们为两个输入帧提取4级金字塔上下文特征。我们采用一个简单的U-网络作为我们的合成网络,它有四个下采样层,和四个上采样层。它将变形帧、变形上下文特征、原始图像和双向运动作为输入,并且输出用于组合变形帧的掩码M和用于进一步细化的残差图像Mt(参见等式2)。 我们把这个合成网络称为我们的基本合成网络。使用凸下采样的高分辨率合成。较高分辨率的输入通常对密集预测任务具有优势[28,16]。我们验证这一帧合成。具体来说,我们对输入帧进行上采样,并将双向运动估计到2x分辨率,将它们馈送到我们的合成网络,并获得2x分辨率插值。为了恢复原始比例,我们在合成网络中添加了一个轻量级头,以预测2x分辨率插值上步幅为2的像素的5个动态滤波器这些过滤器允许我们采取凸加权组合,在2x分辨率插值上的5个邻域,以预测原始尺度的目标帧的每个像素。这种凸下采样策略实现了比双线性下采样更好的性能,在SNU-FILM [6]的“极端”子集上提高了0.1 dB。我们将这种结构称为高分辨率合成网络。3.4.架构变体我们将我们的帧内插方法命名为EBME-增强的我们构建了三个版本的EBME,几乎相同的模型大小,但增加了计算成本:EBME:它将我们的双向运动估计器与合成网络的基本版本相结合。EBME-H:它将我们的运动估计器与高分辨率版本的合成网络相结合。其中ρ(x)=(x2+λ2)α是Charbonnier函数,Lcen是普查损失,λ是权衡超参数。我们根据经验设定α=0。5,λ = 10−6,λ= 0。1.一、训练数据集。我们在Vimeo90K数据集上训练我们的模型[35]。Vimeo90K包含51,312个三元组,分辨率为448,256。我们通过随机裁剪256 256块来增强训练图像。我们还应用随机翻转,旋转,反转三元组的顺序进行数据扩充。优化. 我们的优化器是AdamW [18],对于0.8M次迭代,权重衰减为10−4,使用批量大小为32。我们使用余弦退火将训练过程中的学习率从2×10−4逐渐降低到2×10−5测试时间增强。我们验证了[8]中描述的实践策略。我们水平和垂直翻转输入帧以获得增强的测试数据,并使用我们的模型来推断两个结果并反转翻转。通过平均这两个结果可以获得更稳健的预测。4. 实验4.1. 实验设置评价数据集。虽 然 我们的方法仅在Vimeo90K上训练[35],但我们在具有不同分辨率的广泛基准上对其进行评估。UCF 101[31]:UCF 101的测试集包含379个三元组,分辨率为256 256。UCF101包含了各种各样的人类行为。• Vimeo90K:Vimeo90K的测试集包含3,782个三元组,分辨率为448×256。SNU-FILM[6]:该数据集包含1,240个三元组,其中大部分的分辨率约为1280 720。它包含四个具有递增运动尺度的子集• 4K1000FPS:这是一个4K分辨率基准测试,支持多帧(×8)插值。·····5054Overlay inputs地面实况该隐AdaCoFABME我们的我们的方法UCF 101 Vimeo 90 KSNU-FILM参数运行时表1. 在UCF 101[31]、 Vimeo 90 K[35]和SNU-FILM[6]基准上与最先进方法进行定性(PSNR/SSIM)比较。红色:最佳性能,蓝色:第二佳性能。图5.对来自SNU-FILM“极端”子集的两个示例进行视觉比较[6]。 前两行显示了详细纹理的合成结果,而最后两行展示了复杂和大运动的结果。指标. 我们计算峰值信噪比(PSNR)和结构相似性(SSIM)的定量评价插值。对于运行时间,我们遵循[27]的实践,并使用RTX 2080 Ti GPU测试所有模型,用于在Middle-bury台架中插入mark[1],分辨率为640×480。自定义的金字塔层数。我们在低分辨率Vimeo90K上训练时使用3级图像金字塔[35]。 对于基准数据集,UCF101 [31]具有与Vimeo 90 K相似的分辨率,SNU-FILM具有约720 p的分辨率,4K 1000 FPS具有4K的分辨率。根据我们建议的公式3计算方法,我们将UCF-101、SNU- FILM和4K 1000 FPS的测试金字塔等级分别设置为3、5和7。4.2. 与最先进方法的我们与最先进的方法进行比较,包括DAIN [2],该隐 [6], SoftSplat [24], AdaCoF[14],[26],[27],[28],[29]。我们除了SoftSplat和ECM还没有发布完整的代码外,其他软件都通过执行源代码和训练的模型来报告结果对于SoftSplat和ECM,我们复制了原始论文的结果。为了在SNU-FILM上测试XVFIv,我们调整了缩放级别的数量,以便它与我们的运动估计器具有相同的下采样因子。参数和推理效率。如表1中的最后两列所示,我们的帧插值算法具有比最先进的方法少得多的参数,容易介质硬极端(百万)(秒)DAIN[2]34.71/0.97639.73/0.990 35.46/0.978 30.17/0.934 25.09/0.85824.00.15Cain[6]34.91/0.96934.65/0.97339.89/0.990 35.61/0.978 29.90/0.929 24.78/0.85142.80.04[24]第二十四话35.39/0.952 36.10/0.970------AdaCoF[14]34.90/0.968 34.47/0.97339.80/0.990 35.05/0.975 29.46/0.924 24.31/0.84422.90.03BMBC[26]35.15/0.96935.01/0.97639.90/0.990 35.31/0.977 29.33/0.927 23.92/0.84311.00.82ABME[27]35.38/0.97036.18/0.98139.59/0.990 35.77/0.979 30.58/0.936 25.42/0.86418.10.28[30]第三十话35.18/0.952 35.07/0.96839.78/0.984 35.37/0.964 29.91/0.894 24.73/0.7785.50.10电子对抗v[15]34.95/0.975----4.7-EBME(我们的)35.30/0.96935.58/0.97840.01/0.991 35.80/0.979 30.42/0.935 25.25/0.8613.90.02EBME-H(我们的)35.35/0.96936.06/0.98040.20/0.991 36.00/0.980 30.54/0.936 25.30/0.8623.90.045055PSNR SSIM叠加输入(4096x2160)地面实况XVFI我们的EBME我们的EBME-H图6. 4K1000FPS上的视觉比较[30]。XVFI[30]倾向于错过移动的小物体,而我们的EBME-H给出的插值结果接近地面实况。方法任意 复用流4K1000FPS4K分辨率多帧插值。表2报告了 4 K 1 0 0 0 F P S 上 的8倍插值结果。我们✓表2.比较4K1000FPS[35]的8倍插值。跑得很快。特别是,由于宏递归设计和轻量级的特征编码器,我们的双向运动估计器只有约0.6 M的参数。低分辨率和中等分辨率帧插值。表1报告了低分辨率UCF 101和Vimeo 90K数据集的比较结果。我 们的EBME-H测试仪在两个基准测试中都取得了最佳性能。我们的EBME还优于许多最先进的模型,包括DAIN,CAIN、AdaCoF、BMBC、XVFIv和ECM。表1还报告了SNU- FILM上的比较结果。我们的EBME-H和EBME-H在“硬”和“极端”子集上的性能与ABME[27]相似,但在“容易”和“中等”子集上具有更好的值得注意的是,我们的模型大约比ABME,跑得更快。图5给出了来自SNU-FILM的“极端”子集的两个示例。我们的方法产生更好的插值结果比ABME的一些详细的纹理(前两行),并给出了有前途的结果,为大运动的情况下(最后两行),比CAIN和AdaCoF好得多,比ABME好得多。相比之下,虽然XVFI[30]可以重用双向运动,但它必须在每个时间位置使用额外的网络来细化近似的中间流。图6显示了两个插值示例。我们的方法对移动小物体有更好的性能。XVFI中基于U-Net的金字塔运动估计器可能难以捕获极小对象的运动4.3. 运动估计算法我们提出了对SNU-FILM [6]的“硬”和“极端”子集的运动估计器的分析运动估计器的设计选择在表3中,我们报告了双向运动估计器的设计选择的消融结果。同时双向估计:我们的双向运动估计器比单向运动估计器性能更好,单向运动估计器将第一帧前向扭曲到第二帧,并利用扭曲的帧和第二帧构建增强体。我们运行单向对应两次,以获得双向运动。我们验证了同时双向运动估计可以提高每一个,DAIN[2]✓✓26.780.807SSIM方法的性能最好,但略有下降,AdaCoF[14]ABME[27]×××23.9030.160.7270.879PSNR结果低于ABME和XVFI注意XVFI是在4K高分辨率数据上训练的,而其他[30]第三十话EBME(我们的)✓✓部分✓30.1227.860.8700.881模型在低分辨率数据上训练。 我们的方法支持任意时间帧内插,完全可以EBME-H(我们的)✓✓28.720.889插值时重用估计的双向运动EBME-H系列(我们的)✓✓29.460.902不同时间位置的多个中间帧。通过·5056硬极值硬极端(M)叠加输入无相关运动具有相关性的地面实况插值插值实验方法SNU-FILM(PSNR↑)实验方法 SNU-FILM(PSNR ↑)参数相关性测试金字塔30.42表4. 帧插值的定量结果,通过层。更多的下采样层可能有利于大运动,但可能导致粗略的估计。两级特征编码器实现了最佳折衷。表3. 我们的双向运动估计器的设计选择的影响,与基本合成网络集成用于帧内插。默认设置以灰色标记。图7.如果没有相关体积,我们的估计器可能无法估计复杂的运动,并导致内插帧上的伪影我们的面向中间的变形也提高了对大运动的鲁棒性。变形类型:我们的中间导向的向前变形(表示为请注意,将输入帧彼此对齐需要为原始两帧和变形帧构建两个相关体积,而我们的变形方法可以构建单个相关体积。特征编码器:我们研究了特征编码器的三个设置:一个9层卷积级;第一级为3层,第二级为6层的两级结构;三阶段,每阶段3层。我们通过下采样将相关体积:从我们的运动模型中删除相关体积会导致较差的定量结果。此外,如图7所示,在没有相关体积的情况下,我们的估计器可能难以估计复杂的非线性运动,并导致局部区域中的模糊伪影。测试金字塔等级:5级图像金字塔在“极端”子集上实现了良好的性能进一步增加金字塔等级并不能得到更好的结果。这与我们建议的公式3描述的计算方法一致。运动质量比较。我们将我们的双向运动估计器与PWC-Net[32]和BiOF-I[30]进行帧插值比较。我们使用我们的基本合成网络从头开始端到端训练PWC-Net和BiOF-I。 我们调整了BiOF-I的标度水平数因此当在SNU-FILM上测试时,它具有与我们的双向运动估计器相同的下采样因子。我们从两个方面比较帧内插的运动估计器:通过平均两个向前扭曲的帧进行插值,以及通过我们的完整管道进行插值。如表4所示,我们的运动估计器在“极端”子集上实现了更此外,它的尺寸比PWC-Net和BiOF-I小得多。5. 结论本文提出了一种基于双向运动估计器的轻量级帧内插我们的方法在各种帧插值基准上都取得了优异的本文主要研究基于运动的帧内插,不追求光流基准上的运动精度。在未来,我们将验证我们的轻量级运动估计器的通用光流的有效性。···双向同时30.4225.25PWC-Net28.3723.599.4单向30.1925.12翘曲近似值BiOF-I28.1323.682.6向前30.3625.21我们28.6224.000.6翘曲型中前锋30.4225.25PWC-Net30.0424.5312.7落后30.2825.11全流水BiOF-I30.0324.805.91级30.3625.20我们30.4225.253.9特征编码器2级25.253阶段30.26 25.15PWC-Net[32], BiOF-I[30]和我们的运动估计器。·没有30.2925.17与30.4225.253电平30.1524.804级30.4225.205级30.4225.256级30.4025.225057引用[1] Simon Baker 、 Daniel Scharstein 、 JP Lewis 、 StefanRoth、Michael J Black和Richard Szeliski。光流数据库和评价方法。IJCV,2011年。[2] Wenbo Bao , Wei-Sheng Lai , Chao Ma , XiaoyunZhang,Zhiyong Gao,and Ming-Hsuan Yang.深度感知视频帧插值。在CVPR,2019年。[3] Wenbo Bao,Wei-Sheng Lai,Xiaoyun Zhang,ZhiyongGao,Ming-Hsuan Yang.MEMC-Net:用于视频插值和增强的运动估计和运动补偿驱动神经网络。TPAMI,2019。[4] Pierre Charbonnier、Laure Blanc-Feraud、Gilles Aubert和Michel Barlaud。计算成像的两种确定性半二次正则化算法。载于ICIP,1994年。[5] 程先航和陈振中通过可变形可分离卷积的视频帧内在AAAI,2020年。[6] Myungsub Choi , Heewon Kim , Bohyung Han , NingXu,and Kyoung Mu Lee.通道注意力是视频帧插值所需的全部在AAAI,2020年。[7] John Flynn,Ivan Neulander,James Philbin,and NoahSnavely. Deepstereo:学习从世界图像中预测新视图。在CVPR,2016年。[8] 黄哲伟,张天元,温恒,石博新,周书昌。RIFE:用于视频帧插值的实时中间流估计。arXiv预印本arXiv:2011.06294,2020。[9] Tak-Wai Hui,Xiaoou Tang,and Chen Change Loy. Lite-FlowNet:一种用于光流估计的轻量级卷积神经网络。在CVPR,2018年。[10] Junhwa Hur和Stefan Roth。联合光流和遮挡估计的迭代残差细化。在CVPR,2019年。[11] Eddy Ilg , Nikolaus Mayer , Tonmoy Saikia , MargretKeuper,Alexey Dosovitskiy,and Thomas Brox.FlowNet2.0:深度网络光流估计的演变在CVPR,2017年。[12] Huaiizu Jiang , Deqing Sun , Varun Jampani , Ming-Hsuan Yang,Erik Learned-Miller,and Jan Kautz.超级斯洛莫:用于视频内插的多个中间帧的高质量估计。在ICCV,2018年。[13] YoshihikoKuroki , HaruoTakahashi , MasahiroKusakabe,and Ken-ichi Yamakoshi.正常和高帧频运动图像刺激对EEG功率谱的影响:与连续运动图像刺激的比较。 Journal of the Society for Information Display,2014。[14] Hyeongmin Lee , Taeoh Kim , Tae-young Chung ,Daehyun Pak , Yuseok Ban , and Sangyoun Lee.AdaCoF:用于视频 帧插值的流的自适应 协作。在CVPR,2020年。[15] Sungho Lee,Narae Choi,and Woong Il Choi.基于增强相关匹配的视频帧内插。在WACV,2022年。[16] 刘泽,胡汉,林雨彤,姚祝良,谢振达,魏义轩,贾宁,曹跃,张征,李东,等. Swin Transformer v2:扩大容量和解决方案。arXiv预印本arXiv:2111.09883,2021。[17] Ziwei Liu , Raymond A Yeh , Xiaoou Tang , YimingLiu,and Aseem Agarwala.使用深体素流的视频帧合成。InICCV,2017.[18] 伊利亚·罗希洛夫和弗兰克·哈特。解耦权重衰减正则化。arXiv预印本arXiv:1711.05101,2017。[19] Guo Lu,Xiaoyun Zhang,Li Chen,and Zhiyong Gao.基于率失真优化的帧速率上转换和HEVC编码的新集成。TIP,2017年。[20] Liying Lu,Ruizheng Wu,Huijia Lin,Jiangbo Lu,andJiaya Jia.使用Transformer实现视频帧插值。在CVPR,2022年。[21] Simon Meister,Junhwa Hur,and Stefan Roth. Unflow:对具 有双 向集 中损 失的 光流进 行无 监督 学习 。在AAAI,2018。[22] SimoneMeyer、AbdelazizDjelouah、BrianMcWilliams、Alexander Sorkine-Hornung、Markus Gross和Christo-pher Schroers。用于视频帧插值的相位网。在CVPR,2018年。[23] 西蒙·尼克劳斯和凤琉。用于视频帧内插的上下文感知合成。在CVPR,2018年。[24] 西蒙·尼克劳斯和凤琉。Softmax splatting用于视频帧插值。在CVPR,2020年。[25] 西蒙·尼克劳斯、龙迈、风流。基于自适应可分离卷积的视频帧内InICCV,2017.[26] Junheum Park,Keunsoo Ko,Chul Lee,and Chang-SuKim. BMBC:双边运动估计与双边成本卷视频插值。在ECCV,2020年。[27] Park Junheum,Chul Lee和Chang-Su Kim用于视频帧内插的非对称双边运动估计。ICCV,2021。[28] 约瑟夫·雷德蒙和阿里·法哈迪Yolov3:一个渐进的改进。arXiv预印本arXiv:1804.02767,2018。[29] Olaf Ronneberger,Philipp Fischer,and Thomas Brox. U-Net:用于生物医学图像分割的卷积网络。在2015年医学图像计算和计算机辅助干预国际会议[30] Hyeonjun Sim,Jihyong Oh,and Munchurl Kim. XVFI:超实时视频帧插值. ICCV,2021。[31] Khurram Soomro、Amir Roshan Zamir和Mubarak Shah。UCF101:来自野外视频的101个人类动作类的数据集。arXiv预印本arXiv:1212.0402,2012。[32] 孙德清、杨晓东、刘明宇和Jan Kautz。PWC-Net:使用金字塔,扭曲和成本体积的光流CNN。在CVPR,2018年。[33] Zachary Teed和Jia Deng。RAFT:光流的循环全对场变换。在ECCV,2020年。[34] Jiyan Wu , Chau Yuen , Ngai-Man Cheung , JunliangChen,and Chang Wen Chen.无线网络中高帧率视频传输 的 建 模 与 优 化 。 IEEE Transactions on WirelessCommunications,2015。[35] Tianfan Xue,Baian Chen,Jiajun Wu,Donglai Wei,and William T Freeman.具有面向任务流的视频增强。IJCV,2019年。[36] Haoxian Zhang,Yang Zhao,and Ronggang Wang.用于视频帧内插的在ECCV,2020年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功