非对称双边运动估计的视频帧内插算法

128 浏览量更新于2023-10-14 收藏 1.79MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14539视频帧内插的非对称双边运动估计韩国朴润谦大学jhpark@mcl.korea.ac.kr哲李东国大学chullee@dongguk.edu昌洙金高丽大学changsukim@korea.ac.kr摘要提出了一种基于非对称双边运动估计（ABME）的视频帧内插算法。首先，我们预测对称的双边运动场插值锚帧。其次，我们估计从锚帧到输入帧的非对称双边运动场第三，我们使用非对称场来向后扭曲输入帧并重建中间帧。最后，为了改进中间帧，我们开发了一种新的合成网络，该网络使用局部和全局信息生成一组动态滤波器和残差帧= 0输入= 0.5（一）（b）第（1）款对称= 1不对称mation实验结果表明，该算法在不同的数据集上均取得了良好的性能。源代码和预训练模型可在https://github.com/JunHeum/ABME上获得。1. 介绍视频帧内插是一种低级视觉任务，通过在连续输入帧之间插入中间帧来增加视频序列的帧速率。它被广泛用于各种应用，包括视频增强[42]、视频压缩[25]、慢动作生成[16]和视图合成[11，18]。由于其实际重要性，已经提出了各种算法来增加视频帧速率[2，3，6这些算法可以分为三类：基于内核的[2，3，6，20，32，33]，基于阶段的[27，28]，以及基于运动的[2，3，13，16，22，23，30，31，34]。随着近期虽然在光流估计[9，14，17，21，35，39，43]方面取得了进展，他们用光流来预测一个中- 通过向前或向后扭曲两个连续的帧来扫描帧。例如，Niklaus和Liu[30]预测两个帧之间的双向光流，并将它们减半以基于前向扭曲生成中间帧。然而，前向扭曲可能会导致孔和重叠区域中的插值伪影[41]。为了克服空洞的问题，他们开发了一个合成网络图1. 对称与不对称双侧运动模型。在（a）中，非对称模型表示来自中间帧10的双边运动矢量。5到两个输入帧I0和I1准确，其中对称的失败，通过放松线性约束。在（b）中，当I0. 5是从I0和I1插值的，非对称模型提供了更忠实的重建，具有更少的伪影，特别是在头部周围，比对称模型。学习如何填补漏洞。然而，重叠问题仍然存在，因此他们提出softmax-splatting [31]来自适应地组合重叠像素信息并更忠实地渲染另一方面，许多算法[2，3，7，16，22，30，42]基于向后扭曲，其没有空洞和重叠问题。后向扭曲需要从中间帧到输入帧的运动矢量，但是应当被内插的中间帧在运动估计时是不可用的。因此，常规算法[2，3，16]使用输入帧之间的光流来近似那些中间运动矢量。然而，近似误差可能降低帧插值性能。Park等人[34]假设输入帧之间的运动轨迹是线性的，采用对称双边运动估计来提高中间运动的精度。然而，线性运动约束可能导致约束无效的区域中的不准确的运动估计，诸如运动边界周围的遮挡区域，如图1所示。在本文中，我们提出了一种新的视频帧插值-010.50.514540^VV^VVV简体中文(a) 运动场V0→1简体中文(b) 近似Vt-1= 0。0→1简体中文(c) 对称双侧运动简体中文(d) 不对称双侧运动图2.各种运动场的图示：每列表示一帧，一个点对应于帧中的一个像素 I0和I1是输入帧，并且It是在时刻t = 0处的不可用中间帧。五、橙色点描绘没有任何移动的背景像素，而绿色点描绘移动对象。（a）中的运动场0-1被减半以近似（b）中的运动场t-1。（c）中的对称双边运动场可以被估计以基于后向扭曲来内插I t。为了提高视频帧内插性能，我们提出了ABME算法，如（d）所示。提出了一种基于反向弯曲的运动估计算法，该算法由非对称双向运动估计（ABME）和帧合成网络组成。在ABME中，我们预测对称的双边运动场，并通过放松线性运动约束来细化它们。具体来说，我们插入一个临时的中间帧，称为锚帧，使用的对称字段。然后，我们估计从锚帧到两个输入帧的不对称双边运动场，如图1中的红色箭头所示。在帧合成中，使用双边运动场来扭曲输入帧。为了聚合这些扭曲的帧，我们开发了由两个子网组成的合成网络： FilterNet 和RefineNet。FilterNet生成动态滤波器以利用局部信息，而RefineNet使用全局信息重建残差帧。实验结果表明，所提出的ABME算法在各种数据集上的性能明显优于最先进的视频插值器[2，8，20，22，33，34，42]。2. 基于运动的帧变形让我们回顾基于运动的帧扭曲技术的视频帧内插，并介绍必要的nota- tions和概念来描述如何提出的ABME是不同于传统的技术。给定在相邻时刻0和1处的两个输入帧I0和I1，视频帧内插旨在合成中间帧I1，其中0< <<1。这可以通过使用前向翘曲来It，F=（1−t）·φF（I0，V0→t）+t·φF（I1，V1→t）.（三）这里，通常通过缩放输入帧[30，31]的运动场0-1和1-0来V0→t=t·V0→1（4）V1→t=（1 − t）·V1→0。（五）然而，如图2（a）所示，缩放的0-t通常不精确地穿过It此外，没有流矢量可以在某个像素附近通过，或者多个矢量可以在同一像素附近通过，分别导致空穴或阻塞问题。Softmax splatting [31]在前向翘曲中解决了这些问题。另一方面，大多数视频帧内插方法[2，3，16，22，23，34，36，42]以及所提出的算法替代地使用向后扭曲。It，B=（1−t）·φB（Vt→0，I0）+t·φB（Vt→1，I1）。（六）然而，与（4）和（5）不同的是，它不是直接获得的。保留运动场V和V因为中间-向前和向后翘曲：设VS→T表示一个径向框架t→0It不可用。t→1从源帧IS到目标帧IT的逐像素运动场（或光流）。然后，目标帧可以向后扭曲的运动近似：常规算法[2，3，16，34，36]近似运动通过前向扭曲源帧[10]来近似ˆ场Vt→0 和Vt→1 在（6）中。例如，流项目-IT=φF（IS，VS→ T）（1）其中φF是前向扭曲算子。相反，源帧可以通过向后扭曲14541^VV目标帧来近似[40]，IS=φB（VS→T，IT）（2）其中φB是向后翘曲算子。在[2，3]中，通过聚集在I0和I1之间的多个流向量来近似t→0和t→1，这些流向量在I t中的每个像素附近通过。替代地，一些算法简单地从V0-1和V1-0中提取流向量以近似Vt-0和Vt-1[34]。Vt→0=−t·V0→1或t·V1→0（ 7）V^t→1= （ 1−t ） ·V0→1 或 − （ 1−t ） ·V1→0 。（八）14542VVVVVVVVVV不t→1t→0t→0t→1VS通过采用BMBC的运动估计器，t→1[34]。t→0t→ 0t→ 1t→1t→00对称双向运动估计S0��→锚帧插值A0��→��简体中文帧合成网络S��→1A��→1ABME1图3.所提出的算法的概述ABMR-Net在图5中详细描述，帧合成网络在图4中详细描述。在[16，36]中，通过组合（7）和（8）中的候选来近似运动场，由下式给出：V^t→0=−（1−t）t·V0→1+t2·V1→0（9）Vt→1=（1−t）·V0→1− t（1 − t）·V1→0。（十）开发ABME技术，改进对称的双向运动矢量，使它们变得不对称，更可靠、更准确地表示运动。图3呈现了所提出的算法的概述^2我们首先得到对称的双侧运动场VS和（7）（10）中的这些近似假设邻居-使用St→0 和St→1，我们插入一个锚帧I¯t，每个像素具有相似的运动矢量。然而，如图2（b）所示，该假设在运动边界附近是无效的其然后被用作用于不对称的源帧ricbilateral motion refinement（ABMR）。最后，我们得到白羊座在这种情况下，近似运动场的质量降低，导致差的插值帧。不对称双侧运动场At→0 和A.t→1对称双边运动估计：代替使用输入帧之间的场0 - 1和1 - 0 来近似双侧运动场Vt-0和Vt-1，Park 等人（2001）在1990年12月25日发表了关于运动场的研究。[34]提出了对称双侧运动ES-锚帧插值：运动估计从源帧It到目标帧I0或I1是有挑战性的，因为It是不可用的，并且应该在视频帧内插中被合成因此，我们生成临时的源帧I¯t，称为锚帧，使用对称-估计算法，假设运动轨迹是-ric双侧运动场t→0 和S.t→1I0和I1之间是线性的。在线性假设下，基于（6）中的向后翘曲，我们可以生成双边运动场t→0和t→1关于I t对称，如图2（c）所示。更具体地说，I¯t=（1−t）·φBSt→0，I0）+t·φBSt→1，11）。（十三）不Vt→0= − 1 − t Vt→1。（十一）因此，粗略地说，他们获得了Vt →1至mini-t。然而，这种简单的混合可能由于遮挡而引起误差，特别是在相机摇摄的情况下在锚定帧的边界区域为了减少这样的错误，我们利用掩模来揭示遮挡区域，由下式给出放大帧差φB（Vt→0，I0） −φB（ Vt→1，I1）φB（−1−tVt→1，I0）− φB（Vt→1，I1）（十二）MS=φB（VS，1）和MS=φB（VS，1）（14）其中1是全1的二进制图像。注意，掩模值0意味着It中的对应像素移出。为此，他们开发了具有双边成本卷的双边运动网络。在时间实例0或1处使帧侧化。然后我们以遮挡感知的方式重建锚帧，3. 该算法I¯t=（1−t）·（1−MS+MSt→0）φB（VS，I0）所提出的算法由两个过程组成：+t·（1−MS+MSt→1）φB（VS，11）（15）ABME和帧合成。3.1. ABME在图2（c）中，双边运动矢量在输入帧中对称匹（五（五14543VV配的像素对之间传送有效运动信息。然而，当It中的像素被包含在I0或I1中时，对称性不成立。由于加速度引起的非线性物体运动也破坏了对称性，如图1（a）所示。为了克服这些问题，我们其中是Hadamard乘积。非对称双边运动细化：为了执行（6）中的向后扭曲，常规算法使用I 0和I 1之间的运动场来近似双边运动场t-0和t-1。相比之下，在近似之后，我们直接估计从It到I0或I1的运动场。It与锚定框架I¯t。让我们描述非对称运动估计我是我1。请注意，执行从I¯t到I0的估计14544��መ��1��መ��መ��2��መ��3��መ��1��መ��መ��2��መ��3不不不t→0t→1--V→V→1联系我们VVVVVt→1类似地但独立地。我们在图5中开发了用于不对称双侧运动细化的ABMR-Net以细化不t→0t→1V 转图4.所提出的帧合成网络的架构。1��ҧ图5. ABMR-Net的体系结构→1类似地，我们在ABMR-Net中使用掩码来提高细化性能。源帧I¯t是一个ap-It的近似，因此它可能包含运动误差边界或复杂的纹理。这样的误差使得匹配过程不可靠。因此，我们采用图5中的可靠性掩码Zl-1来抑制锚特征中的错误。请注意，源帧在本工作中被掩蔽，而目标帧在[43]中被掩蔽。在级别1处，将0初始化为零，并且将上采样的Z设置为0。↑Z0= exp.- β·。φB（VS，I0）− φB（VS ，I1）.Σ（16）从源I¯t到目标I1的运动场。其中β=20。如果I¯t中的某个像素具有较大的对称Net分层地获得运动场，如PWC中所做的那样l−1匹配误差|φB（VS，I0）−φB（VS、I1）|，i t s特征Net [39].在层级1处，对先前层级（11）处的运动场tl进行上采样以扭曲目标特征图Fl。此外，我们将锚点特征图Fl乘以被可靠性掩模抑制。3.2. 帧合成可靠性掩模Zl-1，并补偿被屏蔽的fea。在图4中，我们合成了一个中间帧I我们-ttl−1通过添加偏移映射Ot来创建。然后，将变形的目标特征图和补偿的锚特征图输入到相关层以计算匹配成本。的对两个输入帧I0和I1进行采样。我们使用由图3中的所提出的ABME生成的四个运动场：两个对称场和两个对称场。场VS和VS以及两个非对称场VA成本体积用于产生剩余场ΔVl，和. t→0t→1t→0其被添加到上采样的l−1t→1Vt→1字段V11。转Vt→1产生运动使用用于帧合成的特征提取器，我们从I提取多尺度特征图Cl，其中存在三个t00S如前所述，对称场不1是使用BMBC [34]的运动估计器估计，其为四分之一分辨率。它被用作上采样的水平11、2、3。注意从I1到C1的提取使用共享参数类似地执行。最高级别贴图C3和C3具有与第0页，共1页0t→1 在图5中的水平l= 1处。然后，细化是每-2输入帧。我们向后扭曲输入图像S形成两个能级，并且半分辨率Vt→1成为它们的特征金字塔。在图4中，I0被Vt→0扭曲最终结果At→1.由于t→0和t→1 是精炼的和t→0 得到It的估计It，而I1由VS最后，它们变得不对称。如图1（a）和图2（d）所示，非对称场可以比对称场更忠实地表示运动信息。最近，Zhaoet al. [43]改进了PWC-Net与可学习遮挡掩模的匹配性能。：输入：输出��∆S→0��ሚ��ሚ��S��→103020��→1A→0ARefineNet1110��联系我们过滤网��联系我们21��መ2��መ2DLC31��መ3��መ3DLC1��መ��መ��→1−1W1��∆��→1相关性层净��简体中文��简：上采样器W ：翘曲层特征提取器特征提取器翘曲层B翘曲层BCONV14545^datewarpedfeaturesC. 这些c和i日期是合并的t1和. 因此，存在四个候选扭曲帧Itintotal. 类似地，在每个水平，有四个坎迪-Lt以互补的方式重建中间体更忠实地表达出来14546~~不Σ ΣΣ×个L×个不L~我们获得过滤后的特征图C。不不^但是，它将滤波后的帧I~t、滤波后的特征图C~ t和扭曲的特征金字塔作为输入。特别地，使用相同的动态特性来获得的特征图Ct可以是相同的过滤器，有意义地增加了细化性能。这一点将在第4节中讨论。在生成残差ΔI t之后，最终重构帧由下式给出：It=I~t+∆It。（十九）图6.一种改进的过滤网给定多个候选者，我们可以通过将它们与权重混合来合成It。然而，这种简单的混合可能会导致遮挡区域中的模糊伪影和重建误差。因此，最近的算法采用合成网络，其以各种方式处理扭曲帧以生成中间帧：直接帧生成[30，31]，残留帧生成[2，3]或动态局部混合[34]。而动态局部混合synthesize每个像素使用本地邻居，其他两个approaches使用全局上下文。为了利用局部和全局信息，我们提出了一种新的合成网络4. 实验4.1. 培训我们首先训练对称双边运动估计器，然后在固定它之后，训练ABMR-Net。最后，我们用这两个网络对帧合成网络进行了端到端的训练ABME：我们采用BMBC [34]的运动估计器进行图3中的对称双边运动估计，但为了提高效率，我们通过将第一个卷积层的步幅设置为2来重新训练它。训练运动估计器在BMBC和ABMR-Net中，我们定义了地面实况IGT和两个扭曲帧由两个子网组成：FilterNet和RefineNet。作为FilterNet：它学习生成动态过滤器，用于组合GT A不GT A对四个候选项进行排序，用Ic表示，1≤c≤4。WeLpho=ρ（It−φB（Vt→0，I0））+ρ（It−φB（Vt→1，I1）[30]第30话：我是一个很好的朋友。+Lcen（IGT，φB（VA ，I0））+Lcen（IGT，φB（VA，I1））FilterNet的主干，如图6所示。过滤器-t t→0t t→1Net通过采用横向块，将具有对应特征金字塔的四个候选项作为输入对于每个像素（x，y），最右侧块动态地生成滤波器系数以融合每个候选中的3 × 3个局部相邻像素。系数表示为Hx，y（i，j，c），−1≤i，j≤1，1 ≤c≤4（17）其中（i，j）是围绕（x，y）的局部坐标，并且c是候选索引。滤波器系数被归一化，ci ，j，HX，y（i，j，c）= 1。然后，我们得到过滤后的帧经由动态局部卷积（DLC），四一一其中ρ（x）=（x2+ε2）α是Charbonnier函数[5]，cen是普查损失[26，44，45]，定义为大小为7 7的普查变换图像块[26]之间的软汉明距离。参数设置为α =0。5且ε= 10−6。为了训练BMBC的运动估计器，我们使用Adam优化器[19]，学习率η = 10−4直到0.1M 次迭代，每0.04M次迭代后将η减半。对于0.2M次迭代，我们使用24的批处理大小对于ABMR-Net，我们也使用Adam优化器，η = 10−4直到0.12M次迭代，每0.06M次迭代后将η减半。对于0.3M次迭代，我们使用16的批处理大小帧合成网络：我们定义了合成损耗I~t（x，y）=ΣHx，y（i，j，c）Ic（x+i，y+j）.syn作为IGT与其合成版本It之间的Charbonnier损失和普查损失之和，由下式给出c=1i =− 1j =−1不(18)GT GT此外，通过将相同的动态滤波器应用于最高级别l= 3处的四个扭曲特征候选Cl，RefineNet：动态过滤器只考虑本地因此，如果局部相邻像素由于运动误差或严重遮挡而不包含关于某个像素的适当信息，则其滤波结果也变得错误。为了克服使用全局信息的这种限制，Re-fineNet生成残差帧ΔIt以细化滤波后的图像。帧I~t。它具有与FilterNet相同的网络架构14547×个Lsyn=ρ（It−I t）+Lcen（It，I t）.（二十）我们使用Adam优化器，η = 10−4直到0.35M次迭代，每0.15M次迭代后将η减半。我们使用批量大小为6，总共进行0.8M次迭代。训练数据集：我们只使用Vimeo90K训练集[42]来训练所提出的网络。它由51，312个三胞胎组成，分辨率为448256。该训练集不包含运动地面实况。我们增加通过随机翻转、旋转、反转序列顺序和裁剪256×256个补丁来处理数据集。14548×个×× ×∼表1. UCF 101、Vimeo 90 K和SNU-FILM数据集上视频插值结果的定量比较（PSNR/SSIM）。在每个测试中，最好的结果用粗体表示，而第二好的结果用下划线表示。所有结果都是通过执行可用的源代码获得的UCF101 Vimeo90KSNU-FILMRuntime#参数4.2. 数据集虽然我们严格使用单个训练数据集，但我们在各种数据集上测试了所提出的ABME算法。UCF101 [38]：我们使用Liu等人构建的测试集。[23]，包含379个分辨率为256×256的三重峰。Vimeo90K：Vimeo90K中的测试集包含3，782个空间分辨率为448 ×256的三元组。SNU-FILM [8]：它包含分辨率高达1280 720的1，240个三元组视频。它有四种不同的设置Xiph [29]：它包含30个原始视频序列，用于测试具有HD（1280 720）或FHD（1920 1080）分辨率的视频编解码器。对于来自FHD序列的三元组，我们裁剪每个帧的中心HD部分而不调整大小。因此，我们总共提取HD分辨率的2，000个三元组我们将这些三元组分为5类（D1-D5），根据插值的难度水平。为了量化难度，我们使用具有固定QP的最近视频编码标准VVC [4]来中间帧以B帧模式编码，而其它两个帧以I帧模式编码。对B帧进行运动补偿，并对运动矢量和补偿误差进行编码。因此，B帧的比特数表示使用相邻帧对其进行插值的难度。根据这些位数对2，000个三元组进行排序，然后将其分组为五个类，使得每个类包含400个三元组。D1是最简单的课程，而D5是最难的课程。X4K1000FPS [37]：与ICCV 2021中的这篇论文同时发表，Simet al.提供高质量、广泛的4K分辨率数据集。它们提供训练集X-TRAIN和测试集X-TEST。我们直接在X-TEST上评估所提出的算法，而不需要在X-TRAIN上重新训练。4.3. 与最新技术水平的我们比较所提出的算法与传统算法：ToFlow [42]、SepConv [33]、CyclicGen [22]、[2019 - 02 - 18][2019- 02- 19][2019 - 02 -01][2019 -02][2019 - 01][201表2.根据难度等级，Xiph数据集上的PSNR。D1是最简单的课程，而D5是最难的课程。D1D2D3D4D5DAIN [2]34.6533.2129.4225.4122.61Cain [8]34.6732.6827.9724.9822.66AdaCoF [20]34.2332.1627.5324.8422.28BMBC [34]34.4732.1327.2124.5222.39ABME（拟定）35.2134.1530.2625.7723.02表1比较了平均PSNR/SSIM分数。所有结果都是通过执行可用的源代码获得的。• UCF101、Vimeo90K和FILM（Medium）比FILM（Hard，Extreme）更容易插值。此外，在最简单的FILM（Easy）上，大多数算法都插值高质量帧，结果之间的视觉差异可以忽略不计。• 在除FILM（Easy）之外的所有数据集上，所提出的 ABME 算法提供了最佳结果。特别是，在Vimeo90K上，与第二好的BMBC相比，ABME产生约1dB的PSNR。• 在FILM（中等、硬、极）上，DAIN总体上达到第二好的结果;在FILM（硬）上，ABME产生30.58dB，而DAIN产生30.17dB。在具有较快运动的视频中，运动边界周围的更多区域被遮挡，使得更难以内插帧。表1证实了所提出的ABME有效地处理了这些遮挡区域，并提供了出色的插值结果。表1还列出了使用RTX 2080 Ti GPU在Middle-bury基准[ 1 ]中对“Urban”序列中的中间帧进行插值的实际运行时间提出的算法比BMBC快三倍以上表2比较了Xiph数据集上的平均PSNR，该数据集包含具有挑战性因素的不同序列，例如复杂纹理、快速运动和严重遮挡。ABME在所有难度等级中均优于所有常规算法。DAIN在D2、D3和D4类然而，它的运动和深度估计器是使用额外的数据集进行预训练的，而ABME仅使用Vimeo90K进行严格训练。尽管如此，在D2和D3中，ABME的表现优于DAIN。容易介质硬极端（秒）（百万）[42]第四十二话33.73/0.968239.08/0.989034.39/0.974028.44/0.918023.39/0.83100.431.1SepConv [33]33.79/0.970239.41/0.990034.97/0.976229.36/0.925324.31/0.84480.2021.6[22]第二十二话32.09/0.949037.72/0.984032.47/0.955426.95/0.887122.70/0.80830.0919.8DAIN [2]34.71/0.975639.73/0.990235.46/0.978030.17/0.933525.09/0.85840.1324.0Cain [8]34.91/0.969034.65/0.973039.89/0.990035.61/0.977629.90/0.929224.78/0.85070.0442.8AdaCoF [20]34.90/0.9680 34.47/0.973039.80/0.990035.05/0.975429.46/0.924424.31/0.84390.0322.9BMBC [34]35.01/0.976439.90/0.990235.31/0.977429.33/0.927023.92/0.84320.7711.0ABME（拟定）35.38/0.9698 36.18/0.980539.59/0.990135.77/0.978930.58/0.936425.42/0.86390.2218.114549(a) GT（b）ToFlow（c）SepConv（d）CyclicGen（e）DAIN（f）CAIN（g）AdaCoF（h）BMBC（i）ABME图7.内插帧的定性比较。在本测试中使用SNU-FILM（Extreme）中的三重峰。（i）中提出的ABME算法忠实地重建快速对象到（a）中的地面实况，而没有明显的伪影。图8.不同运动场的比较。表3. X4K1000FPS数据集的定量比较。PSNR SSIM（a）约1（b）约2（c）SBMF（d）ABMF图9.变形帧及其误差图的比较。4.4. 模型分析让我们分析的关键组件在所提出的算法的贡献。0.94 dB和0.84dB。这些结果表明，ABME插值具有挑战性的视频忠实。表3比较了最近X4K1000FPS数据集的性能。其训练集X-TRAIN不用于重新训练ABME。相比之下，X-TRAIN用于训练XVFI [37]，其设计用于具有极端运动的4K序列。然而，ABME的表现略好于XVFI。为4K序列定制ABME是未来的研究问题。为此，Vimeo 90K训练集可能不足以满足要求，X-TRAIN将非常有用。图7示出了FILM（Extreme）中的两个帧的插值结果。由于大的运动和极端的变形，传统的算法无法可靠地重建绿色和红色方块内的相比之下，所提出的算法重建他们忠实地没有任何明显的文物。图10示出了（9）中的称为近似2的对称运动场、对称双侧运动场（SBMF）和所提出的非对称双侧运动场（ABMF）。PWC-Net [39]用作近似1和近似2的光流估计器，而BMBC [34]用于SBMF。这四种类型的运动场，分别用于扭曲输入帧向后近似的中间帧，然后计算扭曲帧的PSNR图8比较了Vimeo 90 K和SNU-FILM上的平均PSNR约1产生最差的性能。通过（9）改进近似的近似2略微增加了PSNR。[34]中的SBMF产生比近似1或近似2高得多的PSNR。然而，所提出的ABMF在Vimeo90K、Easy和Medium上显著优于SBMF超过2dB，在Hard和 Extreme上至少优于1 dB。图9比较了扭曲帧与误差图。汽车快速移动，造成严重的闭塞。因此，Ap-0误差1DAIN [2]AdaCoF [20]26.7823.900.80650.7271运动场：我们比较图2中的运动场XVFI [37]ABME（拟定）30.1230.160.87040.8793定量地具体地，我们测试近似的mo-（7）中的近似场，称为近似1，并且近似运动14550VVVV输入. 如果C〜t被移除并且仅I〜t被用于合成表4.可靠性掩模Zt和偏移图Ot对不对称双侧运动细化的影响。报告了封装帧的平均PSNR。组件Vimeo90K极端ZtOtPSNRPSNR27.8122.75C28.32 22.96C28.40 22.98C C28.80 23.070 1 0错误1表5.候选变形帧对帧合成的影响。报告内插帧的平均PSNRVimeo90K Extremeprox1和Approx2严重扭曲扭曲帧。SBMF准确地估计汽车的运动，但由于不遮挡而导致汽车边界周围的误差。相比之下，所提出的ABMF通过采用不对称运动矢量有效地减少了这些误差可靠性掩码和偏移映射：我们在图5中分析了ABMR-Net的有效性。它使用可学习的可靠性掩码Zt和可学习的偏移映射Ot。表4示出了两个分量对不对称双侧运动细化的总体性能的贡献候选扭曲帧：在图4中所提出的帧合成中，在默认模式中使用四个候选扭曲帧。具体来说，得到使用对称场St→0，另一个和St→1变形帧动态过滤器变形错误图10.动态过滤器的可视化每个像素的系数的绝对和，并以灰度级呈现该和。前两个候选者由对称场获得，而其他候选者由非对称场获得。前者在没有运动的背景中更可靠，而后者在运动边界附近更有效。因此，相应地确定滤波器系数此外，对于人的左侧和右侧，第三和第四候选分别主要用于动态滤波。这是因为在不同的帧10和11中不同的侧被遮挡。在这样的遮挡区域中，线性运动约束是无效的，并且对称场是不可靠的。过滤后的特征图：在图4中，RefineNet将过滤后的特征图C~t以及过滤后的帧I~t作为两个来自不对称场A三种组合。t→0和t→1.我们测试的t，平均PSNR在Vimeo90K上降低了0.1dB由于C~t在I~t中包含了连续的信息，因此它有助于重新定义。• 仅对称：使用使用对称场的两个候选。• 仅非对称：使用使用非对称场的两个候选• 两个：所有四个候选人都被使用。表5比较了这三种设置的平均PSNR首先，这意味着所提出的综合网络比BMBC更有效。其次，最后，最好的PSNR是通过采用所有的四个候选人，它们相互补充，以提高插值性能。动态过滤器：图10示出了四个候选扭曲帧、它们的滤波器系数图和它们的误差图。为了可视化动态过滤器，我们计算fineNet以消除I〜t中的噪声并更可靠地恢复I〜t。5. 结论提出了一种新颖、有效的视频帧内插算法。首先，我们开发了ABME技术，通过放松线性运动约束来细化对称的双边运动。其次，我们设计了一种新的合成网络，它使用局部和全局信息生成一组动态滤波器和大量的实验表明，该算法在各种数据集上实现了最先进的性能。确认这项工作得到了韩国政府（MSIT）资助的韩国国家研究基金会（ NRF ）资助（编号： NRF-2018 R1 A2B3003896、NRF-2019 R1 A2 C4069806和NRF-2021 R1A4 A1031864）。S（A ，）（A ，）（S，）��（��t→00个，）��t→0 0个��t→ 11��t→ 11PSNRPSNR仅对称35.9125.28仅不对称36.0525.34两36.1825.4214551引用[1] 放大图片作者：Simon Baker，Daniel Scharstein，J.放大图片作者：Michael J. 布莱克和理查德·塞利斯基光流数据库和评价方法。国际计算机目视，92（1）：1 - 31，Mar. 2011. 六个[2] Wenbo Bao ， Wei-Sheng Lai ， Chao Ma ， XiaoyunZhang，Zhiyong Gao，and Ming-Hsuan Yang.深度感知视频帧插值。在CVPR，第3703-3712页一、二、五、六、七[3] Wenbo Bao，Wei-Sheng Lai，Xiaoyun Zhang，ZhiyongGao，Ming-Hsuan Yang.MEMC-Net：用于视频插值和增强的运动估计和运动补偿驱动神经网络。 IEEE Trans.模式分析马赫内特尔，43（3）：933-948，Mar. 2021. 一、二、五[4] Benjamin Bross，Jianle Chen，Jens-Rainer Ohm，Gary J.Sullivan，and Ye-Kui Wang. AVC之后国际视频编码标准化的发展，以及通用视频编码（VVC）的概述Proc.IEEE，109，2021。六个[5] Pierre Charbonnier、Laure Blanc-Feraud、Gilles Aubert和Michel Barlaud。计算成像的两种确定性半二次正则化算法。在ICIP，第168-172页，Nov. 1994. 五个[6] 程先航和陈振中通过可变形可分离卷积的视频帧在AAAI，第10607-10614页，Feb. 2020. 一个[7] Byeong-Doo Choi 、 Jong-Woo Han 、 Chang-Su Kim 和Sung-Jea Ko。运动补偿帧内插使用双边运动估计和自适应重叠块运动补偿。IEEE Trans.电路系统视频技术，17（4）：407-416，Apr. 2007. 一个[8] Myungsub Choi ， Heewon Kim ， Bohyung Han ， NingXu，and Kyoung Mu Lee.通道注意力是视频帧插值所需的全部。在AAAI，第10663-10671页中，2020年2月。一、二、六[9] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。FlowNet：使用卷积网络学习光流在ICCV，第2758-2766页，Dec.2015. 一个[10] 卡尔·M Fant.一种非混叠、实时空间变换技术。IEEE计算Graph. Appl. ，6（1）：71-80，Jan. 1986. 二个[11] John Flynn，Ivan Neulander，James Philbin，and NoahSnavely. DeepStereo：学习从世界CVPR，第5515-5524页，2016年6月1[12] Dam i enFourure、Re′miEmonet、E′lisaFromon t、DamienMuselet、AlainTre me′ au和ChristianWolf。用于语义分割的残差cov-在BMVC，第181.1-181.13页，Sept. 2017. 五个[13] Shurui Gui，Chaoyue Wang，Qihua Chen，and DachengTao.FeatureFlow：通过结构到纹理生成的鲁棒视频插值。在CVPR，第14004-14013页，2020年6月。一个[14] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.FlowNet2.0：演进利用深度网络进行光流估计在CVPR，第2462-2470页一个[15] Seong-Gyun Jeong，Chul Lee，and Chang-Su Kim.基于多假设运动估计和纹理优化的运动补偿帧内插。 IEEETrans. 图像处理。，22（11）：4497-4509，Nov. 2013.一个[16] Huaiizu Jiang ， Deqing Sun ， Varun Jampani ， Ming-Hsuan Yang，Erik Learned-Miller，and Jan Kautz.超级慢动作：用于视频内插的多个中间帧的高质量估计。在CVPR中，第9000-9008页，2018年6月。一、二、三[17] 放大图片作者： Rico JonschkowskiBarron ， ArielGordon，Kurt Konolige，and Anelia Angelova.无监督光流中的在ECCV，第557一个[18] Nima Khademi Kalantari ， Ting-Chun Wang ， and RaviRa-mamoorthi.基于学习的光场相机视图合成。ACM事务处理图表，35（6）：1-10，2016. 一个[19] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。ICLR，2015年5月。五个[20] Hyeongmin Lee ， Taeoh Kim ， Tae-young Chung ，Daehyun Pak ， Yuseok Ban ， and Sangyoun Lee.AdaCoF ：用于视频帧插值的流的自适应协作。在CVPR，第5316-5325页，2020年6月。一、二、六、七[21] Liang Liu ，Jiangning Zhang，Ruifei He ，Yong Liu ，Yabiao Wang ， Ying Tai ， Donghao Luo ， ChengjieWang，Jilin Li，and Feiyue Huang.类比学习：无监督光流估计转换的可靠监督。在CVPR

下载后可阅读完整内容，剩余1页未读，立即下载