基于特征传播的长时视频帧内插

7 浏览量更新于2023-10-25 收藏 1.21MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3543⟨⟩⟨⟩基于特征传播的长时视频帧内插达维特·穆列贾·阿尔高·因索·昆韩国科学技术高等研究院，大韩{dawitmureja，iskweon77} @ kaist.ac.kr摘要视频帧内插（VFI）通常通过首先估计输入之间的运动并且然后利用所估计的运动将输入扭曲到目标时间来预测中间帧然而，当输入序列之间的时间距离增加时，这种方法不是最佳的，因为现有的运动估计模块不能有效地处理大的因此，VFI工作对于小的帧间隙表现良好，并且随着帧间隙增加而表现不佳。在这项工作中，我们提出了一个新的框架来解决这个问题。我们认为，当输入之间有一个很大的差距，而不是估计不精确的运动，最终将导致不准确的插值，我们可以安全地传播从输入的一侧到一个可靠的时间帧使用其他输入作为参考。然后，可以使用标准方法对中间帧的其余部分进行插值，因为时间间隙现在变窄了。为此，我们提出了一种传播网络（PNet），通过扩展经典的特征级预测与一种新的运动特征的方法。为了彻底，我们采用了一个简单的插值模型和PNet作为我们的完整模型，并设计了一个简单的过程来以端到端的方式训练完整在几个基准数据集上的实验结果证实了我们的方法与最先进的方法相比对长期VFI的有效性1. 介绍视频帧内插（VFI）的目的是从给定的帧序列中预测一个或多个中间帧。给定输入xt，xt+n，其中n是输入之间的帧间隙，现有的VFI工作通常遵循两个步骤。首先，他们估计xt和xt+nus之间的运动，使用现成的运动估计模块或通过施加运动约束然后，它们将输入扭曲到目标时间并合成中间帧。VFI在输入序列的帧速率通常已经足够高的前提下工作于目标时间超分辨率我们已经通过评估几种最先进的VFI方法，ODS [2，12，17，19，30]对以不同帧速率采样的输入序列进行的分析。即使合理的性能降低是预期的现象，我们观察到当输入序列的帧速率降低时性能的显著下降（参见表1），突出显示随着连续帧之间的时间距离增加，内插帧变得非常具有挑战性。此外，在过去的文献中，对这个问题的关注要少得多，因为大多数评估都是在具有固定帧速率（主要是30 fps）的视频上进行的。我们认为，这种限制背后的主要原因是部分与VFI工程的工作原理。如果输入之间的估计运动不准确，则通过对具有估计运动的输入进行时间扭曲而合成的内插帧也将可能不准确。当输入帧之间的时间间隙很大时，这是特别成问题的，因为现有的基于流或核的运动估计模块不能有效地处理大的运动。在这项工作中，我们解决了长期的视频插值问题，并提出了一个通用的VFI框架鲁棒性相对较低的帧速率。具体而言，当输入帧之间存在较大间隙时，我们推测我们可以安全地从输入的一侧传播到另一侧，而不是预测输入之间的运动，这可能是不精确的，甚至最终导致不准确的插值。使用其他输入作为有用参考的时间范围，即给定xt，x t+n，我们从第一个输入xt侧传播到x t+ nt，类似地，我们从第二个输入xt+n侧传播到x t+n−nt，其中这是传播的范围这是直观的，因为与Xt+n相比，Xt附近的中间帧将最可能取决于Xt，反之亦然。一旦我们从两侧传播到可靠的时间帧，就可以使用现有的插值方法来对x t+ n −t和x t+n−t之间的其余中间帧进行插值因为时间间隙现在减小到n-2 μt。为此，我们提出了一个传播网络（PNet），它通过更多地依赖于其中一个输入来预测未来的帧，同时参加其他输入。我们通过扩展经典的特征到特征（F2F）预测来3544编码器M2F帧解码器预训练流网络电子邮件��L帧L流⟨⟩--[5，8，36，37，43，44]，其中我们引入了光流作为另一种模式来引导特征的传播，并在传播的特征之间加强时间一致性。与使网络更依赖于输入帧的语义的特征监督不同，我们的运动监督允许网络专注于输入之间的运动（一）电子��邮件（b）第（1）款并确保特征相应地传播而与图像的内容无关。此外，虽然大多数F2F工作专注于预测特定于任务的输出，如分割图，但我们通过设计一个帧合成网络来执行RGB预测，该网络以从粗到细的方式从传播的特征中重建帧。我们的实验表明，所提出的PNet可以用作插件模块，使现有的最先进的VFI方法[2，12，17，19，30]鲁棒，特别是当输入之间存在相当大的时间间隔时。为了彻底，我们采用了SloMo的轻量级版本[17]以及PNet作为我们的完整模型，并设计了一个简单但有效的过程，以端到端的方式成功训练完整模型。我们在几个广泛使用的数据集上全面分析了我们的工作和以前的方法[11，27，40]，并确认了我们方法的可验证性。此外，我们进行了烧蚀实验，以阐明网络的设计和损失函数的选择。2. 相关作品视频帧插值。早期的传统方法[23，49]依赖于输入之间的光流和给定的图像形成模型来合成中间帧。最近，已经提出了几种基于深度网络的VFI方法。虽然一些作品[7，21]直接预测中间帧，但大多数现有的方法在其框架中嵌入运动估计模块。根据所使用的运动估计模块的类型，VFI工作可以大致分类为：基于相位的、基于内核的、基于流的以及后两者的混合。早期基于相位的工作[25，26]将输入之间的时间变化表述为相移。另一方面，基于核的方法，如AdaConv [31]和Sep- Conv [30]分别估计空间自适应2D和1D核。同时，由于在光流估计研究中取得的重大进展，基于流的插值方法[17，20，28，29，32，34，35，39，46，47]已经变得流行。DVF [20]和SloMo [17]估计输入帧之间的流，并直接将其扭曲到目标中间时间，而[28，29，32，46]在扭曲帧上使用可训练的帧合成网络来预测中间帧。DAIN [2]和MEMC-Net [3]结合了基于内核和基于流的模型。AdaCoF [19]通过VFI的流的自适应协作提出了一个通用的扭曲模块。最近，一些作品[1，4，6，12，34，35，38，45，48]图1. (a)以前的特征级传播公式的概述。（b）提出的问题公式。这些报告侧重于解决迄今为止所讨论的VFI方法然而，大多数现有的工作假设，输入序列的帧速率往往已经足够高，因此，长期VFI在过去的文献中得到的关注要少得多。我们的工作解决这个问题，提出了一个新的框架，结合帧传播和插值。特征传播。特征到特征（F2F）预测输入过去帧的中间特征并预测它们的未来对应物。这种方法以前曾用于动作识别[43]，实例分割[8，22，42]和语义分割[5，36，37，44]任务。 Recentl y，Sari c'etal. [37]提出了一个特征到运动（F2M）模块，以补充经典的F2F方法。以前基于F2F或F2F + F2M的作品使用面向任务的预训练模型的编码器部分（例如，语义分割）来提取一组输入的中间特征并使用所提取的特征来预测未来帧的特征。预测模块通过优化未来帧的预测特征和实验特征之间的损失来训练（见图11）。1a）。在推理期间，通过将预测特征馈送到预训练模型的解码器部分中来获得特定于任务的输出（例如在这项工作中，我们将特征级传播扩展到一个相对未开发的任务，即长期VFI，通过提出一种新的运动到特征（M2F）的方法。我们的方法是不同于以前的特征级传播方法在以下几个方面。首先，我们引入运动（以光流的形式）作为另一种模态来引导特征的预测，并加强预测特征之间的时间一致性。其次，我们设计了一个帧合成网络，从预测的功能输出未来的帧，进行RGB预测。所提出的公式总结在图中。1b.3. 方法给定来自低帧速率视频的一对连续帧x t，x t+n，我们的目标是生成高质量、高帧速率的序列x t，xt+1，. . .，x t+n−1，x t+n，通过联合优化互连传播和插值以端到端的方式连接网络。我们提出的框架的概述如图所示。二、��−��,��预训练编码器F2f或F2F+ F2ML特征预训练编码器3545⟨⟩×E||t+IDD×DD[R t +i|T t+i]Gi=1不t+n不t+nl=1t+Ii=1不i=1不不t+nt+n不D编码和预测要素日本语+1FFNet日本+1锚折叠式框架参考联系我们联系我们��联系我们日本语简体中文��M2FNet经纱起来联系我们��INet帧解码器联系我们��1=L�� +��−�� +��−��=1经纱编码器，编码器+解码器�� +��−��−1+Interpolated帧��+�� −1��+锚��+折叠式框架参考FFNet编码和预测要素��+联系我们联系我们图2.提出的传播插值网络（P-INet）概述。传播网络（PNet）由用于特征提取的编码器网络、使用编码特征作为锚点和参考特征来双向传播特征的M2FNet、用于估计用于运动监督的特征之间的光流的FFNet内插网络（INet）用于在末端传播帧之间内插中间帧。3.1. 传播网络（PNet）我们使用PNet的编码器-解码器架构。首先，我们设计一个编码器网络，以自上而下的方式从输入帧xt，xt+n中①①）。编码器是一个前馈网络，具有5个卷积块，每个块包含2层卷积，内核大小为3 3。除第一块外，特征被下采样到其空间大小的一半，利用帧间的时空相关性，同时对多帧进行传播。M2FNet具有2个组件：全局（DG）和局部（DL）运动解码器。DG学习编码特征之间的全局运动，并预测仿射变换参数θ[R|去水疗中心-将锚点功能转换为将来的对应功能(see 当量（ 2 ）和 Eq 。（三））。我们使用空间Transformer网络[16]对DG..θm=Dl. u l||u lΣ（2）. 乌勒河=E（x）。ulk=E（x）（1）. 乌鲁勒Σm=t r ans for m.尤尔，θ宾馆（3）其中L表示具有总共k个级别（在我们的实验中k= 5）的特征金字塔中的级别，并且U1表示在级别L处的第一输入X1的编码特征。为了传播到帧xt+xt（从xt侧），我们首先执行特征-使用xt和xt+n的编码特征的水平预测，即 {u1，. - 是的- 是的，uk}和{u1，. - 是的- 是的，uk}，作为锚和参考。哪里表示逐通道级联，m表示从锚要素ut和ul表示输出G在时间步t+i和特征级l。由于G仅限于学习非局部运动，为了捕获局部变化的运动，我们进一步用局部特征，分别。然后，我们使用解码器网络以自底向上的方式从传播的特征中重建xt+xt运动到特征预测。我们设计了一个运动特征网络（ M2FNet ）来预测编码特征的未来对应部分。M2FNet将锚点和参考特征作为输入，并预测将锚点特征传播到其未来对应部分的运动。然后，根据估计的运动变换锚特征。为了考虑输入帧之间的复杂运动动态，运动解码器（L）。L输入全局变换的特征ut+i以及锚和参考特征，并输出预测特征u t+i（参见等式1）。（四））。L有3个密集连接的卷积层[13]，每个卷积层的内核大小为3 3，步长为1。由于预测特征u t+1以粗略到精细的方式被解码，因此可以获得残差连接通过将来自先前特征级别1+ 1的上采样的解码特征馈送到DL中来构建，如等式1所示。（四）、内核大小为4×4且步长大小为2的反卷积层用于上采样（×2）特征。在每个卷积块之后，信道被加倍不l=1t+n[R t +i|T t+i]3546Llt+ILt+I不t+nt+Iu1=D1。乌鲁勒||u||u||起来（ul+1）（4）3547DDDDt+It+It+I不t+nD→LLlDDt+Il=1不l=1不t+It+i→tt+It+It+It+i t（六）t+IJt+It+IFt+It+I不t+n×t+ID+1+2++图3. 传播到m未来的同行其中i ={1，. - 是的- 是的，m}，向上。代表上采样，lt+i是在级别L的预测特征。原则上，DL可以图4. 在特征层上x_t+m的帧合成。解码局部和全局运动。然而，明确用G模拟全球运动被证明对手头的任务是有效的（见第二节）。（五）。光流估计M2FNet通过运动监控学习传播特征例如，为了确保预测的特征ut+i可以被重构为xt+i，我们约束在帧txt，xt+i之间计算的流fxt+i→xt和ftut+i→ut之间的端点误差。和特征分别为Ut，Ut+i。作为基本事实流fxt+i→xt对于真实的高速视频不存在，我们使用预训练的状态生成伪地面实况流。最先进的光流模型[15，41]。来估算流量当t=ut+i→ut时，设计一个特征流网络（FFNet），输入两组特征，即：e.-是的乌勒河和.乌勒河、预测的特征本身（用绿色描绘），以便说明传播的特征之间的帧间运动。为了解决传播方向上的任何潜在模糊性，我们计算最后预测的特征和参考特征（以蓝色显示）之间的流量。帧间解码。预测的特征和光流然后用于解码帧。为此，我们设计了一个帧解码器（F），它从相应的预测功能回归帧。当解码当前帧时，F经由注意机制（参见图4）合并来自过去帧的上下文和时间信息。这是通过将过去的特征与相应的估计的光流一起扭曲到当前时间步长中并将扭曲的特征组合到使用注意力权重的特征，如等式（1）所示（七）、的并以从粗到细的方式使流回归公司现采用国际PWC-Net [41]中用于FFNet的光流估计器的架构。为了预测锚特征ut和预测特征ut+1之间的流，我们执行以下步骤。首先，在每个级别l，我们将第二个特征u1（到第一特征u1），其中2个上采样流来自前一级1+ 1（参见等式1）。（5））。然后使用相关层[10，14，41]来计算注意力向量（α）是一个可学习的一维权重参数，元素初始设置为1。为了更好地重建预测帧中的遮挡区域，F还使用锚和参考特征。与特征预测和流估计步骤类似在每个特征级别l处，F输入预测特征（ul）、关注的过去特征第一特征u1并且后翘曲特征Wl.第一lt+i）、编码特征（ulUL）和×2放大功能、成本量和升级流被输入到FFNet来预测流量，如等式2所示（六）、L.ll+1从先前级别1+ 1预测的帧（参见等式1）。（8））。F由3个密集连接的卷积层组成，每个卷积层的内核大小为3×3，步长为1，其中最后一层wt+i = backwarp ut，up.（ft+i→t）（五）输出帧。t+i−1f=FFNet。我的错。（ul，wl）起。（女）+1）Σvl= α j. backwarp（ul，fl→j）（7）j=t图图3描绘了当传播到锚特征ut的m个未来对应物时的流量估计模式。我们来-设置几个光流，以确保功能正确-xl=Dl.ul||v||u||u||起来（xl+1）（8）通过预测输入帧之间的复杂运动而不是简单地以线性方式来触发。具体来说，我们估计锚点特征和每个预测特征之间的流量（图 3 中以红色显示），以便M2FNet根据特征与锚点特征的接近程度（即G和L解码靠近锚特征的特征的较小运动和远离锚特征的特征的较大运动。我们还估计了3.2. 插补网络（P-INet）建议的传播网络（PNet）可以作为一个独立的模型或一个插件模块，与前VFI工程（见第二节）。4）.然而，我们在实验上观察到很少的权衡。首先，当输入之间的时间间隔很小时，PNet与最先进的VFI方法相比给出了次优的性能。这主要是因为PNet，从设计的性质，传播��መ�� +��መ��መ��+�� +Concat+++1u（v3548⟨⟩22ΣK≤1−2≈⌈ −⌉1×我I2x=INet（xt，xt+n）对于所有iPNET2我I1GDL我我算法1：P-INet的训练策略输入：xt，xt+n//n是帧间隙输出：xt+i，其中1 M.换句话说，PNet自适应地传播，直到末端传播帧之间的时间间隙小于或等于M。由于大多数VFI作品通过下采样240 fps视频（帧间隙为8）以30 fps进行实验，并且由于我们的方法使用3个间隔，因此我们在训练期间设置M= 8和N= 24我们在测试过程中尝试了多达30个帧间隙，以分析我们的方法是否可以扩展到更大的间隙（参见第4）.3.3. 损失函数我们以端到端的方式训练我们的网络，通过联合优化估计的流量，传播帧和插值帧。为了训练M2FNet，我们计算估计流量和伪地面之间的端点误差训练INet。我们建议读者参考[17]以了解详细信息。P-INet的总训练损失被定义为所有损失的加权和，如等式2所示。（十一）、Ltotal=λ1L M2FNet+λ2L PNet+λ3L INet（11）4. 实验数据集。大多数现有的VFI作品使用Vimeo-90 K [46]数据集，该数据集具有51312个三元组，其中每个三元组包含3个连续的视频帧。然而，由于该数据集不适用于训练长期VFI的网络，我们通过从高速视频数据集中以不同fps采样帧来生成数据集。为此目的，我们使用了 Tube 240[40] ， GOPRO[27] 和 Need-for-Speed（NfS）。[11]包含133、33和100个视频的数据集重新排序。这些数据集提供了240 fps的视频，这些视频捕捉了现实世界场景中相机和物体运动的各种组合，因此适合手头的任务。然而，大多数视频的帧数都小于1000帧，这使得提取具有较大时间间隔的足够训练样本具有挑战性。因此，我们没有在每个数据集上单独训练，而是使用了总共176个视频（103个来自于Tuberbe240，3个来自于GOPRO，70个来自于NfS）进行训练。剩下的90个视频（每个数据集30个）用于测试。我们通过提取视频中9到31个连续帧的可变长度样本来换句话说，我们分别以大约30 fps至8 fps范围内的不同帧速率对视频剪辑进行采样。在[46]之后，我们将数据集中的每个帧的大小重新调整为448 256的分辨率，以抑制t+I3549噪声并在视频中创建大小的一致性实施详情。我们在PyTorch [ 33 ]中实现了我们的网络，并使用Adam [ 18 ]优化它，参数β1，β2和权重衰减固定为0。九比零。999和4e-4。设定了失重系数3550−LL×表1.不同fps下的定量比较红色和蓝色的数字分别代表最佳和次佳结果中国人240 [第四十届]GOPRO[27]NfS[11]方法30 fps15 fps8 fps30 fps15 fps8 fps30 fps15 fps8 fpsPSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIMSepConv[30]29.910.91523.940.81119.880.70728.640.87123.230.69419.740.56031.840.91526.730.81123.000.707SloMo[17]30.030.91724.300.81820.170.71729.030.91723.580.81819.990.71831.830.91726.950.81823.190.717DAIN[2]30.530.92424.390.82420.210.72129.250.92423.630.82420.180.72132.460.92427.190.82423.360.720AdaCoF[19]30.140.89624.110.74120.070.56729.050.87623.490.70119.890.57132.280.91927.050.81923.230.719FeFlow[12]30.480.90224.190.73720.040.57629.300.92123.510.82219.820.72432.420.92127.050.82223.160.724INet30.300.92024.210.81920.120.71829.170.91923.590.82120.040.72232.030.92026.990.82223.270.721P-INet30.300.92027.100.89024.000.81029.170.91926.450.87923.900.80432.030.92028.980.87426.230.798输入叠加DAIN[2]AdaCoF[19]FeFlow[12]P-INetGT图5.定性比较我们的方法和国家的最先进的VFI方法的输入与大的时间间隔。ω5= 0。08，ω4= 0。04，ω3= 0。02，ω2= 0。01和ω1= 0。005从最低分辨率到最高分辨率，M2FNet和PNet。我们训练P-INet，200个时期，学习率最初设置为λ= 1e4，并在100、150和175个时期逐渐衰减一半。对于前40个epoch，我们只通过设置λ1= 1，λ2= 0和λ3= 0来训练M2FNet，以促进运动估计和特征传播。对于剩余的时期，我们将λ1、λ2和λ3固定为1。我们使用一个小批量的大小为4和随机裁剪图像补丁的大小为256 - 256在训练过程中。使用FlowNet 2 [15]实时计算用于监督M2FNet4.1. 实验结果在本节中，我们将全面分析我们的工作和几种最先进的VFI方法，这些方法可用于开源实现。其中包括Sep- Conv[30]、SloMo[17]、DAIN[2]、AdaCoF[19]和Fe- Flow[12]。为了公平比较，我们使用我们的训练集通过遵循它们的官方代码重新训练这些模型。我们为P-INet，SloMo[17]和DAIN[2]部署了多帧插值训练方案，因为它是可能的，而我们为其他人使用单帧插值方案对于定量评估，我们使用PSNR和SSIM指标。时间鲁棒VFI。在这里，我们分析了不同的VFI模型的鲁棒性的输入序列与不同的时间间隔。在表1中，我们比较了我们的方法和最先进的VFI方法对以3种不同帧率（30 fps、15 fps和8 fps）采样的测试视频的单帧插值。从表1可以推断，P-INet对于较小的时间间隔具有竞争力，并且对于较大的节奏明显优于SOTA方法ral gaps.例如，我们的方法优于第二好的方法，即。DAIN [2]，分别在15fps和8fps时的平均裕度为2.44 dB和3.51 dB。此外，DAIN在30 fps和8 fps之间的性能差距平均为9.50 dB。相比之下，我们模型的性能差距为5.79 dB。这表明了我们的方法对低帧率视频的有效性。从表1还可以注意到，PNet和INet的联合训练即使对于较小的帧间隙也是有益的例如，INet在30 fps时的性能优于SloMo[17]，平均裕度为0.2 dB在图5中，我们定性地比较了由我们的方法和SOTA VFI方法插值的帧，用于具有大时间间隔的输入样本。从图中可以看出，与其他VFI方法相比，我们的方法插入了更清晰的图像和更清晰的内容。使用VFI方法的PNet 为了突出所提出的PNet用于长期VFI的多功能性，我们将PNet与VFI方法相结合，并对具有相对较大的帧间隙范围从11到30的输入序列执行中间帧插值。遵循Algo中的程序。1，我们首先使用PNet从预训练的P-INet进行双向传播。然后，我们使用最先进的VFI方法在传播帧之间插入中间帧[9，12，17，19]。3个数据集的平均结果绘制在图6中。从图中可以推断，级联模型的表现始终明显优于其普通基线。图7中的定性分析还表明，当输入之间的时间距离较大时，与直接使用SOTA VFI方法相比，合并PNet会产生具有更准确内容的内插帧。图中的静态区域对于级联模型，7个出现的尖锐度稍低，3551SloMoPNet + SloMoAdaCoFPNet + AdaCoF峰值信噪比（dB）峰值信噪比（dB）→→ΣΣz= （一）|F|+的|F|）的情况。我们可以推出twoit+i→t t+n−i→t+nDDDD292929292727272725252525232323 23212111 16 21 26 31帧间隙2111 16 21 26 31帧间隙2111 16 21 26 31帧间隙11 16 21 26 31帧间隙图6.用最先进的VFI方法对PNet进行输入叠加FeFlow[12]PNet+FeFlow[12]DAIN[2]PNet+DAIN[2]GT图7.定性分析PNet与最先进的VFI方法级联。中国人240302826GoPro32302826NFS32302824220 4 8 12 16 2024时间步长24220 4 8 12 16 2024时间步长26240 4 8 12 16 20 24时间步长图8.长期VFI不同时间步长的中间帧的定量分析可能是因为插值模型使用PNet作为输入，而不是原始输入帧。长期多帧插值。除了评估VFI方法在不同帧速率下的鲁棒性之外，我们还分析了在直接非常低fps非常高 fps上采样期间内插的中间帧的质量。我们执行10 fps240 fps的上变频，并在每个时间步长测量插值帧的质量。在图 8 中，我们将我们的方法与 SloMo[17] 和DAIN[2]进行比较，因为它们也能够进行多帧插值。正如预期的那样，当我们从两侧移动到中间时间步长时，性能通常会降低。然而，从图8中可以注意到，与P-INet相比，SloMo和DAIN的性能迅速下降。例如，SloMo的平均性能范围，即在3个数据集上平均的最大和最小PSNR值之间的差，为8.62 dB。相比之下，P-INet的平均性能范围为6.11 dB。我们的模型不是基于预先计算的运动（由于大运动可能会不准确）来插值帧，而是适应于传播和插值帧，这解释了显著的性能。在现有技术的方法上实现的增益，特别是对于中心时间步长。光流图9描绘了我们的网络估计的特征流与相应的伪地面实况（p-GT）流的比较。根据图9，我们的模型合理地预测了准确的运动来传播特征。为了进一步确认M2FNet中的G和L是否正确地学习解码特征传播的运动，我们定量分析了锚点和预测特征之间估计的光流为了纯粹地评估运动的幅度，我们计算所估计的流量的绝对值图10，我们绘制了不同时间间隔的估计流量（在0 - 1之间重新缩放）的大小的热图，其中1ˆ ˆ2图中的关键点10个。第一，近距离接触前--投射到锚点的特征直接与所估计的流的大小相关，即，G和L对较近的特征解码较小的运动，而对较远的特征解码较大的运动。其次，M2FNet隐含地知道输入之间的相对时间距离，即预测流的幅度随着帧间隙的增加而增加。DainPNet + DAINFeFlowPNet + FeFlowSlomoDAINP-INet（我们的）SlomoDAINP-INet（我们的）SlomoDAINP-INet（我们的）峰值信噪比（dB）峰值信噪比（dB）峰值信噪比（dB）峰值信噪比（dB）峰值信噪比（dB）3552→LLLDDDDDDD×D→P-INet28.43 0.843输入（xt）f（Ours）f（p-GT）Input（xt）f（我们的s）f（p-GT）图9.与伪地面实况（p-GT）流相比，特征之间的估计光流的定性分析表2.消融实验[40]第四十话GOPRO[27]1 3 5 7 9 11 13 15 17 19 21 23 25 27 29帧间隙图10.估计流量的定量分析。5. 消融研究在这里，我们提出了烧蚀实验的不同组成部分的P-INet。我们评估了在长期VFI（10 fps和240 fps）期间，所有传播帧的质量（参见表 2 ），用于测试Tube240[40]和GOPRO[27]视频损失函数。为了突出使用光流作为特征传播指导的重要性，我们预测特征而不估计流，并直接从相应的预测特征回归帧，即P-INet在没有M2 FNet的情况下训练。与使用运动监督训练的模型相比，在没有运动监督的情况下训练的网络表现明显更差。我们还确认了第二节中估计的不同流量组的贡献3 .第三章。从表2中可以推断出，作为在没有帧间运动监督的情况下训练的网络，估计预测特征之间的光流是至关重要的（图中以绿色示出）（3）表现欠佳此外，我们还研究了通过限制末端传播特征和参考特征之间的光流来解决潜在方向模糊的重要性（图中蓝色所示）（3）第三章。从表2中可以看出，在没有方向监督的情况下训练网络会导致性能下降 0.48 dB 。我们分析了梯度差异损失 [24]（GDL）在减轻模糊帧预测方面的好处。从表2中可以注意到，使用GDL训练我们的模型可以将性能提高0.65dB的平均裕度。M2FNet。我们研究了M2FNet中全局（G）和局部（L）运动解码器的重要性。首先，我们只使用G来解码运动。这导致了低于标准的网络性能，因为G仅限于在特征级预测全局运动，并且测试视频中明显的局部运动不能有效预测。理论上，L可以解码局部和全局运动（而不需要用G显式地对全局运动建模），因为CNN在运动估计任务中是有效的[15，41]。这在经验上也是显而易见的，因为仅使用L训练的网络给出了具有竞争力的性能。然而，使用G预测全球运动被证明是一个相当大的每-0.92 dB的增益。帧解码。我们研究了在PNet中解码当前帧时，过去帧的重复特征的重要性。如从表2可以推断的，仅关注锚特征（仅在等式2中翘曲ut）（7））当合成框架对所有过去的特征给出明显较低的性能补偿时。此外，不参加-ing 到任何过去的特征（不包括来自等式的 vt+i ）（8））在帧解码期间执行明显更差。6. 结论我们的工作介绍了一个时间上强大的VFI框架，采用特征传播的方法。所提出的运动监督为手头的任务定制网络，因为它强制执行根据输入之间的运动而传播的特征，而不管它们的内容如何。PNet与简单插值骨干的自适应级联显著提高了低帧速率视频的插值质量4.第一章局限性。多尺度方法以及aggre门运动估计显着增加了我们的模型的时间复杂度。例如，在10 fps 240 fps的上变频过程中，给定大小为448 256的输入对，SloMo[17]需要0.32秒，而P-INet需要3.37秒。我们实验观察失败的情况下，有一个快速移动的小物体在一个场景的前景与一个相对较大的，动态的背景。在这种情况下，PNet无法检测和预测这种物体的运动，而是在传播过程中模仿输入特征这导致内插视频中的时间抖动伪影。使用检测模块[47]或注意力机制[7]来改善这种限制将是一个有趣的未来方向。流量大小（zi）0.180.210.230.310.410.480.550.60.660.690.770.830.860.9210.150.180.190.250.320.370.420.460.50.520.580.630.640.690.750.120.140.150.180.230.260.30.320.350.360.40.430.440.470.50.120.120.130.140.160.190.210.210.230.240.270.280.280.30.32损失函数PSNRSSIMPSNRSSIM不带LM2FNet无帧间运动无方向监控无LGDL25.0925.8127.1326.970.7300.7760.8010.80125.1626.1127.8327.840.7280.7760.8060.813M2FNet不含DL25.130.73425.710.760不包括DG26.960.80127.340.811帧解码在Eq.（七）26.820.79327.410.812从等式中排除vt+i（八）26.030.78126.570.7893553引用[1] Dawit Mureja Argaw，Junsik Kim，Francois Rameau，and In So Kweon.运动模糊视频内插和外插。2021年AAAI人工智能会议。2[2] Wenbo Bao ， Wei-Sheng Lai ， Chao Ma ， XiaoyunZhang，Zhiyong Gao，and Ming-Hsuan Yang.深度感知视频帧插值。在IEEE计算机视觉和模式识别会议上，2019年。一、二、六、七[3] Wenbo Bao，Wei-Sheng Lai，Xiaoyun Zhang，ZhiyongGao，Ming-Hsuan Yang.MEMC-NET：运动估计和运动补偿驱动的神经网络，用于视频插值和增强。IEEETransactionsonPatternAnalysisandMachineIntelligence，2019。2[4] Zhixiang Chi，Rasoul Mohammadi Nasiri，Zheng Liu，Juwei Lu，Jin Tang，and Konstantinos N Plataniotis.一次全部：时间自适应多帧插值与先进的运动建模。arXiv预印本arXiv：2007.11762，2020。2[5] Hsu-kuang Chiu，Ehsan Adeli，and Juan Carlos Niebles.分割未来。 IEEE Robotics and Automation Letters ， 5（3）：4202-4209，2020。2[6] Myungsub Choi，Janghoon Choi，Sungyong Baik，TaeHyun Kim，and Kyoung Mu Lee.基于元学习的场景自适应视频帧内插。在IEEE/CVF计算机视觉和模式识别会议论文集，第9444-9453页，2020年。2[7] Myungsub Choi ， Heewon Kim ， Bohyung Han ， NingXu，and Kyoung Mu Lee.通道注意力是视频帧插值所需的全部在AAAI，2020年。二、八[8] Camille Couprie，Pauline Luc，and Jakob Verbeek.联合未来语义和实例分割预测。在欧洲计算机视觉会议（ECC

下载后可阅读完整内容，剩余1页未读，立即下载