IFRNet：高效帧插值的中间特征改进网络

178 浏览量更新于2023-10-25 收藏 18.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

05034.535.035.536.036.519690IFRNet：用于高效帧插值的中间特征改进网络0Lingtong Kong 1 �，Boyuan Jiang 2 �，Donghao Luo 2，Wenqing Chu 2，Xiaoming Huang 2，Ying Tai 2，Chengjie Wang2，Jie Yang 1 †01 上海交通大学，中国，2 腾讯优图实验室0{ ltkong，jieyang } @sjtu.edu.cn0{ byronjiang, michaelluo, wenqingchu, skyhuang, yingtai, jasoncjwang } @tencent.com0摘要0主流的视频帧插值算法通常依赖于具有大量参数或较大延迟的复杂模型架构，这使得它们无法适用于各种实时应用。在这项工作中，我们设计了一种高效的基于编码器-解码器的网络，称为IFRNet，用于快速生成中间帧。它首先从给定的输入中提取金字塔特征，然后通过强大的中间特征与双边中间光流场进行改进，直到生成所需的输出。逐渐改进的中间特征不仅可以促进中间光流估计，还可以补偿上下文细节，使IFRNet不需要额外的合成或改进模块。为了充分发挥其潜力，我们进一步提出了一种新颖的面向任务的光流蒸馏损失，以便专注于学习有关帧生成的有用教师知识。同时，还对逐渐改进的中间特征施加了新的几何一致性正则化项，以保持更好的结构布局。在各种基准测试中的实验证明了所提方法的出色性能和快速推理速度。代码可在https://github.com/ltkong218/IFRNet找到。01. 引言0视频帧插值（VFI）是将低帧率（LFR）图像序列转换为高帧率（HFR）视频的重要低级计算机视觉任务。相关技术广泛应用于各种实际应用，如慢动作生成[22]，新视角合成[55]和卡通创作[42]。尽管已经有大量研究人员对此进行了研究，但仍存在一些挑战。0� 平等贡献。本工作是在腾讯优图实验室实习期间完成的。† 通讯作者：JieYang（jieyang@sjtu.edu.cn）。该研究部分得到了中国国家自然科学基金（No: 61876107，U1803261）的支持。0在Tesla V100 GPU上的1280×720视频推理FPS0Vimeo90K测试集上的PSNR0DAIN（CVPR'19）CAIN（AAAI'20）0SoftSplat（CVPR'20）0BMBC（ECCV'20）0CDFI（CVPR'21）0ABME（ICCV'21）0RIFE（ArXiv'21）0IFRNet小型（我们的）0IFRNet大型（我们的）010M 25M 50M0# 参数0图1.速度、准确性和参数比较。提出的IFRNet在快速推理速度和轻量级模型大小方面实现了最先进的帧插值准确性。0处理复杂动态场景时存在很大的挑战，包括大位移、严重遮挡、运动模糊和突然的亮度变化。最近，随着光流网络的发展[13, 24, 45, 46]，基于光流的VFI方法[22, 33, 37,49]取得了显著进展，因为光流可以提供视频序列中帧的明确对应关系。成功的基于光流的方法通常遵循三步流程：1）估计目标帧和输入帧之间的光流。2）通过预测的光流场对输入帧或上下文特征进行空间对齐。3）通过合成网络对扭曲的帧或特征进行改进并生成目标帧。将输入帧和目标帧表示为I0，I1和It（0 < t <1），现有方法要么首先估计光流F0→1，F1→0[3, 22, 32,33, 36]，然后近似或改进双边中间光流Ft→0，Ft→1[9, 22,40,49]，如图2（a）所示，要么将棘手的中间光流估计子任务交给可学习的光流网络进行端到端训练[20, 50,54]，如图2（b）所示。它们的共同步骤是进一步使用图像合成网络对空间对齐的上下文特征[32]进行目标帧的生成或改进。𝑰𝟏𝑭𝟎→𝟏#𝑰𝒕𝑭𝒕→𝟏𝑰𝟎𝑭𝟏→𝟎𝑭𝒕→𝟎𝑰𝟏𝑰𝟎𝑭𝒕→𝟏𝑭𝒕→𝟎#𝑰𝒕𝑰𝟏𝑰𝟎𝑭𝒕→𝟏𝑭𝒕→𝟎#𝑰𝒕19700FlowNet近似0细化合成0(a)0中0FlowNet合成0(b)0(c)0图2. 不同基于流的VFI范式。我们根据具有特定功能的编码器-解码器将现有的基于流的VFI方法大致分类。在（a）[3, 22, 32, 33, 36, 37, 40,49]中，FlowNet估计传统的光流F0→1，F1→0，中间部分近似或进一步细化流场Ft→0，Ft→1。在（b）[20, 50,54]中，中间FlowNet直接预测中间流Ft→0，Ft→1。无论（a）和（b）都包含一个单独的合成网络用于目标帧生成。在（c）中，我们提出的IFRNet共同细化中间流Ft→0，Ft→1以及强大的中间特征ˆφt，以在单个编码器-解码器中生成目标帧。0尽管上述首先估计中间流，然后上下文特征的流程已成为基于流的VFI方法中最流行的范式[9, 32, 33, 37,40]，但它存在一些缺陷。首先，它们将中间流和上下文特征的细化分为独立的编码器-解码器，忽略了这两个关键要素对帧插值的相互促进。其次，基于上述设计概念的级联架构会大幅增加推理延迟和模型参数，使其无法适用于移动和实时应用。在本文中，我们提出了一种新颖的中间特征细化网络（IFRNet）用于VFI，以克服上述限制。我们首次将上述分离的流估计和特征细化合并为一个基于编码器-解码器的单一模型，以实现紧凑和快速推理，如图2（c）所示。它首先通过编码器从给定输入中提取金字塔特征，然后通过粗到细的解码器共同细化双边中间流场和强大的中间特征。改进的架构可以使中间流和中间特征相互受益，使我们的模型不仅能够生成更清晰的移动对象，还能够捕捉更好的纹理细节。为了更好地进行监督，我们提出了面向任务的流分离损失和特征空间几何一致性损失，以有效地指导多尺度运动估计和中间特征细化。具体而言，我们的流分离方法可以自适应地调整蒸馏损失的鲁棒性，并专注于学习用于帧合成的有用教师知识。此外，提出的几何一致性损失可以利用来自地面真实值的提取的中间特征来约束重建的中间特征，以保持更好的结构布局。图1对先进的VFI方法进行了速度、准确性和参数比较，展示了我们方法的最先进性能。总之，我们的主要贡献如下：0•我们设计了一种新颖的IFRNet，用于同时进行中间流估计和中间特征细化，以实现高效的视频帧插值。0•为了促进IFRNet的中间运动估计和中间特征重建，我们新提出了面向任务的流分离损失和特征空间几何一致性损失。0•基准结果表明，我们的IFRNet不仅实现了最先进的VFI准确性，而且具有快速推理速度和轻量级模型大小。02. 相关工作0视频帧插值。主流的VFI方法可以分为基于流的方法[3, 22,29, 32, 33, 36, 37, 40, 49–51, 54]，基于核的方法[7, 8, 12,25, 34, 35, 38]和基于幻觉的方法[10, 16,23]。不同的VFI范式由于帧合成方式的不同具有各自的优点和缺点。例如，基于核的方法通过在局部块上进行卷积来处理运动模糊[34,35]，后续工作主要将其扩展到处理高分辨率视频[38]，增加卷积核的自由度[7, 8,25]，或将其与其他范式结合以进行补偿[4,12]。然而，它们通常计算成本高昂，无法处理遮挡。另一种方式是基于幻觉的方法，它通过混合由可变形卷积[11]或PixelShuffle操作[10]生成的视野特征来直接合成帧。它们可以自然地生成复杂的上下文细节，但当存在快速移动的物体时，预测的帧往往模糊。最近，基于流的VFI方法取得了显著进展，因为光流可以为帧配准提供明确的对应关系。这些解决方案要么使用现成的流模型[32,49]，要么估计任务特定的流[22, 29, 37, 40,50]作为像素级运动的指导。常见的后续步骤是将输入图像向前[14]或向后[48]扭曲到目标帧，最后通过图像合成网络[12, 32, 33,37]对扭曲的帧进行细化，通常实例化为GridNet[15]。为了实现更好的图像插值质量，还设计了更复杂的深度模型来估计中间流场[9, 49]和细化生成的目标帧[22, 33, 36,37]。然而，巨大的计算成本和长时间推理延迟使它们不适用于资源有限的设备。为了从上述模块级联竞争中喘息，并重新考虑先前高效流基VFI范式的改进，例如DVF[29]，我们提出了一种新颖的基于单一编码器-解码器的IFRNet，可以以出色的准确性进行实时推理。Warp𝑭𝒕→𝟎𝒑𝑭𝒕→𝟏𝒑𝑷𝟎𝑷𝟏𝑰𝟎𝑰𝟏𝝓𝟎𝟏𝝓𝟏𝟏𝝓𝟎𝟐𝝓𝟏𝟐𝝓𝟎𝟑𝝓𝟏𝟑𝝓𝟎𝟒𝑭𝒕→𝟎𝟐𝑭𝒕→𝟏𝟐𝑭𝒕→𝟎𝟑𝑭𝒕→𝟏𝟑𝑭𝒕→𝟎𝟏𝑭𝒕→𝟏𝟏(𝝓𝒕𝟑(𝝓𝒕𝟐(𝝓𝒕𝟏𝝓𝒕𝟑𝝓𝒕𝟐𝝓𝒕𝟏𝑭𝒕→𝟎𝑭𝒕→𝟏𝑴𝑹+𝑰𝒕𝑰𝒕𝒈𝒕𝓓𝟒𝓓𝟑𝓓𝟐𝓓𝟏𝓤𝟐(𝑭𝒕→𝟎𝟏)𝓤𝟐(𝑭𝒕→𝟏𝟏)𝓤𝟒(𝑭𝒕→𝟎𝟐)𝓤𝟒(𝑭𝒕→𝟏𝟐)𝓤𝟖(𝑭𝒕→𝟎𝟑)𝓤𝟖(𝑭𝒕→𝟏𝟑)WarpWarp/𝝓𝟎𝟐/𝝓𝟏𝟐/𝝓𝟎𝟑/𝝓𝟏𝟑/𝝓𝟎𝟏/𝝓𝟏𝟏𝑻19710Warp Merge Add0金字塔编码器粗到精解码器0� � � � � � 上采样0图3.IFRNet的架构概述和损失函数。我们的模型是基于高效编码器-解码器的网络，首先使用共享编码器从输入帧中提取金字塔上下文特征，然后通过粗到精的解码器逐渐改进双边中间流场Ft→0，Ft→1以及重建的中间特征ˆφt，直到生成最终输出。除了常见的图像重建损失Lr之外，我们还设计了面向任务的流分散损失Ld和特征空间几何一致性损失Lg，以更有效地指导特征对齐过程，实现中间帧合成。0光流估计。在相邻帧之间找到稠密对应关系，即光流估计[19]，是几十年来研究的重点，因为它在许多下游视频处理任务[5, 52]中起着基础性的作用。FlowNet[13]是第一个尝试使用编码器-解码器U形网络进行光流估计的方法。受传统粗到精范式的启发，SPyNet[39]、PWC-Net [45]和Fast-FlowNet[24]集成了金字塔特征和反向变形，并实现了令人印象深刻的实时性能。知识蒸馏[18]在光流预测中也起着重要作用，通常体现为在无监督光流学习[26, 27]或相关任务[1,41]中生成伪标签。最近的一种VFI方法[20]也使用了蒸馏策略来促进运动预测。除了架构设计的差异外，我们的蒸馏方法可以以任务自适应的方式专注于中间帧合成的有用知识。03. 提出的方法0在本节中，我们首先介绍了基于中间流和中间特征联合改进原则构建的IFRNet架构，以获得一个基于高效编码器-解码器的VFI框架。然后，介绍了两个新颖的目标函数，即面向任务的流分散损失和特征空间几何一致性损失，以帮助我们的模型实现出色的性能。03.1. IFRNet0给定相邻时间点上的两个输入帧I0和I1，视频帧插值旨在合成一个中间帧It，其中0 < t <1。为了实现这个目标，所提出的模型首先进行特征提取阶段，从每个帧中检索出一个金字塔的特征，然后以粗到精的方式逐步改进双边中间流场以及重建的中间特征，直到达到金字塔的最高级别以获得最终输出。图3概述了IFRNet的整体架构。金字塔编码器。为了从每个输入帧中获取上下文表示，我们设计了一个紧凑的编码器E来提取一个金字塔的特征。特意地，共享参数的编码器由每个金字塔级别上的两个3×3卷积块组成，分别具有步长2和1。如图3所示，IFRNet提取了4个级别的金字塔特征，共计8个卷积层，每个卷积层后面跟着一个PReLU激活函数[17]。通过逐渐减少空间尺寸，它将特征通道增加到32、48、72和96，分别为帧I0和I1生成金字塔特征φk0、φk1，其中k∈{1, 2, 3,4}。粗到精解码器。在提取有意义的分层表示之后，我们通过反向变形金字塔特征φk0、φk1生成˜φk0、˜φk1，从而逐步改进中间流场Fkt→0和Fkt→1。ConvConvConvDeconvSplitConcatConvSplitConcatConvConvInput FeatureOutput Feature19720图4. 每个金字塔级别中解码器的详细信息。0粗到细的变形策略包括在每个尺度上计算更容易的残差流。与以前的VFI方法不同，包含后细化[12, 20, 33,37]，我们探索在粗到细的过程中改进双边流预测以提高效率。具体而言，我们使每个解码器Dk+1除了双边流场Fkt→0,Fkt→1之外，还输出一个更高级的重建中间特征ˆφkt，这可以填补缺失的参考信息以促进运动估计。另一方面，更好的预测流场Fkt→0,Fkt→1将源金字塔特征更精确地对齐到目标位置，从而生成更好的˜φk0,˜φk1，这反过来又可以改善更高级别的中间特征重建。因此，IFRNet中的解码器可以共同细化双边中间流场和重建中间特征，相互受益，直到达到期望的输出。此外，逐渐细化的中间特征包含双边遮挡和全局上下文信息，最终可以生成融合掩码并补偿运动细节，这些通常由基于流的方法缺失，使IFRNet成为一个强大的编码器-解码器VFI架构，无需额外的细化[33,37]。具体而言，在每个金字塔级别中，我们将相应的输入特征堆叠成一个整体体积，由一个紧凑的解码器网络Dk前向传递，该网络由一个6个3×3卷积块和一个4×4反卷积组成，分别采用步长1和1/2。每个卷积层后面跟着一个PReLU[17]。每个解码器的详细信息如图4所示。为了保持相对较大的感受野和通道数以进行运动估计和特征编码，同时保持效率，我们修改了第三个和第五个卷积层，仅更新先前输出张量的部分通道。此外，残差连接和交错放置可以促进信息传播和联合细化。更多细节请参见补充材料。请注意，D4的输入和D1的输出与其他解码器不同，因为它们具有任务相关的特性。总之，解码器之间的特征可以通过以下方式计算0[F3t→0, F3t→1, ˆφ3t] = D4([φ40, φ41, T]), (1)0[Fk−1t→0, Fk−1t→1, ˆφk−1t] = Dk([Fkt→0, Fkt→1,ˆφkt, ˜φk0, ˜φk1]), (2)0[Ft→0, Ft→1, M, R] = D1([F1t→0, F1t→1, ˆφ1t, ˜φ10, ˜φ11]),(3)0其中Dk(k = 2,3)表示中间金字塔级别的解码器，[∙]表示连接操作。T是任意时间插值的一个单通道条件输入，0其值都相同，设置为t。M是由sigmoid层导出的一个单通道合并掩码，其元素范围从0到1，R是一个三通道图像残差，可以补偿细节。最后，我们可以通过以下公式合成所需的帧ˆIt0ˆIt = M ⊙ ˜I0 + (1 − M) ⊙ ˜I1 + R, (4) ˜I0 =w(I0, Ft→0), ˜I1 = w(I1, Ft→1), (5)0其中 w 表示反向变形，⊙ 表示逐元素乘法。M根据双向遮挡信息调整混合比例，而 R在流基础生成不可靠时进行一些细节补偿，例如目标帧在两个视图中都被遮挡的区域。与实时光流中的粗到细流程不同[24,45]，该流程主要处理大位移匹配挑战，在视频插值中，由于目标帧缺失，其运动估计变成了一个“鸡生蛋”的问题。因此，IFRNet的解码器在除了中间流场之外还重建了中间特征，同时进行时空特征聚合和中间运动细化，以互相受益。图像重建损失。根据上述分析，为了生成中间帧，我们采用与[37]相同的图像重建损失Lr，该损失在网络输出ˆIt和真实帧Igtt之间，由两个项的和组成，表示为0Lr = ρ(ˆIt - Igtt) + Lcen(ˆIt, Igtt), (6)0其中ρ(x) = (x^2 + ϵ^2)^α，其中α = 0.5，ϵ =10^-3是Charbonnier损失[6]，用作L1损失的替代。而Lcen是census损失，它计算大小为7×7的census变换[31]图像块之间的软汉明距离。03.2. 任务导向的光流蒸馏损失0使用上述重构损失Lr训练IFRNet已经能够进行中间帧合成。然而，简单的优化目标通常会陷入局部最小值，因为照明情况通常具有挑战性，即极端亮度和重复纹理区域。为了解决这个问题，我们尝试采用知识蒸馏[18]策略，通过一个现成的教师光流网络来指导IFRNet的多尺度中间流估计，从而明确地对齐多尺度金字塔特征。在实践中，预训练的教师只在训练过程中使用，并且我们提前计算其光流预测作为伪标签Fpt→0，Fpt→1以提高效率。注意，RIFE[20]也使用了光流蒸馏。然而，他们的无差别蒸馏方式通常会学习到伪标签中存在的不希望的噪声。即使有真实标签可用，光流本身通常也是特定视频任务的次优表示[50]。为了克服上述限制，我们提出了任务导向的光流蒸馏损失，可以减少不利影响，同时专注于对于更好的VFI而言有用的知识。观察到直接控制帧合成的Ft→0，Ft→1对伪标签中的有害信息非常敏感。因此，我们除了对解码器D1施加多尺度光流蒸馏外，完全通过重构损失Lr以任务导向的方式约束其光流预测[50]。此外，我们可以将上述放松的光流预测Ft→0，Ft→1与伪标签Fpt→0，Fpt→1进行比较，计算鲁棒性掩码P0，P1，并使用它们在较低的多个尺度上空间调整蒸馏损失的鲁棒性，以实现更好的任务导向的光流蒸馏，其过程如图3所示。具体而言，我们可以通过以下公式获得Pl (l ∈ {0, 1})312.01.51.00.50.00.51.01.52.0x0.000.250.500.751.001.251.501.752.00(x)(x) = (x2 +2) ,= p/2,= 10(10p1)/3p = 1.0p = 0.9p = 0.8p = 0.7p = 0.6p = 0.5p = 0.4p = 0.3p = 0.2319730光流通常是特定视频任务的次优表示[50]。为了克服上述限制，我们提出了任务导向的光流蒸馏损失，可以减少不利影响，同时专注于对于更好的VFI而言有用的知识。观察到直接控制帧合成的Ft→0，Ft→1对伪标签中的有害信息非常敏感。因此，我们除了对解码器D1施加多尺度光流蒸馏外，完全通过重构损失Lr以任务导向的方式约束其光流预测[50]。此外，我们可以将上述放松的光流预测Ft→0，Ft→1与伪标签Fpt→0，Fpt→1进行比较，计算鲁棒性掩码P0，P1，并使用它们在较低的多个尺度上空间调整蒸馏损失的鲁棒性，以实现更好的任务导向的光流蒸馏，其过程如图3所示。具体而言，我们可以通过以下公式获得Pl (l ∈ {0, 1})0Pl = exp(-β|Ft→l - Fpt→l|epe), (7)0其中|∙|epe计算每个像素的端点误差，控制鲁棒性的系数β设置为0.3，根据网格搜索确定。上述操作的基础是基于任务导向的光流通常与真实光流一致但在某些细节上有所不同的假设。根据以前的经验[21,44]，我们的任务导向的光流蒸馏采用广义Charbonnier损失ρ(x) = (x^2 +ϵ^2)^α，以更好地学习中间光流的鲁棒性，其中参数ϵ和α控制此损失的鲁棒性。形式上，可以写成0Ld =0k = 10l = 0 ρ (U2k (Fkt→l) - Fpt→l), (8)0其中Us是尺度因子为s的双线性上采样操作。然而，与以前的方法[21,44]固定格式不同，我们通过让ϵ和α成为鲁棒性参数p的函数来使其适应VFI任务，其中p ∈ (0,1]表示上述鲁棒性掩码P0，P1中任意位置的鲁棒性值。通常情况下，我们使用线性和指数线性函数分别生成α和ϵ，如下所示0α = p/2, ϵ = 10 - (10p - 1)/3. (9)0这些系数是基于两种典型情况选择的。例如，当p =1.0时，ρ(x)变为公式6中的替代L1损失。当p =0.4时，它变为LiteFlowNet[21]中使用的鲁棒损失。图5给出了这种自适应鲁棒损失的一些直观示例。总体而言，在每个空间位置上，如果解码器D1的任务导向光流预测与伪标签中的光流一致，自适应蒸馏损失的梯度相对陡峭，倾向于通过常规梯度下降优化器将这些有用的信息蒸馏到底部三个解码器中。另一方面，损失将更加鲁棒，以降低这种相对有害的光流知识。0图5.任务导向的流量蒸馏损失。它采用广义Charbonnier损失的格式，而每个位置的具体形式由相应的鲁棒性参数p控制，该参数由方程7确定以获得任务自适应能力。03.3. 特征空间几何一致性损失0除了上述任务导向的流量蒸馏损失以促进多尺度中间流量估计外，更好的中间特征监督对于进一步改进也是首选的。观察到编码器E提取的金字塔特征φk0，φk1在某种程度上起到与解码器Dk+1重建的中间特征ˆφkt相当的作用，我们尝试使用相同参数共享的编码器E从真实帧Igtt中提取一组特征φkt，并使用φkt在多尺度特征域中规范化重建的中间特征ˆφkt。直观地说，我们可以采用常用的L1损失来限制ˆφkt接近φkt。然而，过于严格的约束会损害重建的中间特征ˆφkt中包含的全局上下文和遮挡信息。为了放松这一约束并受到普查变换的局部几何对齐属性的启发，我们将普查损失Lcen[31]扩展到多尺度特征空间中进行渐进监督，其中以通道为单位计算具有3×3补丁的普查变换对应特征图之间的软汉明距离。形式上，这个损失可以写成0Lg =0k =1 Lcen (ˆφkt, φkt). (10)0我们的动机是提取的金字塔特征，包含了用于帧合成的有用的低级结构信息，可以规范重建的中间特征，以保持更好的几何布局。对于每个空间位置，Lg只对每个特征图中的邻域局部块的几何形状施加约束。因此，对于ˆφkt的通道表示没有限制，可以编码双边遮挡和残差信息。基于上述分析，我们的最终损失函数，包含三个部分进行联合优化，可以表示为0L = Lr + λLd + ηLg, (11)0其中，权重参数设置为 λ = 0.01，η = 0.01。SepConv [35]33.79/0.970234.78/0.966939.41/0.990034.97/0.976229.36/0.925324.31/0.84480.06521.70.36CAIN [10]34.65/0.973034.91/0.969039.89/0.990035.61/0.977629.90/0.929224.78/0.85070.06942.81.29AdaCoF [25]34.47/0.973034.90/0.968039.80/0.990035.05/0.975429.46/0.924424.31/0.84390.05421.80.36RIFE [20]35.62/0.978035.28/0.969040.06/0.990735.75/0.978930.10/0.933024.84/0.85340.0269.80.20IFRNet35.80/0.979435.29/0.969340.03/0.990535.94/0.979330.41/0.935825.05/0.85870.0255.00.21IFRNet small35.59/0.978635.28/0.969139.96/0.990535.92/0.979230.36/0.935725.05/0.85820.0192.80.12ToFlow [50]33.73/0.968234.58/0.966739.08/0.989034.39/0.974028.44/0.918023.39/0.83100.1521.40.62CyclicGen [28]32.09/0.949035.11/0.968437.72/0.984032.47/0.955426.95/0.887122.70/0.80830.16119.81.77DAIN [3]34.71/0.975634.99/0.968339.73/0.990235.46/0.978030.17/0.933525.09/0.85841.03324.05.51SoftSplat [33]36.10/0.970035.39/0.9520----0.19512.20.90BMBC [36]35.01/0.976435.15/0.968939.90/0.990235.31/0.977429.33/0.927023.92/0.84323.84511.02.50CDFI full [12]35.17/0.964035.21/0.950040.12/0.990635.51/0.977829.73/0.927724.53/0.84760.3805.00.82ABME [37]36.18/0.980535.38/0.969839.59/0.990135.77/0.978930.58/0.936425.42/0.86390.90518.11.30IFRNet large36.20/0.980835.42/0.969840.10/0.990636.12/0.979730.63/0.936825.27/0.86090.07919.70.7919740方法 Vimeo90K UCF101 SNU-FILM 时间（秒）参数（百万） FLOPs（兆）简单中等困难极端0表1.Vimeo90K、UCF101和SNU-FILM数据集上VFI结果的定量比较（PSNR/SSIM）。对于每个项目，最佳结果用粗体表示，次佳结果用下划线表示。上下部分由运行时间分隔。04. 实验0在本节中，我们首先介绍本文中使用的实现细节和数据集。然后，我们在各种基准测试上定量和定性地比较IFRNet与最新的先进技术。最后，我们进行消融研究，分析提出的方法的贡献。主要论文中的实验遵循t =0.5的常规做法，即合成单个中间帧。IFRNet还支持具有时间编码T的多帧插值，其结果在补充材料中呈现。04.1. 实现细节0我们使用PyTorch实现了提出的算法，并使用Vimeo90K[50]训练集从头开始训练IFRNet。我们的模型通过AdamW[30]算法进行了300个epoch的优化，总批量大小为24，在四个NVIDIA Tesla V100GPU上进行。学习率最初设为1×10-4，并按照余弦衰减时间表逐渐衰减到1×10-5。在训练过程中，我们通过随机翻转、旋转、反转序列顺序和随机裁剪大小为224×224的补丁来增强样本。对于光流蒸馏，我们提前使用预训练的LiteFlowNet[21]提取双边中间光流场的伪标签，并在整个训练过程中对帧三元组进行一致的增强操作。04.2. 评估指标和数据集0我们在各种数据集上评估我们的方法，涵盖了各种运动场景，以进行全面比较。定量评估采用常见的指标，如PSNR和SSIM[47]。对于Middlebury，我们使用官方的IE和NIE指标。现在，我们简要介绍用于评估我们方法的测试数据集。Vimeo90K[50]：它包含448×256分辨率的帧三元组。测试部分包含3,782个三元组。0UCF101 [43]：我们采用了DVF[29]中选择的测试集，其中包括379个256×256帧大小的三元组。SNU-FILM[10]：SNU-FILM包含大约1280×720分辨率的1,240个帧三元组。根据运动幅度，它被分为四个不同的部分，即Easy，Medium，Hard和Extreme，以进行详细比较。Middlebury[2]：Middlebury基准是一个广泛使用的用于评估光流和VFI方法的数据集。该数据集中的图像分辨率约为640×480。在本文中，我们在不使用Other集的情况下对Evaluation集进行测试。04.3. 与最新技术的比较0我们将IFRNet与最先进的VFI方法进行比较，包括基于核的SepConv [35]，AdaCoF [25]和CDFI[12]，基于光流的ToFlow [50]，DAIN [3]，Soft-Splat[33]，BMBC [36]，RIFE [20]和ABME[37]，以及基于幻觉的CAIN [10]和FeFlow[16]。对于SNU-FILM的结果，我们执行CDFI和RIFE的发布代码，并参考ABME中测试的其他结果。对于Middlebury，我们直接在评估部分进行测试，并将插值结果提交到在线基准测试。为了测量推理速度和计算复杂性，我们在一个Tesla V100GPU上以1280×720分辨率运行所有方法，并使用100次迭代平均运行时间。为了公平比较，我们进一步通过将特征通道缩放为2.0和0.75来构建IFRNet的大版本和小版本，并根据它们的推理时间将上述方法分为两类，即快速和慢速。定量评估。表1和表2总结了不同基准测试的定量结果。在Vimeo90K和UCF101测试数据集上，IFRNetlarge在PSNR和SSIM指标上都取得了最佳结果。最近的方法ABME[37]也获得了类似的准确性。然而，由于单一编码器-解码器架构的高效性，我们的模型在具有相似参数数量的情况下运行速度提高了11.5倍。我们的大模型在Easy部分也获得了领先的结果。19750（a）真实图像0（b）叠加0（c）SepConv [35]0（d）DAIN [3]0（e）CAIN [10]0（f）AdaCoF [25]0（g）CDFI [12]0（h）ABME [37]0图6。在SNU-FILM（Hard）数据集上对不同VFI方法进行定性比较。提出的IFRNet算法可以合成具有清晰边界的快速移动对象，同时保持明显的上下文细节。放大以获得最佳视图。0方法平均 Mequon Schef�era Urban Teddy Backyard Basketball Dumptruck Evergreen0IE NIE IE NIE IE NIE IE NIE IE NIE IE NIE IE NIE IE NIE IE NIE IE NIE0SuperSlomo [22] 5.310 0.778 2.51 0.59 3.66 0.72 2.91 0.74 5.05 0.98 9.56 0.94 5.37 0.96 6.69 0.60 6.73 0.69 ToFlow [50] 5.490 0.8402.54 0.55 3.70 0.72 3.43 0.92 5.05 0.96 9.84 0.97 5.34 0.98 6.88 0.72 7.14 0.90 DAIN [3] 4.856 0.713 2.38 0.58 3.28 0.60 3.32 0.69 4.650.86 7.88 0.87 4.73 0.85 6.36 0.59 6.25 0.66 FeFlow [16] 4.820 0.719 2.28 0.51 3.50 0.66 2.82 0.70 4.75 0.87 7.62 0.84 4.74 0.86 6.070.64 6.78 0.67 AdaCoF [25] 4.751 0.730 2.41 0.60 3.10 0.59 3.48 0.84 4.84 0.92 8.68 0.90 4.13 0.84 5.77 0.58 5.60 0.570SoftSplat [33] 4.223 0.645 2.06 0.53 2.80 0.52 1.99 0.52 3.84 0.80 8.10 0.85 4.10 0.81 5.49 0.56 5.40 0.570表2。在Middlebury基准测试上的评估结果。对于每个项目，最佳结果用粗体表示，次佳结果用下划线表示。0在SNU-FILM数据集的中等和困难部分，仅在极端部分落后于ABME。我们认为原因是ABME构建的双边代价体积在估计大位移运动方面表现良好。在表2中，IFRNet在大多数八个Middlebury测试序列中实现了最高性能的VFI准确性，并且在平均IE和NIE指标上优于先前的最先进的SoftSplat[33]。尽管改进有限，我们的方法比采用级联VFI架构的SoftSplat运行速度快2.5倍。对于卷积层的FLOPs，IFRNetlarge的计算量也明显低于其他VFI架构。0关于实时和轻量级的VFI方法，IFRNet在Vimeo90K上的结果比RIFE [20]好约0.2dB，并且在SNU-FILM数据集中的大运动案例中差距更明显。值得注意的是，IFRNet仅使用了一半的参数来实现比RIFE更好的结果，这要归功于中间流和上下文特征的联合细化的优势。与CDFI full[12]相比，IFRNet具有相同的5M参数，同时在Vimeo90K上的PSNR高出0.63dB，并且推理速度快15.2倍。此外，IFRNetsmall还可以进一步0通过提高速度31％，减少参数和计算复杂度44％，与IFRNet相比，仅略微降低帧插值准确性。定性评估。图6在包含大型和复杂运动场景的SNU-FILM（Hard）数据集上直观地比较了各种良好的VFI方法。可以看到基于核的[12，25，35]和基于幻觉的[10]方法无法合成清晰的运动边界，包含幽灵和模糊伪影。与基于光流的算法[3，37]相比，我们的方法可以通过逐渐细化的中间特征生成真实的纹理细节。简而言之，IFRNet可以合成出更舒适的目标帧，提供更好的视觉体验。更多定性结果可以在我们的补充材料中找到。04.4.消融研究0为了验证所提方法的有效性，我们在Vimeo90K和SNU-FILMHard数据集上进行了网络架构和损失函数的消融研究。中间特征。为了消除IFRNet中中间特征ˆφkt的有效性，我们构建了一个模型，通过从多个解码器的输入和输出中移除ˆφkt来实现。756757758759760761762763764765766767768769770771772773774775776777778779780781782783784785786787793794795796797798799800801802803804805806807808809810811812813814815816817818819820821822823824825826827828829830831832833834835836837838839840841847848849850851852853854855856857858859860861862863CVPR#3885CVPR#3885CVPR 2022 Submission #3885. CONFIDENTIAL REVIEW COPY. DO NOT DISTRIBUTE.MethodAverageMequonSchefﬂeraUrbanTeddyBackyardBasketball DumptruckEvergreenIENIEIENIEIENIEIENIEIENIEIENIEIENIEIENIEIENIESuperSlomo [23] 5.310 0.7782.51 0.59 3.66 0.72 2.91 0.74 5.05 0.98 9.56 0.94 5.37 0.96 6.690.606.73 0.69ToFlow [50]5.490 0.8402.54 0.55 3.70 0.72 3.43 0.92 5.05 0.96 9.84 0.97 5.34 0.98 6.880.727.14 0.90DAIN [3]4.856 0.7132.38 0.58 3.28 0.60 3.32 0.69 4.65 0.86 7.88 0.87 4.73 0.85 6.360.596.25 0.66FeFlow [17]4.820 0.7192.28 0.51 3.50 0.66 2.82 0.70 4.75 0.87 7.62 0.84 4.74 0.86 6.070.646.78 0.67AdaCoF [25]4.751 0.7302.41 0.60 3.10 0.59 3.48 0.84 4.84 0.92 8.68 0.90 4.13 0.84 5.770.585.60 0.57BMBC [36]4.479 0.6962.30 0.57 3.07 0.58 3.17 0.77 4.24 0.84 7.79 0.85 4.08 0.82 5.630.585.55 0.56SoftSplat [33]4.223 0.6452.06 0.53 2.80 0.52 1.99 0.52 3.84 0.80 8.10 0.85 4.10 0.81 5.490.565.40 0.57IFRNet large4.216 0.644 2.08 0.53 2.78 0.51 1.74 0.4

下载后可阅读完整内容，剩余1页未读，立即下载