一级时空视频超分辨率网络预测高帧速率和高分辨率帧

180 浏览量更新于2023-10-25 收藏 1.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3370−变焦慢-莫：快速和准确的一级时空视频超分辨率张玉伦3，张云福3，田亚鹏2，张玉伦3，张云福4，张玉伦4，张云福4，张云4，Allebach1，<$，Chenliang Xu2，<$1普渡大学，2罗切斯特大学，3东北大学{xiang43，allebach}@ purdue.edu，{yapengtian，chenliang.xu}@rochester.edu，yunfu@ece.neu.edu，yulun100@gmail.com重叠LR输入HR中间帧重叠LR输入DAIN+双三次DAIN+EDVROurs图1：时空视频超分辨率示例。我们提出了一个一级时空视频超分辨率（STVSR）网络直接预测高帧速率（HFR）和高分辨率（HR）帧从相应的低分辨率（LR）和低帧速率（LFR）帧，而无需显式地插入中间LR帧。HR中间帧t及其相邻低分辨率帧：示出了作为重叠图像的t 1和t + 1。与最先进的两阶段方法相比：在HR中间帧t上的DAIN [1]+ EDVR [37]，我们的方法更能够处理视觉运动，因此恢复更准确的图像结构和更清晰的边缘。此外，我们的网络推理速度比DAIN+ EDVR快3倍以上，模型大小比DAIN + EDVR小4倍摘要在本文中，我们探讨了时空视频超分辨率任务，其目的是从低帧速率（LFR），低分辨率（LR）视频生成高分辨率（HR）慢动作视频。一个简单的解决方案是将其分为两个子任务：视频帧内插（VFI）和视频超分辨率（VSR）。然而，时间内插和空间超分辨率是内在相关的在这个任务中。两阶段法不能充分利用自然属性.此外，现有技术的VFI或VSR网络需要大的帧合成或重构模块来预测高质量视频帧，这使得两阶段方法具有大的模型大小，因此是耗时的。为了克服这些问题，我们提出了一个单级时空视频超分辨率框架，它直接从LFR，LR视频合成HR慢动作视频与VFI网络合成丢失的LR视频帧不同，我们首先在丢失的LR视频帧中时间内插LR帧特征，通过所提出的特征时间内插算法捕获局部时间上下文* 同等缴款;†平等咨询。极化网络然后，我们提出了一个可变形的ConvL-STM对齐和聚合时间信息的同时，更好地利用全球时间上下文。最后，采用深度重构网络对HR慢动作视频帧进行预测。在基准数据集上的大量实验表明，该方法不仅实现了更好的定量和定性性能，而且比最近的两阶段最先进的方法，例如， DAIN+EDVR 和DAIN+RBPN。1. 介绍时空视频超分辨率（STVSR）[30]旨在从低分辨率和低帧速率输入视频自动生成具有高时空分辨率由于HR慢动作视频在视觉上更具吸引力，包含精细的图像细节和清晰的运动动态，因此在诸如电影制作和高清晰度电视的丰富应用中期望它们为了解决这一问题，以往文献[30，22，33，28，6，14]中的大多数现有作品通常采用手工制作3371×正则化并做出强假设。例如，在[30]中采用了时空方向平滑先验，[22]假设静态像素的照明没有显著变化。然而，这些强约束使得这些方法在建模各种各样的时空视觉模式时能力有限。此外，这些方法的优化通常在计算上是昂贵的（例如，[22]中的60帧为1小时）。近年来，深度卷积神经网络在各种视频恢复任务中表现出了很好的效率和有效性，例如视频帧内插（VFI）[24]，视频超分辨率（VSR）[4]和视频去模糊[32]。为了设计STVSR网络，一种直接的方式是通过直接组合视频帧内插方法（例如，SepConv [25]、ToFlow [40]、DAIN [1]等）以及视频超分辨率方法（例如，DUF [11]、RBPN [8]、EDVR [37]等）以两阶段的方式。它首先用VFI插值丢失的中间LR视频帧，然后用VSR重建所有HR帧。然而，STVSR的时间插值和空间超分辨率是内在相关的。两阶段法将它们分成两个单独的过程，不能充分利用这一自然属性。此外，为了预测高质量的视频帧，最先进的VFI和VSR网络都需要一个大的帧重建网络。因此，合成的两阶段STVSR模型将包含大量的参数，并且计算昂贵。为了缓解上述问题，我们提出了一个统一的一阶段STVSR框架，同时学习时间插值和空间超分辨率。我们提出自适应学习可变形特征插值函数，用于在时间上插值中间LR帧特征，而不是像两阶段方法那样合成逐像素LR帧。插值函数中的可学习偏移量可以聚合有用的局部时间上下文，并帮助时间插值处理复杂的视觉运动。此外，我们引入了一个新的可变形的ConvL-STM模型，有效地利用全局上下文的同步时间对齐和聚合。HR视频帧可以用深度SR重构网络从聚合的LR特征重构。为此，一级网络可以端到端地学习以序列到序列的方式将LR、LFR视频序列映射到其HR、HFR空间实验结果表明，提出的一阶段STVSR框架优于国家的最先进的两阶段的方法，即使有更少的参数。图1中示出了一个示例。本文的贡献有三个方面：（1）提出了一种单级时空超分辨率网络，可以在统一的框架下同时解决时间插值和空间SR。我们的一阶段方法比两阶段方法更有效，利用了两个子系统之间的内在相关性问题它在计算上也更有效，因为只需要一个帧重构网络，而不是像现有技术的两阶段方法中那样需要两个大的网络。（2）提出了一种基于中间LR帧可变形采样的利用局部时间上下文的帧特征时间我们设计了一种新的可变形ConvLSTM来显式增强时间对齐能力，并利用全局时间上下文来处理视频中的大运动。(3)我们的一阶段方法在Vid4 [17]和Vimeo [40]上实现了最先进的STVSR它比两级网络快3倍：DAIN [1] + EDVR[37] ，同时模型尺寸减少近 4 。源代码在https://github.com/Mukosame/Zooming- SlowMo-CVPR-2020中发布2. 相关工作在本节中，我们将讨论三个相关的顶级技术：视频帧内插（VFI），视频超分辨率（VSR）和时空视频超分辨率（STVSR）。Video Frame Interpolation The target of video frameinterpolation is to synthesize non-existent intermediateframes in between the original frames. Meyer等人[21]介绍了一种基于相位的帧插值方法，该方法通过逐像素相位调制来生成中间帧Long等人[19]直接用编码器-解码器CNN预测中间帧。Niklaus等人[24，25]将帧内插视为两个输入帧上的局部卷积，并使用CNN来学习每个像素的空间自适应卷积核，以进行高质量帧合成。为了明确地处理运动，也有许多基于流的视频插值方法[10，18，23，2，1]。这些方法通常具有来自光流结果的不准确性和丢失信息的固有问题。在我们的单阶段STVSR框架中，而不是像当前VFI方法那样合成中间LR帧，我们从两个相邻LR帧中插入特征以直接合成缺失帧的LR特征图，而不需要明确的监督。视频超分辨率视频超分辨率旨在从相应的LR帧（参考帧）及其相邻LR帧（支持帧）重建HR视频帧。VSR的一个关键问题是如何将LR支持帧与参考帧在时间上对齐。几种VSR方法[4，34，26，36，40]使用光流进行显式时间对齐，首先使用光流估计参考帧和每个支持帧之间的运动，然后使用预测的运动图扭曲支持帧最近， RBPN 提出了将单帧图像和多帧 SR 相结合的VSR，其中流图直接连接3372不不不}--}2t−1不 t=12Tt=1不 t=1--L2n+1--Lt-1Lt+1Lt-1Lt+1L双向可变形ConvLSTMA1-1…普雷特加1…Kt-1KKt+1图2：我们的单阶段STVSR框架概述。它直接重建连续的HR视频帧，而不合成LR中间帧I/L。利用特征时间插值和双向可变形ConvLSTM来注意，为了更好地说明，我们在该图中仅示出了来自长序列的两个输入LR帧。LR视频帧。但是，很难获得准确的流量;并且流扭曲还将伪像引入到对准的帧中。为了避免这个问题，提出了具有动态滤波器的DUF [11]和具有可变形对准的TDAN [35]，EDVR [37]通过探索多尺度信息扩展了TDAN中的可变形对齐。然而，上述方法中的大多数是多对一架构，并且它们需要处理一批LR帧以仅预测一个HR帧，这使得这些方法在计算上效率低下。递归神经网络，如卷积LSTM [39]（ConvLSTM），可以简化序列到序列（S2 S）学习;并且它们在VSR方法[15，9]中被采用以利用时间信息。然而，如果没有明确的时间对齐，STVSR作为一个重建问题，使用最大后验马尔可夫随机场[7]和图形切割[3]作为求解器。Takeda等人[33]利用局部方向和局部运动来引导时空回归内核。Shahar等人[28]提出在自然视频中利用STVSR的时空补丁递归先验。然而，这些方法对丰富和复杂的时空视觉模式的建模能力有限，并且这些方法的优化通常在计算上是昂贵的。为了解决这些问题，我们提出了一个一级网络，直接学习部分LR观测和HR视频帧之间的映射3. 空时视频超分辨率基于RNN的VSR网络具有有限的能力，给定LR、LFR视频序列：n+1，在视频中处理大而复杂的动作为了实现高效而有效的建模，与现有方法不同，我们提出了一种新的ConvLSTM结构，2t−1t=1我们的目标是生成相应的高分辨率慢动作视频序列：IH={I H}2n+1。相互-Hn一种时空视频超帧的显式状态更新单元，分辨率我们提出了一个更有效的一阶段框架，同时学习时间特征插值和空间SR，而不是简单地将VFI网络和VSR网络相结合来解决STVSR问题，而不需要访问LR中间帧作为监督。中介HR框架 I2t t=1，则没有对应的LR对应于输入序列。为了快速准确地提高空间和时间域的分辨率，我们提出了一种单级时空超分辨率框架：如图2所示的慢速变焦。该框架主要包括四个部分：特征提取器、帧特征时间插值模块、可变形ConvLSTM和HR帧重建器。我们首先使用带有卷积层的特征提取器时空视频超分辨率和k1个残差块来提取特征图：n+1t=1al. [29]首先提出将SR从输入视频帧扩展到时空以特征图作为输入，域由于LR帧中缺少像素，甚至几个完整的LR帧不可用，因此STVSR是一个高度不适定的逆问题。为了提高视频在时间和空间上的分辨率，[29]结合了来自动态场景的多个视频序列的信息，这些视频序列是在子像素和子帧错位处获得的，一个方向性的时空光滑正则化来约束不适定问题。[22]第二十二话然后我们合成LR特征图：F Ln的中间帧与建议的帧特征插值模块。此外，为了更好地利用时间信息，我们使用可变形的ConvLSTM来处理连续的特征图：F。与vanillaConvLSTM不同，所提出的可变形ConvLSTM可以同时执行时间对齐和聚合。最后，我们重建HR慢动作视频序列，残差块卷积像素重排337323∗×2···--·L不1L2132L n2t−1}t=13 22以T1（·）为例。它采用LR帧特征图FL和f3 作为输入来预测用于对F1：np1=g1（[FL，FL]），（2）1 3其中，Δp1是可学习的偏移量，并且也指采样参数：g1表示几个卷积层的一般函数;[，]表示信道级级联。有了学习的偏移量，采样函数可以用可变形卷积来执行[5，42]：T（F L，Φ）=DConv（F L，Φp）.（三）11111L L图3：基于可变形采样的帧特征时间插值由于近似的F_L将被用于预测对应的HR帧，因此它将隐含地强制可学习的偏移以捕获准确的局部时间上下文并且是运动感知的。聚合特征图。3.1. 帧特征时间内插类似地，我们可以学习偏移量p3=g3（[F3，F1]），如下所示：采样参数：Φ3，然后获得采样的有限元分析。图T3（FL，Φ3）具有可变形卷积。为了混合两个采样特征，我们使用一个简单的线性混合函数H（·）：FL=α<$T1（FL，Φ1）+β<$T3（FL，Φ3），（4）其中α和β是两个可学习的11卷积核，并且是卷积算子。由于合成的LR特征图FL将用于预测中间HR给定提取的特征图：来自输入H 2的F L和F LL L1 3帧I2，它将强制合成的LR特征图，LR视频帧：I1和I3，我们想合成fea-对应于缺失的中间LR的真映射FL接近真实的中间LR特征图。因此，我们认为，L2两个偏移量Δp1和Δp3将隐式地学习捕获帧I2.传统视频帧内插网络通常对逐像素视频帧执行时间内插，这将导致两级STVSR设计。与以前的方法不同，我们提出学习一个特征时间插值函数f（·）来直接合成前向和后向运动信息。将所设计的变形时间插值函数应用于{FL n+1}，帧特征图{F2t}t=1。中间特征图FL（参见图3）。插值函数的一般形式可以公式化为：3.2. 可变形ConvLSTM现在我们有连续的帧特征图：L L LL2n+1F2=f（ F1， F3）=H（T1（F1，Φ1）， T3（ F3，Φ3）），（1）其中T1（）和T3（）是两个采样函数，Φ1和Φ3是相应的采样参数;H（）是聚合采样特征的混合函数。为了生成准确的FL，T1（·）应该捕获Ftt=1用于生成相应的HR视频帧，这将是序列到序列映射。它在以前的视频恢复任务中已经证明[40，34，37]，时间信息是至关重要的。因此，不是从对应的indi重构HR帧，而是从对应的indi重构HR帧我们将时间背景从F1之间的前向运动信息和F2，T3（）应该捕获FL和FL之间的后向运动信息。然而，该FL是不可用于计算的前向和后向运动信息在这项任务。为了缓解这个问题，我们使用运动信息-相邻帧。ConvLSTM [39]是一种流行的2D序列数据建模方法，我们可以采用它来执行时间聚合。在时间步t，ConvL-STM更新隐藏状态ht和单元状态ct，其中：在FL和FL之间近似向前和向后h、c=ConvLSTM（h，c），F L）。（五）13吨不t−1t−1t运动信息灵感来自最近的变形对齐-在[35]中，对于VSR，我们提出使用可变形采样函数来隐式地捕获用于帧特征时间内插的运动信息通过在采样函数中使用可变形卷积来探索丰富的局部时间上下文，我们的特征时间插值甚至可以处理视频中非常大的运动。这两个采样函数具有相同的网络设计，但具有不同的权重。为简单起见，我们使用Φ1偏移L1康卡特Φ1（ΦL，Φ1）1Conv 偏移字段共混可变形卷积一种对苯二甲酰亚2LΦ33康卡特φ3（φL，Φ3）3Conv偏移偏移领域31LL3374从其状态更新机制 [39] 中，我们可以了解到ConvLSTM只能隐式地捕获先前状态之间的运动：h t-1和c t-1以及具有小卷积感受野的当前输入特征图。因此，ConvLSTM在处理自然视频中的大运动方面能力有限。如果视频具有大的运动，则在先前状态和F_L之间将存在严重的时间失配。那么，ht-1和ct-1将传播失配3375不×不不××不t−1不t−1不不GT H2 2t=1不tt不H2n+1图4：ConvLSTM普雷特普雷特可变形的ConvLSTM以更好地利用其中，IGT是指第t个地面实况HR视频帧，Charbonnier罚函数[13]用作损失项，并且根据经验将k设置为110−3。由于空间和时间SR问题在STVSR中是内部相关的，因此我们的模型是端到端可训练的，并且可以同时学习这种时空插值，只需从全局时间上下文和处理快速运动视频。在时间步t，我们引入状态更新单元来学习可变形采样，以自适应地将隐藏状态ht-1和单元状态ct-1与当前输入特征映射：FL对齐。“noisy”因此，从ht重构的HR帧Ih将遭受令人讨厌的伪影。为了解决大运动问题并有效地利用全局时间上下文，我们显式地将具有可变形对齐的状态更新单元嵌入到ConvLSTM中（参见图2）。4）：ph=gh（[ht−1，F L]），HR视频帧。3.4.实现细节在我们的实现中，k1= 5和k2= 40残留块中使用的特征提取和HR帧重建模块，分别。我们随机裁剪一系列下采样图像块，大小为并取出奇数索引的4帧作为LFR和LR输入，并将相应的4× 3大小的连续7帧序列作为监督。此外，我们还通过随机旋转90度、180度和270度以及水平翻转来进行数据扩充我们在[37]中采用了金字塔、级联和可变形（PCD）结构，t tpc=gc（[ct−1，F L]），ha= DConv（ ht−1，ph），（六）可成形对齐并应用Adam [12]优化器，其中我们对每个批次[20]使用余弦退火将学习率从4e-4衰减到1e-7。批量大小设置为t−1at−1 =DConv（ct−1，pc），在2个Nvidia Titan XP GPU上训练。ht，ct=ConvLSTM（haat−1 、FL），4. 实验和分析其中gh和gc是几个卷积层的通用函数，Δph和Δpc是预测偏移，ha4.1. 实验装置和 CA分别是对齐的隐藏和单元状态。与 vanillaConvLSTM相比，我们显式地强制隐藏状态ht−1和细胞状态ct−1与可变形ConvL-STM中的当前输入特征图FL对齐，这使得它更能够处理视频中的运动此外，为了充分探索时间信息，我们以双向方式使用可变形ConvLSTM[27]。我们将时间反转的特征映射馈送到相同的可变形ConvLSTM中，并将来自前向传递和后向传递的隐藏状态连接为用于HR帧重建的最终隐藏状态ht23.3.帧重构为了重建HR视频帧，我们使用时间共享的合成网络，该网络将各个隐藏状态ht作为输入并输出相应的HR帧。它具有k2个堆叠的残差块[16]用于学习深度特征，并利用具有Pix-elShuffle的子像素放大模块来重建HR帧{I}，如[31]中所示。数据集我们使用Vimeo-90 K作为训练集[40]，包括超过60，000个7帧训练视频序列。该数据集广泛用于以前的VFI和VSR工作[2，1，35，8，37]。Vid4 [17]和Vimeo测试集[40]用作评估数据集。为了测量不同运动条件下不同方法的性能，我们将Vimeo测试集分为快速运动，中等运动和慢速运动集[8]，分别包括1225，4977和1613个视频剪辑我们从原始中等运动集合中移除5个视频剪辑，从慢运动集合中移除3个剪辑，这些剪辑具有连续的全黑背景帧，这将导致PSNR上的无限值我们通过具有下采样因子4的双三次生成LR帧，并使用奇数索引的LR帧作为输入来预测对应的连续HR和HFR帧。采用峰值信噪比（ PSNR ）和结构相似性指数（SSIM）[38]进行评价不同方法在Y通道上的STVSR性能到为了优化我们的网络，我们使用重建损失函数-衡量不同网络的效率，我们还将-问题：lrec= .||I− I ||（7）优化整个Vid4的模型大小和推理时间[17]数据集在一个Nvidia Titan XP GPU上测量。2我们使用ht来表示最终的隐藏状态，但它将指的是双向可变形ConvLSTM中的关联隐藏状态。3考虑到最近最先进的方法（例如，EDVR [37]和RBPN [8]）仅使用4作为放大因子，我们采用相同的做法。拉瓜t-1L不变形采样t-1拉瓜��A1-1可变形采样A1-1C得双曲余切值.3376HR重叠LRSepConv+RCANSepConv+RBPN SepConv+EDVR重叠LR帧DAIN+双三次DAIN+RCAN DAIN+RPBN DAIN+EDVROursHR重叠LRSepConv+RCANSepConv+RBPN SepConv+EDVR重叠LR帧DAIN+双三次DAIN+RCAN DAIN+RPBN DAIN+EDVROursHR重叠LRSepConv+RCANSepConv+RBPN SepConv+EDVR重叠LR帧DAIN+双三次DAIN+RCAN DAIN+RPBN DAIN+EDVROursHR重叠LRSepConv+RCANSepConv+RBPN SepConv+EDVR重叠LR帧DAIN+双三次DAIN+RCAN DAIN+RPBN DAIN+EDVROurs图5：不同方法在Vid4和Vimeo数据集视频帧上的视觉比较。我们的单阶段Zooming SlowMo模型可以重建更具视觉吸引力的HR视频帧，具有更准确的图像结构和更少的模糊伪影。4.2. 与现有技术方法的我们比较了我们的一个阶段的变焦SlowMo网络的性能，两个阶段的最先进的（SOTA）的VFI和VSR网络组成的方法。比较了三种最新的SOTA VFI方法SepConv [25]、Super-SloMo4 [10]和DAIN [1为了实现STVSR，使用三种SOTA SR模型（包括单图像SR模型RCAN [41]和两种最新的VSR模型RBPN [8]和EDVR[37]）从原始LR和插值LR帧生成HR帧定量结果示于表1中。从塔-4 由于没有官方的源代码发布，我们使用了来自https://github.com/avinashpaliwal/Super- SloMo 的非官方 PyTorch 实现。我们可以了解到以下事实：（1）DAIN+EDVR是12种比较方法中性能最好的两阶段方法;（2）VFI很重要，特别是对于快速运动视频。虽然RBPN和EDVR对于VSR的表现要比RCAN好得多，但是，当配备更先进的VFI网络DAIN时，DAIN+RCAN可以在Vimeo-Fast集上实现与Sep- Conv+RBPN和SepConv+EDVR相当甚至更好的(3)VSR 也很重要。例如，对于相同的 VFI 网络：DAIN，EDVR始终比其他VSR方法实现更好的STVSR性能。此外，我们可以看到我们的网络比DAIN+EDVR的性能高0。19 dB（视频4，0）。25 dBon Vimeo-Slow ， 0. 在 Vimeo-Medium 上为 75dB ，在Vimeo-Fast上为1 dB。3377××××表1：我们的结果与两阶段VFI和VSR方法在测试集上的定量比较。最好的两个结果分别以红色和蓝色突出显示。总运行时间是在整个Vid4数据集上测量的[17]。请注意，在运行时方面进行比较时，我们省略了Bicubic的基线模型。VFI方法Sr方法Vid 4Vimeo-FastVimeo-MediumVimeo-Slow参数运行时-VFI运行时-SR总平均值PSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIM（百万）（s）（s/frame）超级斯洛莫[10]双三22.840.577231.880.879329.940.847728.370.810219.80.28---超级斯洛莫[10]RCAN [41]23.800.639734.520.907632.500.888430.690.862419.8+16.00.2868.1568.430.4002超级斯洛莫[10]RBN [8]23.760.636234.730.910832.790.893030.480.858419.8+12.70.2882.6282.900.4848超级斯洛莫[10]EDVR [37]24.400.670635.050.913633.850.896730.990.867319.8+20.70.2824.6524.930.1458SepConv [25]双三23.510.627332.270.889030.610.863329.040.829021.72.24---SepConv [25]RCAN [41]24.920.723634.970.919533.590.912532.130.896721.7+16.02.2468.1570.390.4116SepConv [25]RBN [8]26.080.775135.070.923834.090.922932.770.909021.7+12.72.2482.6284.860.4963SepConv [25]EDVR [37]25.930.779235.230.925234.220.924032.960.911221.7+20.72.2424.6526.890.1572DAIN [1]双三23.550.626832.410.891030.670.863629.060.828924.08.23---DAIN [1]RCAN [41]25.030.726135.270.924233.820.914632.260.897424.0+16.08.2368.1576.380.4467DAIN [1]RBN [8]25.960.778435.550.930034.450.926232.920.909724.0+12.78.2382.6290.850.5313DAIN [1]EDVR [37]26.120.783635.810.932334.660.928133.110.911924.0+20.78.2324.6532.880.1923我们26.310.797636.810.941535.410.936133.360.913811.10--10.360.0606在具有快速运动的视频上获得的显着改进表明，我们的具有利用局部和全局时间上下文的模拟的一阶段网络更能够处理不同的时空模式，包括挑战视频中的大运动，而不是两阶段方法。此外，我们还研究了表1中不同网络的模型大小和运行时间。为了合成高质量的帧，SOTA VFI和VSR网络通常具有非常大的帧重建模块。因此，组成的两级SOTA STVSR网络将包含大量的参数。由于只有一个帧重构模块，我们的一级模型比SOTA两级网络具有更少的参数。从表 1 中，我们可以看到它分别比DAIN+EDVR和DAIN+RBPN小4和3小的模型尺寸使我们的网络比DAIN+EDVR快3倍，比DAIN+RBPN快8倍。与具有快速VFI网络的两阶段方法的比较：Su-perSlowMo，我们的方法仍然快2倍以上。不同方法的视觉结果如图5所示。我们看到，我们的方法实现了显着的视觉改善比其他两阶段的方法。显然，所提出的网络可以合成视觉上吸引人的HR视频帧，具有更精细的细节，更准确的结构，以及更少的模糊伪影，即使是对于快速运动视频序列。我们还观察到，目前的SOTA VFI方法：SepConv和DAIN无法处理大的运动。因此，两级网络往往会生成具有严重运动模糊的HR帧。在我们的一阶段框架中，我们同时学习时间和空间SR探索自然的内在关联。即使使用小得多的模型，我们的网络也可以很好地解决时间SR中的大运动问题。4.3. 消融研究我们已经证明了单阶段框架优于两阶段网络。更进一步的恶魔-重叠LR HR不含DFI@型号（a）不含DFI@型号（b）图6：特征插值的消融研究没有变形采样的通过提出的可变形特征插值（DFI），我们的模型可以很好地利用相邻帧中的局部上下文，从而更有效地处理大的运动。表2：申报模块的消融研究提出的可变形特征插值网络和可变形 ConvLSTM 可以有效地处理运动并提高STVSR性能，而vanilla ConvLSTM在遇到视频中的大运动时表现较差。方法(a)（b）第（1）款（c）第（1）款（d）其他事项（e）朴素特征插值可变形特征插值√√√√√ConvLSTM可变形ConvLSTM（DConvLSTM）双向DConvLSTM√√√Vid4（慢动作）25.1825.3425.6826.1826.31Vimeo-Fast（快速动作）34.9335.6635.3936.5636.81为了评估网络中不同模块的有效性，我们进行了全面的消融研究。可变形特征插值的有效性为了研究所提出的可变形特征插值（DFI）模块，我们引入两个基线：（a）和（b），其中模型（a）仅使用卷积来混合LR3378重叠LR HR，带DFI，带DFI+ConvLSTM，带DFI+DConvLSTM图7：可变形ConvLSTM（DConvLSTM）的消融研究。ConvLSTM在遇到具有快速动作的视频时会失败。嵌入状态更新单元，所提出的DConvLSTM更能够利用全局时间上下文来重建更准确的视觉内容，即使是快速运动视频。HR w/o双向w/双向图8：DConvLSTM中双向机制的消融研究。该模型在DConvLSTM中加入双向机制，可以同时利用先前和未来的上下文，从而重构出具有更精细图像细节的视觉效果更好的帧，特别是对于第一时间步的视频帧，它不能从其他帧中获取任何时间信息。不具有如模型（b）中的可变形采样功能的特征此外，（a）或（b）都没有ConvLSTM或DCon-vLSTM。从表2中，我们发现在PSNR方面，（b）在具有慢动作的Vid 4上优于（a）0.16dB，在具有快动作的Vimeo-Fast上优于（a）0.73dB。图6显示了一个直观的比较。我们可以看到，（a）产生了严重运动模糊的人脸，而所提出的利用局部时间上下文的可变形特征插值可以有效地解决大运动问题，并帮助模型(b)生成具有更清晰的面部结构和细节的帧所提出的DFI模块的优越性表明，可变形采样函数中的学习偏移可以有效地利用局部时间上下文，并且即使在没有任何显式监督的情况下也可以成功地捕获向前和向后运动。可变形ConvLSTM的有效性为了验证所提出的可变形ConvLSTM（DConvL-STM）的效果，我们比较了四种不同的模型：（b）、（c）、（d）和（e），其中（c）将vanilla ConvLSTM结构添加到（b）中，(d)利用所提出的DConvLSTM，以及（e）以双向方式采用DConvLSTM。从表2中，我们可以看到，（c）在Vid 4上的表现优于（b），而在Vimeo-Fast上的表现则不如（b）。结果验证了vanilla ConvLSTM可以利用有用的全局时间上下文来处理慢动作视频，但不能阻止在视频中消除大的动作。此外，我们观察到（d）明显优于（b）和（c），这表明我们的DConvLSTM可以成功地学习先前状态和当前特征图之间的时间对齐因此，它可以更好地利用全局上下文来重建具有更多细节的视觉上令人满意的帧。图7中的视觉结果进一步支持了我们的发现。此外，我们比较了表2和图8中的（e）和（d），以验证DConvL-STM中的双向机制。从表2中，我们可以看到，在慢动作和快动作测试集上，（e）可以进一步提高STVSR性能图8中的视觉结果进一步表明，我们的具有双向机制的完整模型可以通过充分利用所有输入视频帧的全局时间信息来恢复更多的视觉细节。5. 结论在本文中，我们提出了一个空时视频超分辨率的一级框架，直接重建高分辨率和高帧率的视频，而不合成的大小中间低分辨率帧。为了实现这一点，我们引入了一个可变形的特征插值网络的特征级时间插值。此外，我们提出了一个可变形的ConvLSTM聚合时间信息和处理运动。通过这种一步设计，我们的网络可以很好地探索任务中时间插值和空间超分辨率它强制我们的模型自适应地学习杠杆年龄有用的本地和全球的时间上下文，以解决大型运动问题。大量的实验表明，我们的一阶段框架比现有的两阶段网络更有效，而且所提出的特征时间插值网络和可变形ConvLSTM能够处理非常具有挑战性的快速运动视频。确认这项工作得到了NSF 1741472、1813709和1909912的部分支持本文仅反映作者的观点和结论，而不是资助机构。3379引用[1] Wenbo Bao ， Wei-Sheng Lai ， Chao Ma ， XiaoyunZhang，Zhiyong Gao，and Ming-Hsuan Yang.深度感知视频帧插值。在IEEE计算机视觉和模式识别会议集，第3703- 3712页，2019年。一、二、五、六、七[2] Wenbo Bao，Wei-Sheng Lai，Xiaoyun Zhang，ZhiyongGao，Ming-Hsuan Yang.MEMC-NET：运动估计和运动补偿驱动的神经网络，用于视频插值和增强。IEEETransactionsonPatternAnalysisandMachineIntelligence，2019。二、五[3] Yuri Boykov Olga Veksler和Ramin Zabih通过图割的快速近似能量最小化IEEE Transactions on Pattern Analysisand Machine Intelligence，23（11）：12223[4] Jose Caballero 、 Christian Ledig 、 Andrew Aitken 、Alejandro Acosta 、 Johannes Totz 、 Zehan Wang 和Wenzhe Shi。结合时空网路与运动补偿之即时视讯超解析。在Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition，第4778-4787页2[5] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在IEEE计算机视觉国际会议集，第764-773页，2017年。4[6] EsmaeilFaramarzi ， DineshRajan ， andMarcPChristensen.多视频的时空超分辨率。2012年第11届信息科学、信号处理及其应用国际会议（ISSPA），第23IEEE，2012。1[7] 斯图尔特·格曼和唐纳德·格曼。随机松弛、吉布斯分布与影像之贝叶斯复原。IEEE Transactions on PatternAnalysis and Machine Intelligence，（6）：721-741，1984. 3[8] Muhammad Haris Gregory Shakhnarovich 和 NorimichiUkita。用于视频超分辨率的递归反投影网络。在IEEE计算机视觉和模式识别集，第3897-3906页，2019年。二五六七[9] 炎黄、魏王、梁王。通过双向递归卷积网络实现视频超分辨率 . IEEE Transactions on Pattern Analysis andMachine Intelligence，40（4）：1015-1028，2017。3[10] Huaiizu Jiang ， Deqing Sun ， Varun Jampani ， Ming-Hsuan Yang，Erik Learned-Miller，and Jan Kautz.超级斯洛莫：用于视频内插的多个中间帧的高质量估计。在IEEE计算机视觉和模式识别会议论文集，第9000- 9008页，2018年。二六七[11] Younghyun Jo、Seoung Wug Oh、Jaeyeon Kang和SeonJoo Kim。使用动态上采样滤波器的深度视频超分辨率网络，无需显式运动补偿。在IEEE计算机视觉和模式识别会议论文集，第3224-3232页，2018年。二、三[12] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[13] 赖伟胜，黄家斌，纳伦德拉·阿胡贾，杨明轩。深拉普拉斯金字塔网络实现快速和精确的超分辨率。在IEEE计算机视觉和模式识别会议论文集，第624-632页5[14] 李涛，何晓海，滕启智，王正永，任朝。基于面片群切割的时空超分辨率算法。信号处理：图像通信，30：147- 165，2015。1[15] 林美玲和李京慕用于视频超分辨率的深度递归resnet。2017年亚太信号和信息处理协会年度峰会和会议（APSIPA ASC），第1452-1455页。IEEE，2017年。3[16] Bee Lim ， Sanghyun Son ， Heewon Kim ， SeungjunNah，and Kyoung Mu Lee.单图像超分辨率的增强深度残差网络。在IEEE计算机视觉和模

下载后可阅读完整内容，剩余1页未读，立即下载