具有时间群体注意力的视频超分辨率技术的研究与实现

190 浏览量更新于2023-10-23 收藏 2.58MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8008具有时间群体注意力的Takashi Isobe1，2†，Songjiang Li2，Xu Jia2，Shanxin Yuan2，GregorySlabaugh2，Chunjing Xu2，Ya-Li Li Li1，Shengjin Wang1，Qi Tian21清华大学2诺亚jbj18@mails.tsinghua.edu.cn{liyali13，wgsgj}@tsinghua.edu.cn{x.jia，songjiang.li，shanxin.yuan，gregory.slabaugh，tian.qi1}@ huawei.com摘要视频超分辨率技术是将低分辨率视频转换为高分辨率视频的技术，近年来受到越来越多的关注。在这项工作中，我们提出了一种新的方法，可以有效地incorpo-率的时间信息在一个层次的方式。输入序列被分成几组，每组对应于一种帧速率。这些组提供补充信息以恢复参考帧中丢失的细节，其进一步与注意模块和深度组内融合模块集成此外，提出了一种快速的空间对齐来处理具有大运动的视频。大量的结果表明，该模型在处理各种运动的视频的能力它在几个基准数据集上实现了对最先进方法的良好性能。代码可在 https://github.com/junpan19/VSR_TGA 上获得。1. 介绍超分辨率是指通过填充缺失的细节，从相应的低分辨率（LR）图像中生成高分辨率（HR）图像对于单图像超分辨率，通过探索图像内的自然图像先验和自相似性来估计HR图像。对于视频超分辨率，可以使用跨位置的空间信息和跨帧的时间信息来增强LR帧的细节。近年来，视频超分辨率的研究引起了学术界和工业界的广泛关注例如，当为了监控而记录的视频被放大以识别人的身份或汽车的牌照时，或者当视频被投影到高清晰度显示设备以获得视觉上的愉悦观看时，需要视频超分辨率[2]这项工作是在华为技术有限公司的诺亚方舟实验室完成的*通讯作者图1.Vid 4中Calender剪辑的VSR结果[1]。我们的方法产生的结果比DUF [8]和最近提出的EDVR [28]具有更多的细节（青色箭头）和更少的伪影（大多数视频超分辨率方法[9，1，25，29，17]采用以下管道：运动估计、运动补偿、融合和上采样。它们以离线或在线的方式估计参考帧和其他帧之间的光流然而，这对于视频SR不是最佳的。具有显式运动补偿的方法严重依赖于运动估计的准确性不准确的运动估计和对准，特别是当存在遮挡或复杂运动时，会导致失真和误差，从而恶化最终的超分辨率性能。此外，像光流这样的逐像素运动估计通常会承受很重的计算负荷。最近，Jo等人 [8]提出了DUF方法，该方法隐式地利用LR帧之间的运动信息，通过动态上采样滤波器来恢复HR它受运动估计精度的影响较小另外，从其它帧到参考帧的时间信息整合处理是在没有明确考虑参考帧的情况下进行的。这8009导致输入序列中边界帧的无效信息集成在这项工作中，我们提出了一种新的深度神经网络，它以隐式方式分层利用运动信息，并且能够充分利用跨帧的我们提出将序列分成若干组，并以分层的方式进行信息整合，即先整合各组中的信息，然后再整合各组之间的信息，而不是将所有其他帧与光流的参考帧对齐或对整个所提出的分组方法产生具有不同帧速率的子序列组，其为参考帧提供不同种类的互补信息这种不同的互补信息用注意模块建模，并且这些组与3D密集块和2D密集块深度融合以生成参考帧的高分辨率版本。总的来说，所提出的方法遵循分层的方式。它能够处理各种运动，并自适应地从不同帧率的组中借用例如，如果对象在一帧中被遮挡，则模型将更多地关注对象未被遮挡的帧然而，所提出的方法的能力仍然是有限的，在处理视频序列的大运动，因为接收场是有限的。针对这一问题，提出了一种基于所得到的翘曲帧没有被完美地对准，但是与现有的基于光流的方法相比，它们遭受更少的失真伪影。帧间的外观差异确实减少，使得所提出的神经网络模型可以专注于对象并产生更好的超分辨率效果。该方法在多个视频超分辨率基准上进行了评估我们进行了进一步的分析，以证明其有效性。综上所述，我们做出了以下贡献：• 我们提出了一种新的神经网络，有效地融合时空信息，通过帧速率感知组在一个分层的方式。• 我们介绍了一种快速的空间对齐方法来处理视频与大的运动。• 所提出的方法在两个流行的VSR基准测试中达到了最先进的性能。2. 相关工作2.1. 单幅图像超分辨率单图像超分辨率（SISR）从深度学习的进步中受益匪浅。董[2]第一亲-提出将三层CNN用于SISR，并在超分辨率LR图像中显示出令人印象深刻的潜力。从那时起，已经设计了新的架构，包括具有残余连接的非常深的CNN [10]，具有跳过连接的递归架构[11]，具有子像素层和多通道输出的架构，以直接在LR图像上工作作为输入[23]。最近的网络，包括EDSR [15]，RDN [36]，DBPN [4]，RCAN [35]，在新的大型数据集DIV2K上训练时，形成了以前的作品[27]。在最近的调查中可以找到更多的讨论[31]。2.2. 视频超分辨率视频超分辨率在很大程度上依赖于时间对齐，无论是显式或隐式，利用互补信息，从相邻的低分辨率帧。VESCPN [1]是联合训练光流估计和时空网络的第一个端到端视频SR方法。SPMC [25]提出了一种用于帧间运动对齐的新的亚像素运动补偿层，并同时实现了运动补偿和上采样。[29]提出通过提出的面向任务的流程以端到端的方式联合训练运动分析和视频超分辨率[5]提出了使用重复的编码器-解码器模块来利用空间和时间信息，其中估计了显式的帧间运动。使用隐式时间对齐的方法在几个基准测试中表现出优越的性能 [12]利用3DCNN的时空特征表示能力来避免运动对齐，并为视频SR堆叠了几个3D卷积层。[8]提出使用3D卷积层来计算动态滤波器[7]，用于隐式运动补偿和上采样。TDAN [26]和EDVR [28]在特征级运动对准中工作，而不是图像级运动对准。TDAN [26]提出了一种时间可变形对齐模块，用于对齐不同帧的特征以获得更好的性能。EDVR[28]通过1）以粗到细的方式使用可变形对准和2）提出新的时间和空间注意力注意力融合模块，而不是像TDAN那样天真地连接对准的LR帧，在两个方面扩展TDAN与我们最相关的工作是[17]，它也将输入帧重新组织为几个组。然而，在这方面，在[17]中，组由不同数量的输入帧组成。此外，该方法为每个组生成超分辨率结果，并计算注意力图以组合这些超分辨率结果，这需要大量计算并且不是非常有效。该方法根据帧速率将输入帧划分为若干组，并以层次化的方式有效地整合时间信息。8010不t−N4t−n不时间组注意力残差图图2.提出了一种具有时间群体注意力的方法。3. 方法3.1. 概述给定由一个参考帧1L和2N个相邻参考帧组成的连续低分辨率视频帧为了解决这个问题，我们建议将相邻的2N帧分割成N组的基础上，从参考帧的时间距离随后，时空信息被提取并以分层方式融合：组内融合模块整合每个组内的信息，帧{ILLt−1L电话+1Lt+N}，VSR的目标是由组间融合模块降低，重建一个高分辨率版本的参考帧I通过充分利用序列上的时空信息所提出的方法的总体流水线如图所示。二、它需要七处理分组特征。时间轴与以前的工作相比，相邻的2N帧被分成N组的基础上的时间距离的参考帧。原始序列被重新排序为{G1，...，G n}，n ∈ [1：N]，其中帧{I L，I L，...，例如，我们表示中间G n={I L，我，我}是一个子序列，1 2 7t−n不t+n帧IL作为参考帧，并且其它帧作为参考帧。前机架IL参考系IL和后一个系邻居们。七个输入帧被分为Lt+n. 请注意，参考坐标系显示在每个组中。三个基于解耦运动的组，每个组表示某种帧速率。提出了一种具有共享权值的组内融合模块，用于提取和融合每组内的时空信息通过基于注意力的组间融合模块进一步整合跨组的信息。最后，出-把高分辨率帧I-4通过添加净-工作产生的残差图和双三次上采样的输入参考帧。此外，提出了一种快速空间对齐模块，以进一步帮助处理大运动的视频序列。3.2. 时间群体注意隐式运动补偿的关键问题在于相邻帧的时域融合效率低。在[8]中，输入帧沿着时间轴堆叠，并且3D卷积直接应用于堆叠的帧。这样的远距离相邻帧没有被参考帧明确地引导，导致不充分的信息融合，并且这阻碍了参考帧从远距离帧借用信息值得注意的是，我们的方法可以很容易地推广任意帧作为输入。由于两个原因，分组允许具有不同时间距离的相邻帧的明确且有效的整合：1）不同时间距离的相邻帧的贡献是不相等的，特别是对于具有大变形、遮挡和运动模糊的帧。当一个组中的区域被（例如被遮挡）覆盖时，丢失的信息可以被其他组重新覆盖。也就是说，不同群体的信息是相辅相成的。2)每组中的参考帧引导模型从相邻帧中提取有益信息，从而允许有效的信息提取和融合。组内融合。对于每个组，部署组内融合模块用于每个组内的特征提取和融合。该模块由三个部分组成。第一部分包含三个单元作为空间特征提取器，其中每个单元由一个 3 ×3 卷积层，然后是一个批归一化（BN）[6]和一个ReLU [3]组成。所有卷积层都配备了膨胀率，对与组相关联的运动水平进行扩张双三上采样输入12334组内融合模块（组内融合模块：1）455672组内融合模块（组内融合模块：2）组间融合模块子像素上采样46输出快速空间对齐14组内融合模块（组内融合模块：3）71 2 31 2 3出口开关帧速率：1帧速率：2帧速率：3时间分组：我，我：我我80111nnnnΣ不我nnnnn速率根据每个组中的帧速率来确定，其中假设远组具有大的运动而近组具有小的运动。随后，对于第二部分，使用具有3×3×3内核的附加3D卷积层来执行时空特征融合。最后，通过在2D密集块中应用18个2D单元以深入整合每组内的信息来产生分组特征Fg为了提高效率，每个组共享组内融合模块的权重。第4.3节介绍了所提议的时间分组的有效性具有时间注意力的组间融合。为了更好地集成来自不同组的特征，引入了时间注意模块时间的注意力广泛用于视频相关任务[24，33，34，30]。在这项工作中，我们表明，时间注意力也有利于VSR的任务，使模型在不同的时间，以支付不同的注意力。在前一部分中，根据不同的帧速率将帧序列分类成组。这些组包含补充信息。通常，具有低帧速率的组信息量更大，因为相邻帧与参考帧更相似同时，具有快速帧速率的组还可以捕获关于在附近帧中丢失的一些精细细节的因此，时间注意作为一个指导，以有效地整合来自不同的时间间隔组的功能⨀⨀⨀122333D密集块3D密集块3D单元2D密集块3D单元综合特征2D密集块2D单元2D单元Conv2dConcatenateConv3dConcatenate图4.组间融合模块的结构。由组内融合模块产生的组特征。“X”表示逐元素乘法。组间融合模块的目标是聚合跨不同时间组的信息，并产生高分辨率残差图。为了充分利用时间组上的注意力加权特征，我们首先通过将这些特征沿着（，）（，）（，）Softmax（，）123并将其馈送到3D密集块中。然后，一个2D致密块在顶部进行进一步的融合，如图所示。4.第一章3D单元具有与组内融合模块中卷积层，将1×3×3核插入到3D稠密块的末尾1 2 3图3.计算群体注意力地图。 Fa对应于分组特征，而Mn是注意力掩码。对于每个组，在相应的特征图Fg之上应用3×3卷积层之后，计算单通道特征图Fa。它们进一步被整合--减少渠道。2D和3D密集块的设计受到RDN [36]和DUF[8]的启发，这是以一种有效的方式修改我们的管道。最后，类似于几种单图像超分辨率方法，充分聚合的特征通过深度到空间操作进行上采样[23]以产生高分辨率残差图R。高分辨率重建I并沿时间轴应用softmax函数，每个位置跨渠道计算注意力地图，如图所示。3.第三章。每个组3 .第三章。eFa（x，y）j计算为残差图R t和双三次上采样参考图像I↑。3.3. 快速空间对齐虽然该模型能够有效地利用跨帧的时间信息，但它在处理时间信息时存在困难Mn（x，y）j=Ni=1 eFa（x，y）j（一）用大运动的视频。为了提高性能-针对每个组的注意力加权特征F*g被计算为：F<$g=Mn<$F g，n∈[1：N]（2）在大运动的情况下，我们根据所提出的模型进一步提出了一种快速空间对准模块。不同于先前的方法[19，1，29]，其使用离线光流或集成光流网络用于运动其中Mn（x，y）j表示位置（x，y）j处的时间组注意力掩码的权重。Fg表示估计和补偿，我们估计每两个连续帧之间的单应性，8012时间��→��（��→��（��→��（��→��（��→��时间中文（简体）��→��→��→��（��→��→��（��→��（��→��→��流量估测（基于流的Warping单应性估算（基于单应性的Warping1234 5（一）（b）第（1）款（c）第（1）款图5.与光流法相比，空间对准速度更快（a）原始5个连续帧，其中帧3是参考帧。（b）与光流对准。独立地估计每个相邻帧的流量（c）所提出的对准仅估计连续帧的基本单应性帧级对齐抑制像素级失真。放大以获得更好的可视化。帧到参考帧，这可以在图中示出五、兴趣点可以通过SIFT [18]或ORB [21]等特征检测器来检测，并计算点对应关系以估计单应性。来自帧A和C的单应性可以被计算为从A到B的单应性和从B到C的单应性的乘积：HA→C=HA →B·HB →C（3）对于单应性，逆变换可以由矩阵的逆表示在该间隔中的每两个连续的1之间，这避免了冗余计算并且加速了预对准。注意，这里的预对准不需要是完美的。只要它不引入太多的像素级失真，建议的VSR网络可以给出良好的性能。我们还引入了退出机制的鲁棒性预对准。也就是说，在检测到很少的兴趣点或者帧与应用H和H-1之后的结果之间存在很大差异的情况下，帧保持原样而没有任何预对准。换句话说，一个保守的B→A−1A→B（四）在预对准过程中采用策略。由于光流是针对每个像素计算的，不完美的光流估计会将许多意想不到的像素级失真引入到扭曲中，从而破坏原始图像中的结构。此外，大多数基于光流的方法[14，1，25，29]独立地估计每个相邻帧与参考帧之间的光流，这在超分辨长序列时会带来大量冗余计算。在我们的方法中，由于单应性变换是一个全局的，它保持了更好的结构，并引入很少的伪影。此外，单应性的关联合成性质允许将两个帧之间的单应性分解为单应性4. 实验为了评估所提出的方法，进行了一系列的随后，进行了详细的消融研究，以分析所提出的时间分组，群体注意力和快速空间对齐的有效性。结果表明了该方法的有效性和优越性时间=H8013方法帧数日历（Y）城市（Y）叶数（Y）步行（Y）平均值（Y）平均值（RGB）双三118.83/0.493623.84/0.523421.52/0.443823.01/0.709621.80/0.542620.37/0.5106SPMC [25]3----25.52/0.76-刘[17]521.61/-26.29/-24.99/-28.06/-25.23/--TOFlow [29]722.29/0.727326.79/0.744625.31/0.711829.02/0.879925.84/0.765924.39/0.7438FRVSR† [22]复发性----26.69/0.822-DUF-52L [8]724.17/0.816128.05/0.823526.42/0.775830.91/0.916527.38/0.832925.91/0.8166RBN [5]724.02/0.808827.83/0.804526.21/0.757930.62/0.911127.17/0.820525.65/0.7997[28]第二十八话724.05/0.814728.00/0.812226.34/0.763531.02/0.915227.35/0.826425.83/0.8077[32]第三十二话724.37/0.824628.09/0.838526.51/0.776830.65/0.913527.40/0.8384-TGA（我们的）724.47/0.828628.37/0.841926.59/0.779330.96/0.918127.59/0.841926.10/0.8254表1. Vid4上4倍视频超分辨率的定量比较（PSNR（dB）和SSIM）。红色文本表示最佳性能，蓝色文本表示次佳性能。Y和RGB分别表示亮度和RGB通道最好的颜色。双三TOFlow [29]DUF-52L [8]RBN [5][28]第二十八话TGA（我们的）#参数。N/A1.4M5.8M12.1M20.6M5.8MFLOPsN/A0.27T0.20T3.08T0.30T0.07TY通道31.30/0.868734.62/0.921236.87/0.944737.20/0.945837.61/0.948937.59/0.9516RGB通道29.77/0.849032.78/0.904034.96/0.931335.39/0.934035.79/0.937435.57/0.9387表2.在Vimeo-90 K-T上对4倍视频超分辨率进行定量比较（PSNR（dB）和SSIM）红色文本表示最佳结果，蓝色文本表示次佳结果。 FLOP是在尺寸为112×64的LR图像上计算的。注意，变形卷积和离线预对准不包括在计算FLOP中。最好的颜色。4.1. 实现细节数据集。与[5，29]类似，我们采用Vimeo-90 k [29]作为我们的训练集，这是一种广泛用于视频超分辨率任务的我们从高分辨率视频剪辑中以256×256的空间分辨率与[8]相似，29，32]生成64×64通过应用标准偏差为σ=1。6和4倍下采样。Weevaluate the proposed method on two popular benchmarks:Vid4 [16] and Vimeo- 90K-T[29]. Vid4由四个具有各种运动和遮挡的场景组成Vimeo-90 K-T包含约7k高质量帧和不同的运动类型。实作详细数据。在组内融合模块中，使用3个2D单元作为空间特征提取器，随后是3D卷积和2D密集块中的18个2D单元，以整合每组内的信息。对于组间融合模块，我们在3D密集块中使用4个3D单元，在2D密集块中使用21个2D单元对于2D和3D单元中的卷积层，通道大小设置为16除非另有说明，否则我们的网络将七个低分辨率帧作为输入。该模型由像素级L1损失监督，并使用Adam [13]优化器进行优化，其中β1= 0。9和β2=0。999在训练期间，重量衰减设置为5×10−4学习率最初设置为2×10−3，然后每10个epoch缩小0.1倍，直到30时代mini-batch的大小设置为64。训练数据通过翻转和旋转来增强，概率为0.5.所有的实验都是在一个使用Python 3.6.4，PyTorch1.1和Nvidia Tesla V100 GPU的服务器上进行的。4.2. 与最新技术水平的比较我们将所提出的方法与六种最先进的VSR方法进行比较，包括TOFlow [29]，SPMC [25]，Liu [17]，DUF[8]，RBPN [5]，EDVR [28]和PFNL [32]。TOFlow和SPMC都采用显式的像素级运动补偿和光流估计，而RBPN使用预先计算的光流作为额外的输入。DUF、EDVR和PFNL进行具有隐式运动补偿的VSR。我们自己仔细实现了TOFlow和DUF，并根据公开的代码重新构建了除了EDVR之外，我们再现了大多数这些方法的性能。选项卡. 1和Tab。2给出了Vid 4和Vimeo-90 K-T上最先进方法的定量结果，这些结果要么在原始论文中报道，要么由我们计算。在评估中，我们考虑了所有帧，除了DUF方法[8]，该方法在每个帧的四个边界上裁剪8个像素，因为它遭受严重的边界伪影。此外，本发明还提供了一种方法，我们还在Tab中包含了大多数方法在112×64大小的LR图像上的参数数量和FLOP。二、在Vid4测试集上，该方法在 Y 通道和 RGB 通道上分别获得了 27.59dB 和26.10dB的 PSNR，优于其他现有方法大幅度地。图中的定性结果。6也验证了该方法的优越性。归因于所提出的时间群体注意，这是能够使8014TOFlow图6. 4 ×SR的Vid4定性比较。放大以获得更好的可视化。图7. Vimeo-90 K-T上4×SR的定性比较。放大以获得更好的可视化。TOFlowDUFRBPNEDVR我们GT图8. 日历序列时间一致性的可视化。通过记录跨越时间的单个像素线（绿线）并垂直堆叠来产生时间剖面。该模型充分利用了帧间的互补信息，与其他方法相比，能产生更清晰的边缘和更精细的细节纹理此外，我们提取的时间配置文件，以评估性能的时间一致性图。8.通过从连续帧中取出相同的水平像素行并垂直堆叠它们时间剖面显示，所提出的方法给出了时间上一致的结果，其比其他方法遭受更少的闪烁伪影。Vimeo-90 K-T是一个大型且具有挑战性的数据集，涵盖了具有大运动和复杂光照变化的场景。并与TOFlow、DUF、RBPN、EDVR等方法进行了比较。如Tab.所示。如图2和图7所示，所提出的方法在这个具有挑战性的数据集上也实现了非常好的性能。它在PSNR和SSIM方面都优于大多数最先进的方法，唯一的例外是EDVR-L，其模型大小和计算量大约是我们方法的四倍尽管如此，我们的方法在PSNR上仍然相当，在SSIM上稍好一些。4.3. 消融研究在本节中，我们对所提出的时间群体注意和快速空间对齐进行了一些消融研究，以进一步证明我们的方法的有效性。临时小组注意。首先，我们用不同的方法来组织输入序列。一种基本方法是简单地沿着时间轴堆叠输入帧，并直接将其馈送到几个3D卷积层，类似于DUF[8]。除了我们的分组方法我们还尝试了其他方法，不8015模型DUF类{123，345，567}{345, 142, 647}{345，246，147}TG？’视频4 27.18/0.8258 27.47/0.8384 27.54/0.840927.59/0.8419Vimeo-90K-T 37.06/0.9465 37.46/0.948737.51/0.9509表3.消融开始：不同的分组策略。#21519;，345，567，345，142，647。如Tab.所示。3、类DUF输入法的性能最差。这说明了将时间信息整合到分级方式是跨帧集成信息的更有效的方式。#21455;，246，247，247，#21457;，比“好”。在每一个图像中加入参考帧组在组中有参考鼓励模型提取参考框架中缺少的补充信息我们的分组方法{345，246，147}的另一个0.05dB的改进可以归因于基于运动的分组在采用时间信息此外，我们还评估了一个从整个模型中删除注意力模块的模型如Tab.所示4，这个模型的性能比我们的完整模型差一点。我们还使用5帧序列作为输入来训练完整模型。结果在Tab。4表明，该方法可以有效地借用额外的帧的信息。我们注意到，所提出的方法优于DUF，即使在输入中少2帧。此外，我们进行了一个玩具实验，其中相邻帧的一部分被遮挡，并可视化的时间组注意力的地图如图9、当一个群体不能提供补充信息来恢复该区域的细节时，该模型确实试图从其他群体借用更多信息模型模型1模型2Model 3帧数757GA？’✓✓视频427.51/0.839427.39/0.833727.59/0.8419Vimeo-90K-T37.43/0.950637.34/0.949137.59/0.9516表4.阐述了群体注意力（GA）模块以及不同输入框架对分层信息聚合方式的影响。快速空间对齐。为了研究所提出的快速空间对准的有效性和效率，我们为所提出的TGA模型配备了三种不同的预对准策略：不进行比对的TGA、使用PyFlow的TGA [20]和使用FSA的TGA。在Vimeo-90 K-T上进行评价，其中视频剪辑中存在各种运动。选项卡. 图5示出了具有pyflow的TGA的性能显著劣于没有任何预对准的TGA模型这意味着不完美的光流估计会导致不准确的运动补偿，例如大运动区域的失真（参见绿色预对准，不带PyFlow [20]，带FSAPSNR/SSIM 37.32/0.9482 35.14/0.922237.59/0.9516时间（CPU+GPU）0+70.8ms 760.2+70.8ms 18.6+70.8ms表5.消融开始：快速空间对准模块的有效性和效率。经过的时间是在处理LR大小为112×64的七帧序列时计算的。图9.遮挡设置下群体注意力掩模的可视化。G1，G2和G3表示三个群.图5中的框），这在训练期间混淆了模型，并损害了最终的视频超分辨率性能。相比之下，所提出的FSA将TGA模型的性能从37.32dB提高到37.59dB。这表明所提出的FSA虽然不能完美地对齐帧，但能够以适当的方式减少帧我们还在Vimeo-90 K-T数据集上计算了该模块的时间成本，并在Tab中显示五、我们的FSA方法比PyFlow方法更有效。请注意，由于Vimeo-90 K-T中的每个序列只包含7帧，因此FSA在减少冗余计算方面的优势没有得到充分利用。PyFlow和我们的FSA都在CPU上运行，FSA可以通过优化的GPU实现进一步加速。5. 结论在这项工作中，我们提出了一种新的深度神经网络，它以隐式方式分层整合时间信息。为了有效地利用跨帧的互补信息，输入序列被重组为具有不同帧速率的多个连续性组。分组允许以分层方式提取时空信息，其之后是组内融合模块和组间融合模块。组内融合模块提取每个组内的特征此外，提出了一种快速的空间对齐方法来处理大运动情况下的视频该方法能够重建高质量的HR帧，并保持时间一致性。在多个基准数据集上的实验证明了该方法的有效性8016引用[1] Jose Caballero 、 Christian Ledig 、 Andrew Aitken 、Alejandro Acosta、Johannes Totz、Zehan Wang和WenzheShi。结合时空网路与运动补偿之即时视讯超解析。在CVPR，2017年。[2] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoou Tang. 学习用于图像超分辨率的深度卷积网络2014年，在ECCV[3] 泽维尔·格洛罗特安托万·博德斯和约舒亚·本吉奥。深度稀疏整流神经网络。载于AISTATS，2011年。[4] Muhammad Haris Gregory Shakhnarovich 和 NorimichiUkita。用于超分辨率的深反投影网络。在CVPR，2018年。[5] Muhammad Haris Gregory Shakhnarovich 和 NorimichiUkita 。用于视频超分辨率的递归反投影网络。在CVPR，2019年。[6] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML ，2015。[7] Xu Jia，Bert De Brabandere，Tinne Tuytelaars，and LucV Gool.动态过滤网络。InNeurIPS，2016.[8] Younghyun Jo、Seoung Wug Oh、Jaeyeon Kang和SeonJoo Kim。使用动态上采样滤波器的深度视频超分辨率网络，在CVPR，2018年。[9] Armin Kappeler ， Seunghwan Yoo ， Qiqin Dai ， andAggelos K Katsaggelos.卷积神经网络视频超分辨率IEEETransactions on Computational Imaging，2（2）：109[10] Jiwon Kim，Jung Kwon Lee，and Kyoung Mu Lee.使用非常深的卷积网络的精确图像超分辨率。在CVPR，2016年。[11] Jiwon Kim，Jung Kwon Lee，and Kyoung Mu Lee.用于图像超分辨率的深度递归卷积网络。在CVPR，2016年。[12] Soo Ye Kim ， Jeongyeon Lim ， Taeydong Na ， andMunchurl Kim. 3dsrnet：使用3d卷积神经网络的视频超分辨率CoRR，abs/1812.09079，2018。[13] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议[14] Renjie Liao，Xin Tao，Ruiyu Li，Ziyang Ma，and JiayaJia. 通过深度草稿集成学习实现视频超分辨率。在ICCV，2015年。[15] Bee Lim ， Sanghyun Son ， Heewon Kim ， SeungjunNah，and Kyoung Mu Lee.用于单图像超分辨率的增强深度残差网络在CVPR研讨会，2017。[16] 刘策，孙德清关于自适应视频超分辨率。 IEEEtransactions on pattern analysis and machine intelligence，36（2）：346[17] Ding Liu ， Zhaowen Wang ， Yuchen Fan ， XianmingLiu ， Zhangyang Wang ， Shiyu Chang ， and ThomasHuang. 鲁棒的视频超分辨率与学习的时间动态。InICCV，2017.[18] 大卫·G·洛从尺度不变关键点中提取独特的图像特征。国际计算机视觉杂志，60（2）：918017[19] Ziyang Ma，Renjie Liao，Xin Tao，Li Xu，Jiaya Jia，and Enhua Wu. 处理多帧超分辨率中的运动模糊。CVPR，2015。[20] Deepak Pathak 、 Ross Girshick 、 Piotr Dollár 、 TrevorDarrell和Bharath Hariharan。通过观察物体移动来学习特征在CVPR，2017年。[21] Ethan Rublee、Vincent Rabaud、Kurt Konolige和Gary RBradski 。 Orb ：一个有效的替代筛选或冲浪。见ICCV，2011年。[22] Mehdi SM Sajjadi 、 Raviteja Vemulapalli 和 MatthewBrown。帧循环视频超分辨率。在CVPR，2018年。[23] Wenzhe Shi，Jose Caballero，Ferenc Huszár，JohannesTotz ， Andrew P Aitken ， Rob Bishop ， DanielRueckert，and Zehan Wang.使用有效的子像素卷积神经网络实现实时单幅图像和视频超分辨率。在CVPR，2016年。[24] Sijie Song ， Cuiling Lan ， Junliang Xing ， WenjunZeng，and Jiaying Liu.一个端到端的时空注意力模型，用于从骨架数据识别人类动作在AISTATS，2017。[25] Xin Tao，Hongyun Gao，Renjie Liao，Jue Wang，andJiaya Jia.细节揭示深度视频超分辨率。InICCV，2017.[26] Yapeng Tian ，Yulun Zhang ，Yun Fu ，and ChenliangXu.Tdan：用于视频超分辨率的时间可变形对齐网络.CoRR，abs/1812.02898，2018。[27] Radu Jumfte，Eirikur Agustsson，Luc Van Gool，Ming-Hsuan Yang，and Lei Zhang.Ntire 2017挑战单幅图像超分辨率：方法和结果。在CVPR研讨会，2017。[28] Xintao Wang，Kelvin CK Chan，Ke Yu，Chao Dong，and Chen Change Loy. Edvr：使用增强的可变形卷积网络进行视频恢复。在CVPR研讨会，2019年。[29] Tianfan Xue，Baian Chen，Jiajun Wu，Donglai Wei，and William T Freeman.具有面向任务流的视频增强。国际计算机视觉杂志，127（8）：1106[30] Chenggang Yan ， Yunbin Tu ， Xingzheng Wang ，Yongbing Zhang，Xinhong Hao，Yongdong Zhang，andQionghai Dai. 视频字幕的时空注意机制 IEEETransactions on Multimedia，2019。[31] Wenming Yang，Xuechen Zhang，Yapeng Tian ，WeiWang，Jing-Hao Xue，Qingmin Liao.针对单幅图像超分辨率的深度学习：简短回顾。IEEE Transactions onMultimedia，2019。[32] Peng Yi，Zhongyuan Wang，Kui Jiang，Junjun Jiang，and Jiayi Ma.利用非局部时空相关性的渐进式融合视频超分辨率网络。在ICCV，2019年。[33] MihaiZanfir，ElisabetaMarinoiu和CristianSminchisescu 。扎根视频字幕的时空注意力模型InACCV，2016.[34] Jinliang Zang，Le Wang，Ziyi Liu，Qilin Zhang，GangHua，and Nanning Zheng.基于注意力的时间加权卷积神经网络用于动作识别。InIFIP，2018.8018[35] Yulun Zhang ， Kunpeng Li ， Kai Li ， Lichen Wang ，Bineng Zhong，and Yun Fu.基于极深残差通道注意力网络的图像超分辨率。在ECCV，2018。[36] Yulun Zhang，Yapeng Tian，Yu Kong，Bineng Zhong，and Yun Fu.用于图像超分辨率的残差稠密网络。在CVPR，2018年。

下载后可阅读完整内容，剩余1页未读，立即下载