视频超分辨率中的记忆增强非局部注意力方法

60 浏览量更新于2023-10-25 收藏 20.97MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

178340记忆增强非局部注意力用于视频超分辨率0Jiyang Yu 1，Jingen Liu 1，Liefeng Bo 1，Tao Mei 201 JD探索学院，美国山景城，2 JD探索学院，中国北京 {jiyang173，jingenliu}@gmail.com，{liefeng.bo，tmei} @jd.com0摘要0在本文中，我们提出了一种简单而有效的视频超分辨率方法，旨在从低分辨率（LR）视频生成高保真度的高分辨率（HR）视频。以往的方法主要利用时间上的邻帧来辅助当前帧的超分辨率。由于空间帧对齐的挑战以及类似LR邻帧中缺乏有用信息，这些方法的性能有限。相反，我们设计了一种跨帧非局部注意力机制，可以在不进行帧对齐的情况下进行视频超分辨率，从而更好地应对视频中的大运动。此外，为了获取超出邻帧的通用视频先验信息，并弥补大运动引起的信息损失，我们设计了一种新颖的记忆增强注意力模块，在超分辨率训练过程中记忆通用视频细节。我们在各种具有挑战性的数据集上对我们的工作进行了全面评估。与其他最新的视频超分辨率方法相比，我们的方法不仅在大运动视频上取得了显著的性能提升，而且显示出更好的泛化能力。我们的源代码和新的Parkour基准数据集可在https://github.com/jiy173/MANA上获取。01. 引言0视频超分辨率（VSR）任务旨在从低分辨率（LR）输入视频中生成高分辨率（HR）视频，并恢复帧中的高频细节。由于其在在线视频流媒体服务和电影行业中的潜在应用，它越来越受到关注。VSR任务面临两个主要挑战。第一个挑战来自视频的动态性质。为了确保时间上的一致性和提高视觉保真度，先前的方法通常试图融合来自多个邻帧的信息。由于帧间的运动，需要在融合之前对邻帧进行对齐。最近的研究提出了各种方法来对齐邻帧到当前帧，可以通过使用光流进行显式变形[2, 17, 21, 28]或使用可变卷积进行隐式对齐[29,32]。然而，这些方法的质量高度依赖于空间对齐的准确性。0图1.我们的记忆增强跨帧非局部注意力方法对于大运动视频具有鲁棒性（第一行）。我们的方法在重复模式（左侧示例）和细小结构（右侧示例）上重建出视觉上令人满意的细节，而其他视频超分辨率方法在这些情况下失败。最佳在PDF中查看。0邻帧对齐是一个难以在具有大运动的视频中实现的问题。如图1列(a)所示，EDVR [32]和TOFlow[37]方法在大运动场景中由于融合不对齐的帧而失败。这阻碍了现有VSR方法在现实世界视频中的应用，例如体育视频（请参阅第4.1节中的Parkour数据集）以及动画、电影和视频博客的娱乐视频。第二个挑战来自低分辨率视频中高频细节的不可逆损失和缺乏有用信息。最近的基于学习的单图像超分辨率（SISR）方法[5, 12, 13, 16, 18, 26, 30, 34, 38,49]已经深入研究了通过学习通用图像先验来帮助恢复高频细节或从低分辨率图像转移纹理的视觉重建。HR reference image. One straightforward solution for videosuper-resolution (VSR) is to directly apply SISR methods toeach frame, but it does not guarantee temporal consistencyin the visual appearance. Instead, most VSR methods try tofuse information from neighbor frames for HR frame recon-struction, and thus generate results superior to SISR meth-ods. However, we argue that the information acquired fromneighbor frames is still limited, especially for videos withlarge motions. In such a scenario, the correlations amongneighbor frames become smaller due to less similar neigh-bor frames, which makes it difficult to mine useful informa-tion from neighbor frames. As a result, the VSR essentiallydegrades to the single image super-resolution.To address the aforementioned challenges, we propose aMemory-Augmented Non-local Attention (MANA) frame-work for video super-resolution (VSR). Our MANA takesa set of consecutive low-resolution video frames as inputs,and produces the high-resolution version of the temporalcenter frame by referring to the information from its neigh-bor frames. Since consecutive frames share a large portionof visual contents, this scheme implicitly ensures tempo-ral consistency in the result. But most importantly, MANAconsists of two novel modules, which are specifically de-signed for solving the VSR challenges.To solve the frame-alignment challenge, we design theCross-Frame Non-local Attention module which allows usto fuse neighbor frames without aligning them towards thecurrent frame. Conventional non-local attention [33] com-putes the pair-wise correlation between each pixel in thequery and key. In the video super-resolution (VSR) case,however, it is improper to treat pixels in all spatial loca-tions equally like conventional non-local attention. We ob-serve that the pixels near the query are more likely to begood correspondences thanks to the nature of continuity.Therefore, unlike conventional non-local attention, we em-ploy a trainable Gaussian map centered at the query pixel toweight the correlations. This is helpful for keeping a goodbalance between all information sources, and effectively re-duces mistaken correspondences that will negatively affectthe accuracy of super-resolution. The Gaussian weightedcross-frame non-local attention enables our work to cir-cumvent the frame-alignment operation, which usually per-forms poorly in videos with large motions. As an example,Fig. 1(a) illustrates that our method can reconstruct sharpdetails like the stripes on the roof and the waving arm infast-moving frames.To solve the challenge of the lack of information fromneighbor frames, we seek to fuse useful video prior in-formation beyond the current video. This means that thenetwork should memorize previous experiences in super-resolving other videos in the training set. Based on this prin-ciple, we introduce a Memory-Augmented Attention moduleto our network. In this module, we maintain a 2D memorybank which is completely learned during the training. Thepurpose is to summarize the representative local details inthe entire training set and use them as an external referencefor super-resolving the current video frame. To our knowl-178350我们的工作是第一个利用记忆库机制来整合当前视频以外信息的VSR方法。由于该模块捕捉到的一般视频先验，我们的方法可以恢复LR视频中缺失的细节，如图1(b)所示的阳台栏杆。为了验证我们的MANA方法在大运动视频上的优越性，我们收集了Parkour基准数据集。该数据集上的定性和定量结果都证明了我们的MANA明显优于所有先前的方法。此外，我们还在其他公共数据集（包括Vimeo90K [37]，SPMC[28]和Vid4[21]）上评估了MANA。我们的方法仍然取得了更好或非常有竞争力的结果。值得注意的是，MANA表现出更好的泛化能力，因为它在SPMC和Parkour数据集上优于其他方法，这些数据集与训练数据集Vimeo90K非常不同。总结起来，我们的贡献包括以下内容：跨帧非局部注意力。我们引入了一种高斯加权的跨帧非局部注意力，使视频超分辨率摆脱了容易出错的帧对齐过程，并有效平衡了局部和非局部信息源。这种设计使得我们的方法对于大运动的视频具有鲁棒性（见第3.2节）。超越当前视频的视频超分辨率。据我们所知，我们是第一个利用记忆增强注意力来整合一般视频先验以辅助当前视频超分辨率的方法（见第3.3节）。大运动视频超分辨率的新基准。我们引入了包含大运动视频的Parkour数据集。据我们所知，这是第一个用于评估大运动情况下VSR方法的基准数据集（见第4.1节）。02. 相关工作0单图像超分辨率。早期的单图像超分辨率（SISR）作品采用图像处理算法[25,40-42]。由于能够学习高分辨率图像的先验知识，深度学习在SISR方面已被证明能够获得更好的结果。Dong等人提出的SRCNN[5]首次在SISR中引入了卷积神经网络。Kim等人进一步探索了更深的残差网络（VDSR [12]）和递归结构（DRCN[13]）。ESPCN[23]将低分辨率图像编码为多个子像素通道，并通过在空间域中重新排列通道来将其放大为高分辨率图像，这在最近的超分辨率作品中被广泛使用。其他使用CNN的方法包括金字塔结构（LapSRN [15]），递归残差网络（DRRN[27]），稠密跳跃连接（SRDenseNet [31]和RDN[48]）以及对抗网络[3, 16, 22,35]。视频超分辨率。由于邻帧提供了额外的信息，视频超分辨率（VSR）通常比SISR产生更好的结果。主要关注点是178360图2. 我们视频超分辨率网络结构的概述。网络使用邻帧I t-τ，...，It+τ作为输入来对当前帧I t进行超分辨率处理。跨帧非局部注意力旨在从邻帧和记忆增强注意力中挖掘信息。这些模块的输出被用作残差，以增强双线性上采样的低分辨率帧的细节。0VSR作品的一个问题是如何在存在动态内容和相机运动的情况下正确融合辅助帧。一些方法明确使用光流（VESPCN[2]，FRVSR [21]，SPMC [28]，TOFlow[37]和BasicVSR/IconVSR [4]）或单应性（TGA[10]）来对齐相邻帧。然而，当相邻帧与当前帧之间的运动很大时，估计准确的光流/变换是具有挑战性的。观察到这个限制后，最近的方法开始探索绕过对齐或隐式对齐帧的技术。Jo等人提出了DUF[11]，该方法通过将像素在辅助帧中的整个空间邻域组合起来学习动态上采样滤波器。TDAN [29]和EDVR[32]使用可变形卷积层根据估计的核偏移对相邻帧进行采样。然而，这些方法本质上仍然学习帧间的空间对应关系。正如我们将在第4节中展示的那样，在大运动情况下，这些方法的结果是不令人满意的。与以往的VSR方法不同，我们的方法通过应用非局部注意力以无结构的方式找到像素对应关系。超分辨率中的非局部注意力。注意机制已被证明在各种计算机视觉任务中是有效的[6, 9, 20, 44, 46,47]。包括CSNLN [18]，RNAN [47]和TTSR[39]在内的一些最新的SISR作品已经设计了各种非局部注意力机制用于图像超分辨率。Wang等人[33]提出了非局部神经网络，用于捕捉视频片段内的像素相关性，从而在时间和空间上实现长距离的细节恢复。0在实现VSR任务中，除了常规的非局部注意力，PFNL[43]的作者还将自注意力作为特征预处理步骤，用于逐步融合邻帧。这种传统的非局部注意力可能会找到更多与查询匹配的内容。但同时，它也可能引入更多错误的对应关系，从而混乱当前帧的超分辨率过程。相比之下，根据视频连续性的特点，我们认为靠近查询像素的匹配比远离查询像素的匹配更重要。因此，我们使用可训练的高斯映射来加权非局部注意力。比较实验证实，我们的方法确实比PFNL[43]生成更好的结果。记忆模型在自然语言处理[1,24]、图像分类[51]和视频动作识别[8]等领域展示了潜力。这些工作通过显式存储器增强了模型，在训练过程中可以更新或读取存储器。受到这些工作的启发，我们设计了一个记忆增强注意力模块，以整合从超分辨率其他视频中获得的先前知识。在第4节中，我们展示了记忆模块在视频超分辨率性能方面的显著提升。03. 方法论03.1. 概述0图2展示了我们的视频超分辨率网络的结构。目标是在给定低分辨率的时间邻帧{It-τ，...，It+τ}的情况下，对单个低分辨率帧It∈R3×H×W进行超分辨率处理，其中H和W分别是视频的高度和宽度。为了更简洁地讨论，我们将使用“当前帧”来指代It，“邻帧”来指代{It-τ，...，It+τ}。T = 2τ +1表示邻帧的时间跨度。注意，邻帧包括当前帧。我们网络的第一阶段通过将相同的编码网络应用于每个输入帧，将所有视频帧嵌入到相同的特征空间中。我们将嵌入特征表示为{Ft-τ，...，Ft+τ}∈RC×H×W，其中C是特征空间的维度。如第1节所讨论的，我们的超分辨率过程既涉及当前视频又涉及一般视频。基于这个原则，我们采用了允许我们查询需要进行超分辨率的像素的注意力机制，其中键由辅助像素组成。具体而言，我们网络的第二阶段包括两个部分：跨帧非局部注意力和记忆增强注意力。跨帧非局部注意力旨在从邻帧特征中挖掘有用的信息。在该模块中，邻帧特征由当前帧特征查询。我们将跨帧非局部注意力模块的输出表示为Xt∈RC'×H×W，其中C' =C/2是跨帧非局部注意力模块嵌入空间的维度（见第3.2节）。Xt = (GΓ) V(1)178370图3.我们网络中的跨帧非局部注意力模块。张量的边缘标有尺寸。黄色框标记的操作对查询张量Q中的每个像素Qp并行执行。最佳查看PDF。0Memory-AugmentedAttention维护一个全局存储器M∈RC'×N，用于在训练集中的一般视频中记忆有用的信息，其中N表示存储器中的任意条目数。我们使用当前帧特征直接查询存储器。然而，与跨帧非局部注意力模块不同，其中键是邻帧特征的嵌入版本，存储器是完全学习的。该模块的输出表示为Yt∈RC'×H×W。该模块将在第3.3节中讨论。最后，跨帧非局部注意力模块Xt和记忆增强注意力模块Yt的输出通过两个不同的卷积层进行卷积，核大小为1，并添加到输入当前帧特征Ft作为残差。解码器解码注意力模块的输出，上采样模块对像素进行重排，生成高分辨率残差。残差将细节添加到双线性上采样的模糊低分辨率帧中，从而得到清晰的高分辨率帧。03.2. 交叉帧非局部注意力0传统视频超分辨率方法中的一个主要步骤是对邻居帧进行对齐，以便融合相应的像素并提高当前帧的超分辨率质量。为了实现对齐，视频超分辨率工作中的典型方法包括光流[21,37]和可变形卷积[29,32]。然而，根据颜色一致性对像素进行对齐被认为是一项具有挑战性的任务，尤其是在存在大运动或光照变化的情况下。因此，对齐不准确将对视频超分辨率的性能产生负面影响。在我们的工作中，我们试图避免这种性能开销。正如我们在第2节中讨论的那样，非局部注意力[33]能够捕捉到时间和空间上的远距离对应关系。因此，如果在邻居帧中使用非局部注意力来查询当前帧的像素，就可以省略帧对齐过程。交叉帧非局部注意力模块如图3所示。0我们首先使用组归一化[36]对输入帧特征进行归一化，得到0F t − τ , ..., F t + τ � .在我们的非局部注意力设置中，中心特征 F t0F t − τ , ..., F t + τ �同时充当键和值张量。图3中的查询、键和值张量的嵌入版本分别表示为 Q ∈ R C ′ × H × W、K ∈ R C ′ × T ×H × W 和 V ∈ R C ′ × T × H ×W。在传统的非局部注意力设置中，下一步是将 Q 和 K的时间和空间维度展平为 � Q ∈ R HW × C ′ 和 � K ∈ RC ′ × HW T，并计算相关矩阵 Γ = � Q � K。由于 Γ的大小为 HW ×HWT，该矩阵对GPU内存造成了很大的负担。为了使网络更加内存高效，我们分别对每个邻居帧进行非局部注意力计算，即 Γ 的大小为 HW × HW。 Γ 的第一维度跨越了 Q中的空间位置，第二维度跨越了 K中的空间位置。与原始非局部注意力[33]中讨论的高级视频分类任务不同，我们的目标是从邻居帧中探索像素级信息以进行视频超分辨率。非局部注意力的目标是找到与查询像素更匹配的像素。然而，它也可能引入更多不准确的对应关系。与查询像素相距较远的错误匹配像素可能对视频超分辨率性能产生负面影响。在第4.3节中，我们将展示传统的非局部注意力并没有对视频超分辨率方法PFNL[43]产生益处，因为PFNL直接将其应用于整个邻居帧组。直观地说，像素的大多数对应关系通常应位于其邻居帧的邻域区域内，这要归功于视频的连续性特征。为了减轻错误匹配像素的影响，我们在相关矩阵 Γ的第二维度的每个切片上乘以一个高斯权重图 G ∈ RHW。注意，高斯图的中心位于查询像素的位置。换句话说，高斯图对 Γ的第一维度的每个切片都是不同的。我们不调整高斯图的标准差，而是将其作为可训练参数，并学习哪个值能够获得最佳的整体性能。交叉帧非局部注意力模块的最终输出可以表示为：0其中 �表示上述逐片哈达玛积。可训练的高斯图在我们的VSR任务中保持了从邻居帧中融合信息的局部和非局部来源之间的良好平衡。03.3. 增强记忆的注意力0跨帧非局部注意力使得能够融合当前视频中相邻帧的信息。然而，注意力中使用的相邻帧也是低分辨率的，并且与当前帧具有相似的内容。因此，跨帧非局部注意力的好处是有限的。我们希望能够参考当前视频之外的更多局部细节信息，这就需要从整个训练集中记忆有用的信息。为此，我们的网络包括一个记忆增强的注意力模块。该模块维护一个全局记忆库M ∈RC'×N，作为网络的参数进行学习。我们使用常规的非局部注意力来查询全局记忆库M中的当前帧特征Q，即相关矩阵为ΓM = QM ∈ RHW×N。最后，我们得到输出where �M ∈ RNory bank M. Similar to the cross-frame non-local attentionmodule, we reshape Yt ∈ RHW ×C′ to Yt ∈ RC′×H×W asthe output of the memory-augmented attention module.178380图4.我们网络中的记忆增强的注意力模块。橙色框标记的操作对于查询张量Q中的每个像素Q_p是并行进行的。在PDF中查看效果最佳。0其中M ∈RN×C'是记忆库M的转置版本。与跨帧非局部注意力模块类似，我们将Y_t ∈ RHW×C'重塑为Y_t ∈RC'×H×W，作为记忆增强的注意力模块的输出。0Y_t = softmax(ΓM)M (2)03.4.实现细节0训练集。Vimeo90K数据集是由Xue等人提出的大规模视频数据集[37]。我们使用Vimeo90K的训练集来训练我们的网络，这与最近的超分辨率方法TOFlow[37]、TDAN[29]和EDVR[32]相一致。Vimeo90K中的每个视频剪辑由7个连续帧组成。我们使用中心帧作为要进行超分辨率处理的当前帧。所有7帧都被用作相邻帧。网络结构。除了图2中的跨帧非局部注意力和记忆增强的注意力模块的结构外，我们在图5中展示了其他基本构建模块的结构。残差块（图5(a)）用于构建帧编码器和解码器。帧编码器和解码器分别由5个残差块和40个残差块的串联构成。上采样块的结构如图5(b)所示。在本文中，我们专注于4倍视频超分辨率任务。上采样块由2个像素洗牌块构建，每个块使用ESPCN[23]中定义的像素洗牌操作将特征图上采样2倍。我们在本文的所有实验中使用C =128。训练过程。我们使用PyTorch[7]实现我们的网络，并使用Adam优化器[14]进行训练，其中β1 = 0.5，β2 =0.99。跨帧非局部注意力模块和0图5.我们网络中的基本构建模块。(a)残差块用于构建编码器和解码器。(b)上采样块将不同通道中的像素重新排列成高分辨率帧。0图6.来自Parkour数据集的视频截图。由于该数据集中存在大幅度的相机运动，对于现有的视频超分辨率方法来说是具有挑战性的。0记忆增强的注意力模块初始化为零。我们的网络训练分为三个阶段。在第一阶段，我们固定记忆增强的注意力模块，以学习率为10^-4的速率训练网络的其余部分，进行90,000次迭代。使用的损失函数是L1 = ||O_t -G_t||1，其中O_t代表输出的超分辨率当前帧，G_t是真实的高分辨率帧。在第二阶段，我们固定网络权重，除了记忆增强的注意力模块。损失函数L2 = ||Y_t -Q||1侧重于训练记忆库。注意，训练过程优化记忆库M，以便查询Q可以尽可能准确地由M中的列的组合表示。这本质上是在编码空间中对最具代表性的像素特征进行聚类和总结。我们以10^-4的学习率进行30,000次迭代来训练这个阶段。在最后一个阶段，我们以10^-5的学习率使用L1对整个网络进行微调，进行30,000次迭代。04. 实验0在本节中，我们将我们的工作与最近的最先进的视频超分辨率（VSR）和单图像超分辨率（SISR）方法进行比较。我们根据它们对超分辨率问题的方法选择比较方法：通过显式帧对齐进行VSR（TOFlow [ 37 ]，TGA [ 10 ]和DBVSR [ 19]），通过隐式帧对齐进行VSR（EDVR [ 32]），通过常规非局部注意力进行VSR（PFNL [ 43]）和通过常规非局部注意力进行SISR（CSNLN [ 18]）分别应用于每个视频帧。与其他VSR工作类似，本文中我们关注4倍放大的情况，所有比较都是基于此进行的。178390图7. 在Parkour数据集、Vimeo90K [ 37 ]数据集和Vid4 [ 21]数据集上的视觉比较。示例（a）、（b）、（c）、（d）和（e）是从大运动Parkour数据集中选择的。示例（f）来自SPMC [ 28]数据集。示例（g）来自Vimeo90K [ 37 ]数据集。示例（h）来自Vid4 [ 21]数据集。我们在左侧的视频静帧上标记了插图位置。为了使我们的讨论更清晰，我们添加了指向我们将在第4.2节中讨论的区域的箭头。最好在PDF中查看。0section.为了获得低分辨率的输入，我们对真实高分辨率帧使用双三次降采样。根据我们的实验，PFNL [ 43 ] 和 TGA [ 10 ]对使用双三次降采样的视频结果引入了严重的混叠伪影。为了公平比较，对于PFNL [ 43 ] 和 TGA [ 10]，我们在降采样之前对真实帧进行高斯模糊，按照他们的论文中的步骤进行。除非另有说明，本节中显示的结果是在记忆增强注意力模块的记忆大小为N =512的情况下生成的。我们在一台配备NVIDIA 2080TiGPU的台式计算机上进行实验。我们网络的平均处理速度为每个448x256 HR帧59ms。04.1. 数据集和评估指标0正如第1节中讨论的那样，我们方法中的跨帧非局部注意力使得VSR无需帧对齐。为了验证我们方法对大运动的鲁棒性0视频，我们从互联网上随机收集了14个Parkour视频剪辑。Parkour是一种专注于通过奔跑、攀爬和跳跃在复杂环境中通过障碍的极限运动形式。通常使用自拍式可穿戴摄像头拍摄，Parkour视频是现实世界中大摄像机运动无处不在的典型示例。Parkour数据集的示例视频静帧如图6所示。我们还使用Vimeo90K [ 37 ]测试集、SPMC数据集 [ 28 ]和Vid4 [21]（包含4个视频）对我们的方法进行进一步评估。对于所有测试集，我们使用RGB通道上的平均PSNR和SSIM [ 50]分数来定量评估性能。此外，我们应用LPIPS [ 45]来评估超分辨帧与真实高分辨帧之间的感知相似性。由于性能可能因计算平台而异，且定量指标计算在这些工作中可能不同，我们重新运行了它们的代码并计算了结果。(a) Parkour Dataset(b) Vimeo90K-Motion [37](c)Vimeo90K Dataset [37](d)SPMC Dataset [28]PSNR↑in dBSSIM↑LPIPS↓PSNR↑in dBSSIM↑LPIPS↓PSNR↑in dBSSIM↑LPIPS↓PSNR↑in dBSSIM↑LPIPS↓Bicubic29.510.87120.310133.900.91940.212229.750.84760.294825.670.72410.4270TOFlow [37]32.350.91970.180436.550.94710.118632.960.90410.145128.550.83270.2661178400MANA（我们的方法） 33.81 0.9397 0.1159 38.86 0.9630 0.0853 34.84 0.9404 0.1076 29.27 0.8449 0.21470DBVSR [19] 32.09 0.9225 0.1534 37.77 0.9563 0.0943 33.47 0.9265 0.1240 28.00 0.8186 0.22470TGA [10] 31.14 0.9033 0.2224 38.26 0.9588 0.0919 35.03 0.9310 0.1013 29.06 0.8449 0.23900PFNL [43] 32.04 0.9189 0.2244 35.90 0.9449 0.1522 31.86 0.8959 0.2012 28.27 0.8270 0.31000CSNLN [18] 32.93 0.9275 0.1357 37.79 0.9523 0.1062 33.55 0.9091 0.1338 28.79 0.8275 0.23430表1. 在（a）Parkour数据集、（b）Vimeo90K-Motion [37]、（c）Vimeo90K[37]数据集和（d）SPMC数据集[28]上的定量比较。使用的指标是PSNR、SSIM和LPIPS。较大的数值表示PSNR和SSIM的结果较好，较小的数值表示LPIPS的结果较好。0以相同的方式在同一台计算机上使用相同的指标。04.2. 视觉比较0从Parkour、SPMC、Vimeo90K和Vid4数据集中选择的各种示例的视觉比较如图7所示。为了简洁讨论，我们在每个视频的左下角标注了ID。我们还添加了指向要讨论的区域的箭头。示例（a）、（b）、（c）、（d）和（e）是从Parkour数据集中选择的。这些示例包含大的运动，对现有的VSR方法来说是具有挑战性的。我们的方法可以重建重复模式，如示例（a）和（b），而显式帧对齐方法TOFlow[37]和TGA[10]由于不准确的帧对齐而失败。最近的方法DBVSR[19]通过学习去模糊来改善帧对齐，但仍然无法处理（b）中的重复模式。EDVR[32]的结果在示例（a）和（b）中比我们的结果更模糊，当以动态方式查看时，这种模糊问题更加明显，如补充视频所示。这表明可变形卷积对于具有大帧位移的对齐无法处理。使用非局部注意力的PFNL [43]和CSNLN[18]也存在模糊问题，可能是由于第3.2节讨论的非局部注意力性能下降问题。示例（c）关注对象的一般细节。由于不准确的对齐，帧对齐方法引入了幽灵伪影（EDVR）或变形（TOFlow和TGA）。PFNL和CSNLN的结果比我们的结果缺少细节，表明我们的高斯加权非局部注意力改善了常规非局部注意力的质量。示例（d）关注人脸形状和细节。如双三次插值结果所示，由于下采样，原始的人脸细节完全丢失。我们的方法通过记忆增强模块重建了视觉上令人满意的人脸细节，而比较方法则引入了模糊（EDVR、TOFlow和PFNL）或重建了不像人的形状（TGA和CSNLN）。示例（e）和（f）包含细小的结构。与示例（a）和（b）类似，帧对齐的失败对VSR方法产生了负面影响。在这些示例中，EDVR、TOFlow和TGA的性能甚至比SISR方法CSNLN还要差。DBVSR的结果优于TOFlow，但比我们的结果更模糊。0正如在第4.3节中讨论的那样，我们的方法的整体平均定量分数略低于Vimeo90K[37]和Vid4数据集[21]中EDVR和TGA的分数，这两个数据集对于帧对齐的VSR方法来说相对容易。然而，与真实值的较大偏差并不总是表示性能较差。正如从Vimeo90K中选择的示例（g）所示，我们的方法往往能够产生比EDVR和TGA更清晰的结果，这在VSR任务中更受欢迎。示例（h）是Vid4中广泛使用的示例。我们的结果与EDVR和TGA的结果相当。为了进一步评估我们的方法在真实场景中的鲁棒性，我们随机选择了不同类型的视频，包括动画、电影和视频博客进行视频超分辨率处理。结果进一步证明了我们的方法优于其他方法（由于空间有限，结果包含在补充材料中）。04.3. 定量比较0表1显示了我们的MANA与最先进的VSR方法在PSNR、SSIM和LPIPS得分方面的定量比较，其中较大的PSNR和SSIM以及较小的LPIPS损失表示更好的结果。我们用红色标记最佳结果，用蓝色标记第二佳结果。在这个表中，我们展示了4个数据集上VSR的定量结果：Parkour数据集、Vimeo90K-Motion、Vimeo90K和SPMC。由于空间不足，Vid4的结果可以在我们的补充材料中找到。表1的列(a)展示了Parkour数据集上的结果比较。该数据集中的视频具有极大的运动，使得帧的准确对齐变得困难。在比较方法中，TOFlow[37]和DBVSR [19]明确估计了用于对齐邻帧的光流；TGA[10]使用单应性矩阵对齐邻帧；EDVR[32]使用学习的卷积核偏移来隐式对齐帧。因此，传统的VSR方法依赖于邻帧的显式或隐式对齐，这通常会受到视频中大运动的影响。结果也证明了这一点。正如我们所看到的，我们的MANA方法不需要帧对齐，比所有的VSR方法都要好很多。这个观察结果表明MANA能够处理视频中的大运动。值得注意的是，帧对齐的VSR方法的性能甚至不如SISR方法CSNLN[18]。这是因为融合不对齐的帧通常会在结果中产生幽灵伪影。正如我们所看到的，虽然PFNL[43]比帧对齐方法EDVR和TGA效果更好，但其性能甚至不如单帧方法CSNLN。我们推测PFNL和CSNLN之间的性能差距可能是由于PFNL中的非局部注意力设计所致，该设计在整个时空段上对所有像素进行了成对的非局部注意力。这种常规的非局部注意力可以帮助全局找到更多的对应关系，但同时也可能引入更多的错误匹配，这可能对VSR的结果产生负面影响。相反，我们的高斯加权非局部注意力能够平衡局部和非局部信息的融合。因此，它显著改善了非局部注意力的性能，如表1(a)所示。表1的列(b)展示了Vimeo90K-Motion上的额外实验结果，该数据集包含具有相对较大运动的常规视频。我们计算了Vimeo90K测试集中视频的光流，并根据平均光流大小对其进行了排名。选择排名前6%的视频组成Vimeo90K-Motion。结果进一步证实了我们的MANA在具有一定运动的视频上的更好效果。此外，表1的列(c)和(d)分别展示了数据集Vimeo90K和SPMC上的更多定量结果比较。正如我们所看到的，在这些常规视频上，MANA的性能也优于显式光流对齐方法TOFlow、DBVSR以及其他非局部注意力超分辨率方法PFNL和CSNLN。我们的方法的PSNR得分值在Vimeo90K数据集上略低于EDVR和TGA。然而，在Parkour数据集中的大运动视频中，我们的方法在性能上比EDVR和TGA有更大的PSNR增益（2.2dB和2.67dB）。值得注意的是，我们的方法MANA比其他方法具有更好的泛化性。尽管我们的MANA在Vimeo90K上只获得了可比较的结果，但在SPMC和Parkour上明显优于其他VSR方法。由于所有方法都是在Vimeo90K训练集上训练的，对SPMC和Parkour数据集的测试结果更具说服力。请注意，SPMC和Parkour数据集与Vimeo90K非常不同。相比之下，EDVR可能对Vimeo90K有偏见，因为在SPMC数据集中性能显著下降。因此，MANA比其他方法更具鲁棒性和泛化性。这一观察结果在我们的额外定量实验中得到了进一步证实。178410Parkour数据集 Vimeo90K数据集 [37] Vid4数据集 [21] SPMC数据集 [28]0PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑ LPIPS ↓ PSNR ↑ SSIM ↑

下载后可阅读完整内容，剩余1页未读，立即下载