视频超分辨率：参考帧的高效处理方法

58 浏览量更新于2023-10-15 收藏 1.23MB PDF 举报

视频恢复

效率优化

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1828Ground-truth HRGround-truth HR（裁剪）××高效的基于参考的视频超分辨率（ERVSR）：您只需要一张参考图像Youngrae Kim*1、Jinsu Lim*1、Hoonhee Cho*2、MinjiLee*1、Dongman Lee<$1、Kuk-Jin Yoon<$2和Ho-Jin Choi<$11韩国科学技术院计算机学院，2韩国科学技术院机械工程学院，大田{youngrae.kim，j1n2u，gnsgnsgml，haewon lee，kjyoon，hojinc}@ kaist.ac.kr，dlee@cs.kaist.ac.kr摘要基于参考的视频超分辨率（RefVSR）是一种利用参考视频恢复视频高频纹理的超分辨率技术。移动设备中具有不同焦距的多个摄像头有助于RefVSR的近期工作，其目的是通过利用广角视频来超分辨率地处理低分辨率的超宽视频。RefVSR中的先前工作在每个时间步使用Ref视频的所有参考帧用于低分辨率视频的超分辨率。然而，对高分辨率图像的计算增加了运行时间和内存消耗，从而阻碍了RefVSR的实际应用.为了解决这个问题，我们提出了一个有效的参考为基础的视频超分辨率（ERVSR），利用一个单一的参考帧超分辨率的整个低分辨率视频帧。我们引入了一个基于注意力的特征对齐模块和一个聚合上采样模块，该模块使用参考帧和LR帧之间的相关性来关注LR特征。建议ERVSR实现12更快的速度，1/4的内存消耗比以前的国家的最先进的RefVSR网络，和竞争力的RealMCVSR数据集上的性能，而使用一个单一的参考图像。1. 介绍超分辨率（SR）旨在从低分辨率（LR）图像重建高分辨率（HR）图像。为了恢复高频细节，基于参考的超分辨率（RefSR）方法[2，20，22，25，27，30，32，33]利用附加参考图像，例如，网络抓取的高分辨率图像[20]和从稍微不同的视角拍摄的图像[16]。超分辨率图像结合了参考图像的高频细节，与同步图像相比，* 同等贡献。†共同通讯作者。代码：https://github.com/haewonc/ERVSR我们的4xSR结果(PSNR（第36.40段）SOTA 4xSR结果(PSNR（第36.17段）“Single reference image is all you图1. ERVSR的输入配置图示。与之前的RefVSR不同，我们仅使用单个Ref帧（时间窗口内的中心帧）进行对齐。请注意，Ref帧之间存在大量重叠。[33]第三十三话此外，由于最近许多移动电话都配备了双摄像头或三摄像头，因此对RefSR的需求正在增加。基于参考的视频超分辨率（RefVSR）继承了RefSR和视频超分辨率（VSR）两者的优点，其利用视频中的时间信息。Lee等[16]介绍了Re-fVSR的数据集，称为RealMCVSR数据集，由智能手机中的非对称多摄像头捕获的超宽和广角视频组成由于这些相机捕获具有不同视场（FoV）的场景，因此较小FoV的广角图像可以用作参考图像以超分辨较大FoV的超广角图像为了恢复HR的视频，Lee等人[16]计算每个Ref和LR帧之间的相关性。在额外信息的指导下，他们的方法优于VSR和RefSR模型。然而，他们的最佳性能模型消耗19GB的内存，并且比其他VSR方法花费更长的推理时间[4，5]。RefVSR的这种大的理论消耗和计算时间主要是先前方法参考低分辨率1829来自于在每个时间步长处Ref帧和LR帧之间的相关性的计算这里出现了一个问题：我们能否在利用Ref数据的同时，以更少的内存消耗实现有竞争力的超分辨率视频结果？在本文中，我们表明，竞争力的表现，可以通过设计高效和有效的模块之间的比对参考和LR数据。与现有的工作不同，我们不使用参考帧在每个时间步，但只使用一个单一的参考帧在窗口的中心。如图1，在连续的广角Ref帧之间存在大的重叠。从这个角度来看，我们观察到，只要能够有效地使用这种高频信息，单个Ref图像就足够了在本文中，我们介绍了一个高效的基于参考的视频超分辨率（ERVSR）框架，超分辨率HR视频从LR视频使用一个单一的参考图像。我们提出了一个基于注意力的特征对齐（AFA）模块，该模块将中心Ref帧与LR帧对齐，从而在没有明确对齐的情况下传播Ref信息。此外，通过基于注意力的聚合（AA）上采样，Ref帧的高频特征被转移到每个低分辨率AFA模块和AA上采样都利用了广泛使用的注意力[21]机制，其中参考特征是查询，LR特征是关键和值。得益于允许网络充分利用单个Ref图像的atten- tion模块，ERVSR在RealMCVSR数据集[16]中实现了具有竞争力的性能，与每个时间步长使用参考图像的模型相比[11，30，17，16]具有更快的速度和更少的GPU内存。我们的贡献总结如下：• 我们提出了ERVSR，这是第一个工作，以解决大计算RefVSR。我们成功地全面优化了RefVSR的准确性和效率之间的权衡，从而开启了在移动终端上使用RefVSR的可能性。• 我们利用RefVSR中基于注意力的相似性计算和融合我们还表明，一个单一的参考图像是足以恢复整个视频的高频细节。2. 相关作品2.1. 基于参考的图像超分辨率基于参考的图像超分辨率方法可以分为两类：纹理转移方法[32，30，27]和利用对齐的方法[20，23]。纹理转换方法通常将图像展开成块，并计算每个LR块的参考块的相似性。为了测量相似性，RefSR-Net[32]和TTSR[27] 使用补丁的原始像素之间的内积，而SRNTT[30]使用补丁特征之间的内积另一方面，一些作品[32，30]连接每个LR块的最相似的参考块，并使用卷积层融合块。相比之下，CrossNet[33]估计光流并将参考图像扭曲为LR图像。SSEN[20]使用堆叠的可变形卷积将参考特征与LR特征DCSR[23]利用纹理转移和对齐;它首先找到一个参考补丁，最大化每个低分辨率补丁的余弦相似性，并使用估计的空间变换[11]扭曲参考补丁。2.2. 视频超分辨率许多VSR方法通过估计目标帧和相邻帧之间的光流场来执行对齐[3，13，26]，然后使用卷积或回流网络来融合对齐帧的特征[3，7]。EDVR [24]使用可变形卷积对齐每个帧的特征，然后通过注意力机制以空间和时间方式融合它们。BasicVSR[4]建立了双向传播方案在VSR中的使用IconVSR[4]通过添加额外的特征提取器和耦合传播机制扩展了BasicVSR，该机制将传播模块互连以开发序列中的更多信息BasicVSR++[5]通过二阶网格传播和流引导变形对齐扩展了BasicVSR。2.3. 基于参考的视频超分辨率EFENet[31]利用高分辨率地面实况视频的第一帧作为参考来超分辨率低分辨率（LR）视频。ERVSR与EFENet有两个不同之处。首先，ERVSR仅计算单个Ref帧和单个LR帧之间的流图，而EFENet使用共享流估计器计算Ref 和每个 LR 帧之间的流图。其次，EFENet需要HR视频的指导，这在现实世界的场景中是Lee等[16]提出了一种实用的设置，其在智能手机中使用非对称多相机捕获Ref视频。它们遵循双向传播方案，在每个递归单元中具有参考对齐[20]和传播模块。然后使用卷积层将对齐的参考特征与时间聚合特征融合。我们提出的框架ERVSR不同于以前的作品在两个折叠。首先，ERVSR不使用每个时间步长的Ref帧，而是仅使用中心时间步长中的一个帧。Ref视频帧之间存在大量重叠，并且我们认为没有必要利用每个Ref帧。其次，现有方法使用[22]中提出的参考对齐模块来获得与LR帧对齐的Ref特征。代替逐块计算1830基于注意力的特征对齐（AFA）值SoftmaxR关键R重塑R查询矩阵乘法逐元素加法层正常化深度方向分离卷积3x3Dconv规范不不不不不不不∈不∈RRLRResBlockAFA模块双向AA传播上采样RefResBlock图2.我们提出的方法的总体框架。2w+1表示窗口大小，这意味着帧数，t表示中心时间步长。图3.提出了基于注意力的特征对齐（AFA）模块。相似性和对齐，这是计算量很大的，ERVSR使用可学习的投影计算LR和Ref特征之间的相似性[21]。注意，ERVSR是在RefVSR中利用基于注意力的相似性计算和融合的第一种方法3. 该方法在本节中，我们将介绍ERVSR，这是一种端到端神经网络，用于高效的基于参考的视频超分辨率。如图2，我们提出的网络由三个部分组成：基于注意力的特征对齐（ AFA ）、双向传播和基于注意力的聚集（AA）上采样模块。AFA模块在中心时间t对齐LR帧，双向传播将时间信息传播到另一个中心时间t处的LR帧与参考帧I ref。图3示出了AFA模块的概览。I LR和I ref首先由残余层[8]深度表示，得到F LR、F refRNc× W × H 分别地，其中Nc表示通道维度的数量。由于要从LR帧和Ref帧提取的特征的属性不同，所以两个残差块（ResBlock）不共享权重。3.1. 基于注意力的特征对齐（AFA）模块提取的特征通过归一化层[1]进行归一化，并投影到查询Q，键K和值V [21]。我们计算Q，K，V如下：Q=PQ（Fref）∈RWH×NC，时间步长，并且AA模块传送来自Ref图像的特征以对LR特征进行上采样。设LR帧{ILR，· ··，ILR，· ··，ILR}∈K=PK（FLR）∈RNc×WH，V=PV（FLR）∈RWH×NC，（一）R3×W ×Ht−w tt+wref和一参考帧在中心时间t，其中PQ、PK、PV表示由1×1ItR3×W ×H，其中2w+ 1表示窗口的大小，W，H表示空间上的宽度和高度LR框架的尺寸。 AFA模块对齐卷积层，有效的深度方向分离卷积层[9]和整形操作。然后，AFA模块计算投影参考fea和fea之间的相关性。规范规范1x11x13x3Dconv1x13x3Dconv1x13x3Dconv向前1831基于注意力的聚合（AA）RRConcat值R关键R查询像素混洗不不×一不fwbw对齐不不双向传播正倒向FWAA于普萨姆勒向前落后BWFWAA于普萨姆勒BWFWAA于普萨姆勒BW图4.双向传播概述双向传播由级联的前向（FW）和后向（BW）模块组成图5.建议的基于注意力的聚合（AA）上采样模块。真实Q和投影LR特征K，导致与参考帧的注意将引导更多的信息到地图A：A=Softmax（KQ）∈RNc×NC.（二）网络，但它导致了巨大的计算成本。因此，除了ILR之外的LR帧被提取为特征投影的LR特征V使用参考的信息来处理，从而产生对准的LR特征F对准，其中，输出投影P0包括11卷积层和整形操作：F align= P O（VA）+F LR。（三）通过残差块，而不是AFA模块，得到Fi，其中i∈{t−w，·· ·， t+w}且i∈/{t}。3.2. 双向传播通常使用的方法来传播时间信息是单向传播方法[10，在注意力计算中，我们还利用深度方向的分离卷积进行高效计算，如图所示。3.第三章。对于前向网络，我们采用[28]中的Gated-Dconv前馈网络（GDFN）。AFA模块重复N次。ERVSR利用注意力机制，不仅可以充分利用Ref特征，而且可以利用最相似的特征，并从重复纹理中受益。通过提取和传播F对齐而不是低分辨率特征，我们可以利用来自参考的信息，效率。正如[16]中所提出的，对齐所有LR帧6]，其中信息从第一帧到最后一帧顺序地传播。然而，这种方法的问题换句话说，可能存在信息不平衡.因此，我们采用了双向方法，而不是单向传播[4]以在每个帧中传播时间信息。如图4，给定连续LR特征{Ft−1，Ft，Ft+1}，我们可以得到的forward特征H和向后特征h其中fw和bw表示t t规范规范1x11x13x3Dconv1x13x3Dconv1x13x3Dconv1832不不t tt+1我我我模型参考使用PSNR（dB）SSIM推断时间GPU内存使用(ms/帧）（GB）双三没有26.650.8N/AN/A[15]第十五话没有29.380.877--[29]第二十九话没有31.070.915--[第27话]所有时间步长30.310.905--参考TTSR-11[27]所有时间步长30.830.911--图像SRC2-匹配-rec*[12]所有时间步长30.580.887--DCSR[23]所有时间步长30.630.895--[23]第二十三话所有时间步长32.430.933--EDVR[24]没有33.260.946512.826.474视频SRBasicVSR[4]没有33.660.95177.724.792IconVSR[4]没有33.800.951102.035.097基本VSR ++*[5]没有32.800.942100.196.452参考文献Lee等人- [第16话]所有时间步长31.730.9161204.6119.089视频SRLeeet al. IR-11[16]所有时间步长34.860.9591204.6119.089ERVSR（我们的）每个窗口34.440.957107.025.073表1.RealMCVSR数据集上每个窗口13帧的定量评价- 表示该文件未提供该信息最好的和前三名的结果被突出显示。* 指的是我们训练的人前向和后向模块分别：hfw=fw（Falign，Ft−1，hfw），注意力图使用深度方向的分离卷积层来计算，然后使用像素混洗来放大。与AFA模块相比，AA上采样模块跨-t tt−1（四）hbw = bw（F align，Ft+1，hbw）。每个模块都利用基于流的方法进行空间对齐：s{fw，bw}=O（Falign，Ft±1），为每个时间步长将信息从参考特征传递到LR特征。AA模块重复M次。4. 实验4.1. 数据集h∈{fw，bw}=W（h{fw，bw}，s{fw，bw}），ti±1i（五）我们的模型在RealMCVSR数据集上进行了训练和测试[16]。RealMCVSR数据集提供真实世界的高清h{fw，bw}=R{fw，bw}（Falign，h<$ {fw，bw}），其中O和W分别表示流量估计和显式特征级扭曲。这里，R{fw，bw}表示每个前向和后向扭曲的残差的堆栈3.3. 基于注意力的聚合（AA）上采样我们提出了AA上采样模块，在对LR特征进行上采样的同时传递参考的高频特征。如示于图在图5中，给定来自双向传播的前向聚合特征和后向聚合特征，通过下式获得最终高分辨率（HR）IHR= U（hfw，hbw），i ∈ {t − w， ··· ，t +w}，（六）其中U表示由像素重排[19]组成的上采样模块，注意力机制使用通过计算LR特征和参考特征的相关性获得的AA注意力图。与AFA模块相同，不不我Apple iPhone 12同时录制的视频三重奏1833Pro Max配备三个固定焦距的摄像头：超宽（30mm）、广角（59 mm）和长焦（147 mm）。视频三元组分为训练集、验证集和测试集，每个集分别有137、8和16个三元组，分别为19，426、1，141和2，540帧根据[16]，我们将超广角和广角分别设置为LR帧和Ref帧4.2. 实现细节网络和实验是使用Pytorch框架实现我们使用NVIDIA A100- 40 GB来测量推理时间和GPU内存使用情况。对于训练，我们使用l1loss作为损失函数和Adam[14] 优化器。对于每次迭代，我们从RealMCVSR训练集中随机抽取帧三元组批次，同时将批次大小设置为32。我们在双向传播中使用了预训练的光流网络[18]。我们训练我们的模型可以超分辨4×双三次下采样LR1834××(a)（b）（c）（d）（e）图6.定性比较我们的方法与以前的作品。为了清楚起见，对所得到的图像的放大部分进行了缩放。从左到右，（a）：LR输入，（b）：双三次插值，（c）：BasicVSR++[5]，（d）：Lee等人- IR-11[16]和（e）：分别是我们的。使用广角视频帧作为参考图像的超宽视频。在训练阶段，超宽LR帧和广角Ref帧被裁剪为64 × 64。我们在网络中将层数设置为N=M= 4（在第3.1节和第3.3节中），窗口大小设置为13作为默认大小。关于这个实验的更多细节可以在我们的补充材料中找到。4.3. 定量比较表1显示了RealM-CVSR数据集的定量比较。我们使用4个双三次下采样的低分辨率超宽视频和广角参考视频作为输入。我们将ERVSR与以前的作品进行了比较：[29]第一次世界大战期间，美国的军事行动和军事行动都有重大进展。[24]，BasicVSR[4]， BasicVSR++[5]， Leeet al. [16]第10段。我们展示了PSNR，SSIM，每帧推理时间和GPU内存使用的比较。仅在l1损失函数上训练的模型用l1表示。我们的ERVSR优于以前的单图像SR（SISR），RefSR，和VSR方法，并达到第二最好的PSNR和SSIM之间的几个模型。Lee等人之间的性能差异- IR-11[16]（在[16]中的几个模型中性能最好的模型），考虑到我们的模型快12倍，消耗小3.8倍的GPU内存使用，并且在推理时仅使用一个Ref图像，即使当仅给出一个Ref图像时，我们也表明我们的方法通过使用我们的新颖的基于注意力的特征对齐（AFA）模块（在第3.1节中）和基于注意力的聚合（AA）上采样模块（在第3.3节中）来高效且有效地利用和传输来自Ref图像的高频信息。ERVSR的效率在每帧推理时间和GPU内存使用方面也与VSR方法具有竞争力，而PSNR和SSIM值要高得多这表明，我们的方法的效率是可比的VSR模型，即使将参考框架，1835模型峰值信噪比（dB）SSIM基线31.880.931基线+AFA32.110.932基线+AA32.170.933ERVSR（基线+AFA + AA）34.440.957表2.我们提出的组件的定量消融研究网络。因此，我们提出的ERVSR成功地降低了RefVSR的权衡的准确性和效率4.4. 定性比较在图6中，我们显示了Bicubic、BasicVSR++[5]和Lee等人的超分辨结果。IR-11[16]在RealMCVSR数据集上训练。非基于参考的 SR 方法（如 Bicubic 和BasicVSR++）往往会产生模糊的纹理和字母。相比之下，RefVSR方法受益于Ref信息，并且更好地超解析诸如字母的细节。此外，我们提出的ERVSR显示出与Lee等人竞争的视觉质量。IR-11[16]，即使我们的方法每个窗口仅使用一个Ref图像。Lee等人，IR-11[16]经常产生模糊伪影，特别是在小尺寸特征和非重叠FoV区域中。这是由于LR图像和Ref图像之间的未对准，因为它明确地计算相似度图。得益于基于注意力的机制，我们的ERVSR可以通过利用特征级对齐来提供更好的小尺寸特征的视觉效果此外，由于我们的AA模块将重叠和非重叠区域的高分辨率细节从Ref特征传输到LR，因此ERVSR可以在非重叠FOV区域中获得更好的结果。4.5. 消融研究1. ERVSR的每个组件对性能的贡献。我们进行了定量消融研究，以分析我们提出的每个模块，AFA和AA的效果我们将基线网络设置为仅由双向传播组成的模型如表2所示，使用我们提出的每个模块的模型显示出比基线网络更好的PSNR和SSIM。AA模块比AFA模块具有更显著的性能改进，因为它有效地通过双向传播将LR特征直接转换为时间对准特征。我们发现，当网络同时使用AA和AFA模块时，性能增益是显着的。我们假设网络需要同时学习编码和解码的特征。使用单独组成的模块将高分辨率信息从Ref特征传输到LR特征变得极其困难。另一方面，同时使用AA和AFA模块进行编码，解码级实现将Ref与LR特征对齐，而无需显式对齐。如图7、我们还进行了定性的消融研究，以显示每个组件对SR的视觉效果。基线不能恢复字母或重复图案等细节。基线+ AFA显示比基线减少的失真，但仍然产生模糊的伪影。我们的ERVSR模型同时具有AFA和AA模块，可实现最佳的视觉质量，减少模糊伪影和失真，并准确恢复边缘。2.中心帧的参考能引导具有大时差的LR帧吗？这个问题是至关重要的，因为我们使用一个单一的参考帧每个窗口。为了回答这个问题，我们比较了ERVSR和BasicVSR++的每个超分辨率视频帧的PSNR，并考虑到其与中心帧的时间差（见图1）。（八）。性能下降会随着时间差的增加而降低，但在BasicVSR++中也观察到了这种程度的下降。如果中心帧的参考不能有效地引导具有大时间差的 LR 帧然而， ERVSR 和BasicVSR++之间的性能差距是恒定的，这意味着即使在大的时间间隔下，参考中心帧的细节也能够指导LR帧的特征提取和上采样。3. 帧数对性能的影响。VSR模型可以受益于输入LR帧数量的增加，因为该特征可以从双向流中更好地细化在RefVSR模型中，增加帧数量的有利效果逐步增加，该模型针对每个时间步长利用参考帧。在本节中，我们在表3中随着帧数的减少，我们的模型和Lee等人的模型之间的性能差距越来越大。IR-l1[16]降低，最后，当帧数为5时，我们的模型优于它。知道李等人-IR-11[16]在帧数为5时仍然比ERVSR多利用四个参考帧，这样的结果意味着我们的基于注意力的模块是利用参考细节的有效设计5. 结论在这项工作中，我们提出了有效的基于参考的视频超分辨率（ERVSR），仅使用一个单一的参考图像。为此，我们首先提出了基于注意力的方法来计算相似性，使用RefVSR中的可学习投影。为了评估我们的方法，我们在[16]中的大规模基准测试中训练和评估了我们的网络。我们的模型在定性和定量上都优于最先进的图像SR、我们加快了推理时间，速度提高12倍，同时使用GPU内存的效率提高3.8倍18361不23456(a)（b）（c）（d）（e）图7.每个组件消融研究的定性结果。为了清楚起见，放大了结果图像的放大部分。从左到右，（a）：LR输入，（b）：基线，（c）：基线+ AFA，（d）：基线+ AA，和（e）：ERVSR（基线+ AFA + AA）。3534.2533.532.75ERVSR BasicVSR++帧索引33.9332.35其中仅使用视频中的一个参考帧，与Lee等人的相同。IR-11[16]，这是RefVSR领域的最先进方法。简而言之，我们减少了RefVSR的精度-效率权衡，打开了在实时问题中使用RefVSR的可能性。确认这项工作得到了韩国政府（MSIT）资助的信息通信技术规划评估研究所（ IITP ）资助（ No.2019-0-01126，基于自学习的自主物联网边缘计算）的支持。（50%）图8.每帧视频的PSNR比较。型号SR的帧数0.9516表3.对不同窗口帧数下的最佳结果突出显示，次佳结果加下划线。第1行和第2行分别为平均PSNR（db）和SSIM评分。这项研究得到了韩国国家警察厅的支持和资助。[项目名称：XR反恐教育和培训试验台建立/项目编号：PR08 -04-000-21]（50%）引用[1] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。[2] 维韦克·布米纳坦，考希克·米特拉，阿肖克·维拉伽·凡.使用混合成像系统改进光场相机的分辨率和景深。2014年 IEEE 国际计算摄影会议（ ICCP ），第 1-10 页。IEEE，2014。[3] Jose Caballero 、 Christian Ledig 、 Andrew Aitken 、Alejandro Acosta 、 Johannes Totz 、 Zehan Wang 和Wenzhe Shi。结合时空网路与运动补偿之即时视讯超解析。在IEEE会议的会议记录中-32.8 32.832.7932.7232.6132（中心）34.4434.4334.434.3634.1634.28峰值信噪5713VSR ++[5]32.5632.7432.800.93810.94040.9416Lee等人，IR-1[16]34.0234.3634.8610.95480.959ERVSR（Ours）34.0334.1534.440.95340.95410.95671837计算机视觉和模式识别，第4778[4] Kelvin CK Chan，Xintao Wang，Ke Yu，Chao Dong，and Chen Change Loy. Basicvsr：搜索视频超分辨率及更高分辨率的基本组件。在IEEE/CVF计算机视觉和模式识别会议论文集，第4947-4956页，2021年[5] Kelvin CK Chan，Shangchen Zhou，Xiangyu Xu，andChen Change Loy. Basicvsr++：通过增强的传播和对齐来提高视频的超分辨率.在IEEE/CVF计算机视觉和模式识别会议上，第5972-5981页，2022年[6] 达里奥·弗奥利、古书航、拉杜·穆夫提。通过递归潜在空间传播的高效在2019年IEEE/CVF计算机视觉国际会议研讨会（ICCVW）上，第3476IEEE，2019。[7] Muhammad Haris Gregory Shakhnarovich 和 NorimichiUkita。用于视频超分辨率的递归反投影网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第3897-3906页[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[9] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。[10] 矶部隆、徐佳、谷书航、李松江、王胜金、齐天。具有递归结构-细节网络的视频超分辨率。在欧洲计算机视觉会议上，第645-660页。Springer，2020年。[11] Max Jaderberg，Karen Simonyan，Andrew Zisserman，等.空间Transformer网络。神经信息处理系统的进展，2015年28日。[12] Yuming Jiang，Kelvin CK Chan，Xintao Wang，ChenChange Loy，and Ziwei Liu.基于c2匹配的鲁棒参考在IEEE/CVF计算机视觉和模式识别会议论文集，第2103[13] Tae Hyun Kim，Mehdi SM Sajjadi，Michael Hirsch，andBernhard Scholkopf.用于视频恢复的时空Transformer网络。在欧洲计算机视觉会议（ECCV）中，第106[14] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[15] Chri s tianLedig ， LucasTheis ， FerencHusz a'r ， Jo seCaballero ， Andrew Cunningham ， Alejandro Acosta ，Andrew Aitken，Alykhan Tejani，Johannes Totz，ZehanWang，et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在IEEE计算机视觉和模式识别会议论文集，第4681-4690页[16] 李俊勇，李明熙，赵成贤，李世景。基于参考的视频超分辨率使用多摄像机视频三元组。 arXiv 预印本 arXiv ：2203.14537，2022。[17] Liying Lu，Wenbo Li，Xin Tao，Jiangbo Lu，and JiayaJia. Masa-sr：基于参考的图像超分辨率的匹配加速和空间自适应。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第6368-6377页[18] Anurag Ranjan和Michael J Black。使用空间金字塔网络的光流估计。在IEEE计算机视觉和模式识别会议论文集，第4161-4170页[19] WenzheShi，JoseCaballero，FerencHusza'r，JohannesTotz，Andrew P Aitken，Rob Bishop，Daniel Rueckert，and Zehan Wang.使用有效的子像素卷积神经网络实现实时单幅图像和视频超分辨率。在IEEE计算机视觉和模式识别会议论文集，第1874-1883页[20] 沈久民朴振善仁素权具有相似性感知可变形卷积的鲁棒的基于参考的超分辨率。在IEEE/CVF计算机视觉和模式识别会议论文集，第8425[21] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser，and Illia Polosukhin.注意力是你所需要的。神经信息处理系统的进展，30，2017。[22] Tengfei Wang，Jiaxin Xie，Wenxiu Sun，Qiong Yan，Qifeng Chen.双摄像头超分辨率与对齐的注意力模块。在IEEE/CVF国际计算机视觉会议，第2001[23] Tengfei Wang，Jiaxin Xie，Wenxiu Sun，Qiong Yan，Qifeng Chen.双摄像头超分辨率与对齐的注意力模块。在IEEE/CVF国际计算机视觉会议（ICCV）会议中，第2001[24] Xintao Wang，Kelvin CK Chan，Ke Yu，Chao Dong，and Chen Change Loy. Edvr：使用增强的可变形卷积网络进行视频恢复。在IEEE/CVF计算机视觉和模式识别研讨会会议记录中，第0-0页[25] Yanchun Xie，Jimin Xiao，Mingjie Sun，Chao Yao，and Kaizhu Huang.特征表示很重要：基于参考的图像超分辨率的端到端学习。欧洲计算机视觉会议，第230-245页。Springer，2020年。[26] Tianfan Xue，Baian Chen，Jiajun Wu，Donglai Wei，and William T Freeman.具有面向任务流的视频增强。国际计算机视觉杂志，127（8）：1106[27] 杨富志，杨欢，付建龙，卢洪涛，郭百宁.学习纹理Transformer网络实现图像超分辨率。在IEEE/CVF计算机视觉和模式识别会议论文集，第5791[28] Syed Waqas Zamir、Aditya Arora、Salman Khan、Mu-nawar Hayat、Fahad Shahbaz Khan和Ming-Hsuan Yang。1838Restormer ：用于高分辨率图像恢复的高效Transformer。在IEEE/CVF计算机视觉和模式识别会议论文集，第5728- 5739页[29] Yulun Zhang ， Kunpeng Li ， Kai Li ， Lichen Wang ，Bineng Zhong，and Yun Fu.基于极深残差通道注意力网络的图像超分辨率。在欧洲计算机视觉会议（ECCV）的会议记录中，第286[30] Zhifei Zhang，Zhaowen Wang，Zhe Lin，and Hairong Qi.基于神经纹理传递的图像超分辨率。在IEEE/CVF计算机视觉和模式识别会议上，第7982-7991页，2019年[31] Yaping Zhao，Mengqi Ji，Ruqi Huang，Bin Wang，andShengjin Wang. Efenet：基于参考的视频超分辨率，具有增强的流量估计。在CAAI International Conference onArtificial Intelligence，第371斯普林格，2021年。[32] Haitian Zheng ， Mengqi Ji ， Lei Han ， Ziwei Xu ，Haoqian Wang，Yebin Liu，and Lu Fang.学习跨尺度对应和基于块的合成，用于基于参考的超分辨率。在BMVC，第1卷，第2页，2017年。[33] Haitian Zheng，Mengqi Ji，Haoqian Wang，Yebin Liu，and Lu Fang.Crossnet：一种使用跨尺度翘曲的端到端基于参考的超级分辨率网络。在欧洲计算机视觉会议（ECCV）的会议记录中，第88-104页

下载后可阅读完整内容，剩余1页未读，立即下载