视频超分辨率中的快速时空残差网络及性能优势

156 浏览量更新于2023-10-19 收藏 908KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10522用于视频超分辨率的李胜1，何凤翔2，杜波1，张乐飞1，徐永浩3，陶大成2，1武汉大学计算机学院2UBTECH Sydney AI Centre，SCS，FEIT，悉尼大学，澳大利亚武汉大学测绘遥感信息工程国家重点实验室{shli，remoteking，zhanglefei}@ whu.edu.cn{fengxiang.he，dacheng.tao}@sydney.edu.auyonghaoxu@ieee.org摘要最近，基于深度学习的视频超分辨率（SR）方法取得了令人鼓舞的性能。为了同时利用视频的空间和时间信息，采用3维（3D）卷积是一种自然的方法。然而，直接利用3D卷积可能导致过高的计算复杂度，这限制了视频SR模型的深度，从而损害性能。在本文中，我们提出了一种新的快速时空残差网络（FSTRN），采用三维卷积的视频SR任务，以提高性能，同时保持低的计算负载。具体来说，我们提出了一种快速的时空残差块（FRB），它将每个3D滤波器划分为两个3D滤波器的乘积，这两个3D滤波器具有相当低的维度。此外，我们还设计了一种跨空间的残差学习方法，将低分辨率空间和高分辨率空间直接联系起来，可以大大减轻(a) EDSRk x k x kConv3dReLU此外(b) 三维残差块k x 1 x 1Conv3d1 x k x kConv3dPReLU此外(c) 拟议的FRB特征融合和放大部分的计算负担。对基准数据集的广泛评估和比较验证了所提出的方法的优势，并表明所提出的网络显着优于当前最先进的方法。1. 介绍超分辨率（SR）解决了从其低分辨率（LR）对应物估计高分辨率（HR）图像或视频的问题。SR广泛用于各种计算机视觉任务，例如卫星成像[4]和监视成像[17]。最近，基于深度学习的方法已经成为解决SR问题的一种有前途的方法*通讯作者。图1：比较（a）EDSR中的残留块(b)单个C3D残差块，以及（c）所提出的FRB。[5，20，27，29，30，45]. 视频SR的直接想法逐帧执行单个图像SR。然而，它忽略了帧之间的时间相关性，输出的HR视频通常缺乏时间一致性，这可能会出现虚假闪烁伪影[33]。现有的视频SR任务的大多数方法利用时间融合技术来提取数据中的时间信息，例如运动补偿[3，39]，其通常需要手动设计结构和更多的计算消耗。为了自动且同时利用空间和时间信息，自然采用3维（3D）滤波器来k x kConv2dReLUk x kConv2d此外10523×OHR / PSNR/SSIM Bicubic/26.62/0.82 SRCNN / 27.89/0.85 SRGAN/27.09/0.82RDN / 27.06/0.81 BRCN / 28.05/0.86 VESPCN/27.55/0.84图2：对原始帧的视觉观察和在4SR的Dancing视频上的SR结果，值得注意的是，所提出的FSTRN方法不仅实现了最高的PSNR和SSIM值，而且还以最少的伪影恢复了最精细的纹理替换二维（2D）滤波器。然而，额外的维度会带来更多的参数，导致计算复杂度过高。这种现象严重限制了视频SR方法中采用的神经网络的深度，从而破坏了性能[15]。由于在输入LR视频和期望的HR视频之间存在相当大的相似性，因此，在各种SR网络中，都广泛涉及到双连接[20，25，27]，充分展示了剩余连接的优势。然而，SR任务的剩余标识映射超出了足够的使用，它要么应用于HR空间[20，37]，大大增加了网络的计算复杂性，要么应用于LR空间以完全保留来自原始LR输入的信息[47]，在网络的最终部分对特征融合和升级阶段施加沉重的负担。为了解决这些问题，我们提出了快速时空残差网络（FSTRN）（图1）。3）用于视频SR。由于计算复杂度高和存储空间有限，直接利用原始三维卷积（C3D）构建一个非常深的时空网络是困难和不切实际的。因此，我们提出了快速时空残差块（FRB）（图1）。1c）作为FSTRN的构建模块，它由跳跃连接和时空因子化C3D组成。FRB可以大大降低计算复杂度，使网络能够同时学习时空特征，同时保证计算效率。此外，全局残差学习（GRL）的引入，利用输入LR视频和所需的HR视频之间的相似性。一方面为了提高特征提取的性能，我们采用了LR空间残差学习（LRL）。另一方面，我们进一步提出了一个跨空间的剩余连接（CRL）直接连接LR空间和HR空间。通过CRL，LR视频被用作理论分析提供了一个与网络规模（n为样本大小）无显式关系的泛化界（1/ n），保证了算法在未知数据上的可行性.对基准数据集进行深入的实证研究，仿真结果验证了该算法优于现有算法的优越性。总之，本文的主要贡献有三个方面：我们提出了一种新的框架快速时空残差网络（FSTRN）的高质量视频SR。该网络可以同时利用空间和时间信息。通过这种方式，我们保持了节奏的一致性，并缓解了虚假闪烁伪影的问题我们提出了一种新的快速时空残差块（FRB），它将每个3D滤波器划分为两个3D滤波器的乘积，这两个3D滤波器具有显着更低的维度。通过这种方式，我们显着降低了计算负载，同时通过更深的神经网络架构提高性能。我们建议采用全局残差学习（GRL），它包括LR空间残差学习（LRL）和···10524000·D交叉空间残差学习（CRL），以利用输入LR视频和输出HR视频之间的相当大的相似性，这显著地提高了性能。2. 相关工作2.1. 使用CNN的近年来，卷积神经网络（CNN）在许多计算机视觉任务中取得了重大成功[13，23，24，34，36]，包括超分辨率（SR）问题。Dong等人开创了一种称为超分辨率卷积神经网络（SRCNN）的三层深度全卷积网络，以端到端的方式学习LR和HR图像之间的非线性映射[5，6]。从那时起，人们提出了许多研究，这些研究通常基于更深的网络和更先进的技术。随着网络的深化，剩余连接一直是缓解深度神经网络优化困难的一种有前途的方法[13]。结合残差学习，Kim等人。提出一个非常深的卷积网络[20]和深度递归卷积网络（DRCN）[21]。这两个模型显著地提高了任务的执行效率，证明了剩余学习在SR任务中的潜力。Tai等人提出了具有递归块的深度递归残差网络（DRRN）和具有内存块的深度密集连接网络[37]，这进一步证明了残差学习的优越性能。所有上述方法的工作插值放大输入图像.然而，直接馈送插值图像记忆网络（LSTM）[10]。Sajjadi等人通过使用帧循环方法来使用不同的方式，其中先前估计的SR帧也被重定向到网络中，这鼓励了时间上更一致的结果[32]。学习时空信息的更自然的方法是采用 3D 卷积（C3D），其在视频学习中表现出优异的性能[16，43，44]。Caballero等人[3]提到的慢融合也可以被看作是 C3D 。此外， Huanget al.[15] 使用 C3D 改进了BRCN，允许模型以自然的方式灵活地访问不同的时间上下文，但网络仍然很浅。在这项工作中，我们的目标是建立一个深端到端的视频SR网络与C3D和保持高效率的计算复杂度。3. 快速时空残差网络3.1. 网络结构在本节中，我们描述了所提出的快速时空残差网络（FSTRN）的结构细节。如图3、FSTRN主要由四部分组成：LR视频浅层特征提取网络（LFENet）、快速时空残差块（FRB）、LR特征融合和上采样SR网络（LSRNet）以及由LR空间残差学习（LRL）和跨空间残差学习（CRL）组成的全局残差学习（GRL）部分。LFENet简单地使用C3D层从LR视频中提取特征。让FL=HLFE（ILR），（3.1）进入神经网络可以导致一个显着的高COM-其中FL是提取的特征图的输出，并且计算复杂性为了解决这个问题，提出了一个有效的子像素卷积层[33]和转置卷积层[7]，以便在网络的末端将特征映射放大到精细分辨率。使用剩余连接的其他方法包括 EDSR [27] ，SRResNet [25]，SRDenseNet [42]到RDN[47]第47段。然而，剩余连接被限制在LR空间内。这些残差可以增强HLFE（）表示LFENet中的C3D操作。然后，FL用于稍后的LR空间全局残差学习，并且还用作FRB的输入以用于进一步的特征提取。FRB用于在LFENet输出上提取时空特征。假设使用D个FRB，第一个FRB对LFENet输出执行，并且后续FRB进一步提取先前FRB输出上的特征，因此第d个FRB的输出F_L特征提取，但会将过重的负荷FL=H. FL网络的升级和融合部分d联邦预算局d .=HFRB，dd−1HFRB，d−1.···..HFRB，1LΣΣ0ΣΣ···2.2. 使用CNN的视频SR基于图像SR方法并进一步掌握时间一致性，大多数现有方法采用滑动帧窗口[3，18，19，26，39]。为了同时处理时空信息，现有方法通常利用时间融合技术，例如（3.2）其中，HRB，d表示第d个FRB的操作，关于FRB的更多细节将在第3.2节中示出与FRB一起，进行LR空间残差学习（LRL）以进一步改进LR空间中的特征学习。LRL充分利用了前面层，并且可以通过以下方式获得：运动补偿[3，19，26，39]，双向循环，租金卷积网络（BRCN）[14]，长期短期FL=HLRL .ΣFL，FL 、（3.3）LRL D0F10525LRL× ×× × × ×SrSrSrSr××Sr×图3：我们提出的快速时空残差网络（FSTRN）的架构。其中FL是LRL的输出特征图，伴随着更多的计算。为了解决这个问题，我们亲-复合函数HLRL。更多详情见第3.3节。在LRL特征提取的基础上，利用LSRNet在HR空间进行超分辨率视频的提取。具体而言，我们使用C3D进行特征融合，然后使用反卷积[8]进行放大，再次使用C3D进行特征映射通过将上述单个3D残差块上的C3D分解为两步时空C3D，即，我们用一个1k k滤波器，后面跟着一个k1，1滤波器，已被证明在训练和测试损失方面表现更好[44，46]，如图所示LSRNet中的频道调谐输出F L可以是-1c. 此外，我们将整流线性单元（ReLU）[9]改为模拟为：.L=HLSRLΣLRL 、（3.4）它的变体PReLU，其中负部分的斜率是从数据中学习的，而不是预定义的[12]。所以其中HLSR（·）表示LSRNet的操作FRB可以公式化为：最后，网络输出由来自LL.. .LΣΣΣSrLSRNet和一个附加LR到HR空间全球驻地，Fd=Fd−1+Wd，tWd，sσ Fd−1、（3.6）在HR空间中形成跨空间残差学习（CRL）。CRL的详细信息也在第3.3节中给出。因此，将输入从LR空间到HR空间的SR映射表示为FH，FSTRN的输出可以获得为其中σ表示PReLU [12]激活函数。Wd，s和Wd，t分别对应于FRB中的空间卷积和时间卷积的权重，其中未示出偏置项。这样，计算ISR=HFSTRN（ILR）=FL+FH，（3.5）成本可以大大降低，这将在第5.2节中显示。因此，我们可以建立一个更大的，基于C3D的其中HFSTRN表示所提出的FSTRN方法的函数。3.2. 快速时空残差块现在，我们呈现关于所提出的快速时空残差块（FRB）的细节，其在图1中示出。1.一、残差块已被证明在计算机视觉中表现出色，特别是在低级到高级任务中[20，25]。Lim等人[27]提出了一种改进的残差块，通过从SRResNet中的残差块中去除批量归一化层，如图1a所示，这表明在单图像SR任务中有很大的改进。为了将残差块应用于多帧SR，我们简单地仅保留一个卷积层，但将2D滤波器膨胀到3D，这类似于[16]。如图1b所示，kk平方滤波器扩展为K Kk立方滤波器，赋予残差块一个额外的时间维度在膨胀之后，随之而来的问题是显而易见的，因为它需要比2D卷积更多的参数跨空间剩余连接LR剩余连接SR映射KSrLLR0LL1LDLDLLRLLSrKKRLRConvPReLUCFoRnBvConvPReLUCFoRnBvConvPReLUCFoRnBvConvPReLU辍学Conv高档ConvHRFF10526模型在计算资源有限的情况下直接视频SR，具有更好的性能。3.3. 全局剩余学习在本节中，我们描述了LR和HR空间上的全局残差学习（GRL）。对于SR任务，输入和输出是高度相关的，因此输入和输出之间的剩余连接被广泛使用。然而，以前的工作要么在放大的输入上执行残差学习，这将导致高计算成本，要么直接在输入-输出LR空间上执行残差连接，然后进行用于特征融合和上采样的上尺度层，这给这些层带来了很大的压力。为了解决这些问题，我们在LR和HR空间上提出了全局残差学习（GRL），它主要由两部分组成：LR空间残差学习（LRL）和跨空间残差学习（CRL）。LR空间残差学习（LRL）与LR空间中的FRB我们应用一个剩余连接10527LRLSrSrǁ − ǁ ≤2ε2212Sr123112212我我n我F=H2F，F=σLD0√X12BS参数校正线性单元（PReLU）[12]考虑到输入帧之间的高度相似性，我们还引入了一个dropout [35]层来增强网络的泛化能力。因此，LRL的输出FL（覆盖界）的假设空间H诱导FSTRN。这是一种束缚。c o.我们必须保持FSTRN的完整性。然后我们得到一个O1的上限FSTRN的泛化误差（泛化界）这个推广界为我们的LLRL.LLLRLD0. FL+FL，（3.7）提出的算法。如图图1c显示，FRB通过添加恒等式获得其中，σL表示PReLU激活和丢弃层的组合函数。跨空间残差学习（CRL）使用简单的SR映射将LR视频直接映射到HR空间，然后添加到LSRNet结果FL，形成HR空间中的全局残差学习。具体来说，CRL引入了一个映射到具有一个PReLU和两个卷积层的链式神经网络。Bartlett等人证明了大多数标准非线性是Lipschitz连续的（包括PReLU）[1]。假设由两个卷积算子引入的仿射变换可以分别用权矩阵Ai和Ai表示。预计所有的FRB，将LR插值到输出，这可以大大减轻LSRNet的负担，有助于改善SR结果。LR到HR空间的映射可以表示为：FH=HCRL（ILR），（3.8）其中FH是HR空间上的超分辨输入映射。HCRL表示映射函数的操作。映射函数被选择为尽可能简单，以便不引入太多的附加计算成本，包括基于双线性、最近、双三次、面积和反卷积的插值。GRL的有效性和SR图的选择-从词干的输入端到输出端，有 1 个卷积层， 1 个PReLU，1个upgrade和1个卷积层（我们这里不考虑dropout）。它们可以分别表示为权矩阵A1、非线性-ityσ、权重矩阵A和权重矩阵A。如图3所示，LR残差学习是恒等映射，HR残差学习可以用权重矩阵AHR表示。我们可以进一步获得由FSTRN诱导的假设空间的上界，如下所示。定理1（ FSTRN的覆盖界）。对于第i 个FRB（i =1，. . . ，D），假设PReLU的Lipschitz常数为ρi，权重矩阵的谱范数为ping方法在5.3节中演示。有界：<$Ai<$σ≤si和<$Ai<$σ≤si。另外，假设分别有两个参考矩阵Mi和Mi3.4. 网络学习12对于Ai和Ai，满足<$Ai−Mi <$σ≤bi，在训练中，我们使用l1损失函数进行训练. 处理对于l1范数，我们使用Charbonnier罚函数近似为ρ（x）=x2+ε2设θ为待优化网络的参数，是网络输出。然后，目标函数被定义为：ΣNi=1，2。类似地，假设权矩阵A1、A2、A3和AHR分别由s1、s2、s3和sHR 上界。另外，存在4个对应的参考矩阵Mi，i∈ {1，2，3，HR}，使得AiMi比岛与此同时，假设嘴唇非线性常数σ1为ρ1。然后，ε-覆盖数满足：1n nL（ISR，IHR;θ）=Nn=1ρ（IHR−ISR）（3.9）b2X2α<$。1ΣΣD其中N是每次训练的批量大小我们在这里设ε=1e−3。值得注意的是，虽然网络N（H）≤2个对数ε22W2+Σd=1 经常预算（d）Σ产生与输入相同的帧，我们专注于重新-b2..Σ2第2章.Σ2s2b3从输入帧中构造中心帧，+（）2log 2W2+ε2ε3这项工作因此，我们的损失函数主要与bX。Σ输入帧的中心帧。4. 理论分析在学习理论中，我们通常使用泛化误差来哪里+HR2logε22W2、（4.1）表示算法的泛化能力，定义为预期风险R与.d2d2 1N（d）=Σ2Σρisisi+ 1该算法的经验风险R。本节我们FRBεdΣ1 2i=1Σ研究FSTRN的泛化能力具体地说，我们首先给出覆盖数N（H）的上界.bd2002年。1+sd2+. 2002年d d d2 1、（4.2）10528ε−×ρi（1+si）（1+si）+1θ3N2Nε−s−1√（）=（X2s1ρ1）2YDΣ。Σ2ρds ds dΣ+1，（4.3）和Turbine视频，其中包含具有严重运动模糊和锯齿的复杂运动。在[5，41]之后，SR是Ydεd=HR1 2d=1ΣΣρi（1+si）（1+si）+1、（4.4）仅应用于亮度通道（YCbCr颜色空间中的Y通道），并通过峰值信噪比（PSNR）和结构相似性来评估性能ε−sα<$i=1.-1YD1 2亮度通道上的亮度（SSIM）。培训设置。对以下数据进行了数据扩充：对25个YUV视频序列数据集进行了优化。[14，15]之后，1 2α<$i=1扩大训练集，我们在一个体积中训练模型-通过裁剪多个重叠体积，和ρ1（1 +s2）+sHR+ 1，（4.5）培训视频。在裁剪过程中，我们采用了大的空间尺寸为144×144，时间步长为5，α¯=D型ΣΣρj（1+sj）（1+sj）+1ρ1（1+s2），（4.6）将空间和时间步长设定为32和10，分别为。此外，受[40]的启发，考虑了训练卷的翻转和换位版本j=11 2是的。具体来说，我们将原始图像旋转了90度，然后水平和垂直地翻转它们因此，在本发明中，这里省略了详细的证明，并在基于[2，11]的附录中给出。最后，我们可以得到下面的定理。为了简洁起见，我们表示等式的右侧（RHS）。(4.1)作为R.定理2（FSTRN的推广界）。对于任何实数δ∈（0，1），概率至少为1−δ，以下不等式对任何假设Fθ成立：我们可以从原始视频数据集生成13020个体积。在此之后，训练和测试LR输入生成过程都被分为两个阶段：通过具有标准去噪率为2的高斯滤波器来平滑每个原始帧，以及使用双三次方法对先前帧进行下采样此外，为了在测试阶段保持输出帧的数量等于原始视频，在测试视频的头部和尾部应用帧填充。R（Fθ）≤R（F）+8+36<$RlogN+3.对数（2/δ）.（4.7）在这些实验中，我们专注于高档因子4的视频SR，这通常被认为是视频SR中最具挑战性和普遍性的情况FRB的数量和辍学率根据经验设定为5和0。3 .第三章。的定理2可以由定理1得到。德塔岛。在附录中列出了相关信息。当量（4.7）g给出了FSTRN算法的O ~（1/ N）我们的结果的另一个优点是，所有的面-所涉及的tors并不明确依赖于我们的神经网络的大小，它可能非常大。这种强度可以防止提出的结果没有意义。总体而言，这一结果从理论上保证了我们的方法的可行性和5. 实验在本节中，我们首先分析了网络的贡献，然后给出了实验结果，以证明所提出的模型在基准数据集上的有效性。5.1. 设置数据集和指标。为了与现有作品进行公平比较，我们使用了25个YUV格式基准视频序列作为我们的训练集，这些序列以前曾在[14，15，28，31，38]中使用过。我们在与[14]相同的基准挑战视频上测试了所提出的模型，设置相同，包括舞蹈，旗帜，风扇，跑步机亚当优化器[22]用于使用标准反向传播最小化损失我们从1e4的步长开始，然后在训练损失停止下降时将其减少到10倍。根据GPU内存大小设置批处理大小。块#参数浮点数C3DRBFRB111K49K小行星566252米降低比率55.86%55.48%表1：使用单个C3D的一个残差块的#Params和#FLOP比较（图1A）1b）和一个FRB（图。第1c段）。5.2. FRB研究在本节中，我们将研究所提出的FRB对效率的影响。我们分析的计算效率的FRB相比，直接使用C3D（C3DRB）的残差块假设我们所有的输入和输出特征图大小为64，每个输入由大小为32 32的5帧组成，然后详细比较所提出的FRB和ε2=HR+12N10529×方法跳舞PSNR /SSIM跑步机PSNR /SSIM标志PSNR /SSIM风扇PSNR /SSIM涡轮PSNR /SSIM平均PSNR /SSIM双三26.78 /0.8321.58 /0.6526.97 /0.7833.42 /0.9326.06 /0.7627.80 /0.80[5]27.91 /0.8722.61 /0.7328.71 /0.8334.25 /0.9427.84 /0.8129.20 /0.84SRGAN[25]27.11 /0.8422.40 /0.7228.19 /0.8333.48 /0.9327.38 /0.8128.65 /0.84RDN[47]27.51 /0.8222.69 /0.7228.62 /0.8234.46 /0.9328.10 /0.8229.30 /0.84BCN [14]28.08 /0.8822.67 /0.7428.86 /0.8434.15 /0.9427.63 /0.8229.16 /0.85VESPCN[3]27.89 /0.8622.46 /0.7429.01 /0.8534.40 /0.9428.19 /0.8329.40 /0.85FSTRN（我们的）28.66/0.8923.06/0.7629.81/0.8834.79/0.9528.57/0.8429.95/0.87表2：Bicubic，SRCNN[5]，SRGAN[25]，RDN[47]，BRCN[14]，VESPCN[3]和我们的比例因子为4的FSTRN测试视频序列的PSNR和SSIM结果的比较。C3DRB总结在表1中。很这样，计算成本可以大大降低，所以我们可以建立一个更大的，基于C3D的模型，直接视频SR在有限的计算资源具有更好的性能。5.3. 消融研究我们进行了消融研究，以分析并发症，FRB、CRL和LRL的烧蚀研究3029282726250 50 100 150 200时代（一）不同CRL的消融研究3029282726250 50 100 150 200时代（b）第（1）款FRB和GRL在不同退化模型下的贡献。图4a示出了退化模型的收敛曲线，包括：1）在没有FRB、CRL和LRL的情况下获得的基线（FSTRN F0 C 0 L0）;2）基线与FRB整合（FSTRN F1 C 0 L0）; 3）具有FRB和LRL的基线（FSTRN F1 C 0 L1）; 4）FRB、CRL和LRL（FSTRN F1 C1 L1）的所有组成部分的基线，这是我们的FSTRN。FRB的数量D被设置为5，CRL使用双线性插值。基线收敛缓慢且性能相对较差（绿色曲线），并且额外的FRB极大地改善了性能（蓝色曲线），这可能是由于有效的帧间特征捕获能力。正如预期的那样，LRL进一步提高了网络性能（马根塔曲线）。最后，应用CRL的添加（红色曲线），在LR和HR空间上构成GRL。仿真结果表明，该网络具有更快的收敛速度和更好的性能，证明了FRB和GRL的有效性和优越性。此外，为了说明CRL中不同的插值方法对网络性能的影响，我们研究了CRL中不同的插值方法。具体来说，我们探讨了双线性，最近，双三次，面积和反卷积插值。如图4 b，除反卷积外，其他插值方法的表现几乎相同，原因是反卷积需要一个学习上采样滤波器的过程，而其他方法则不需要。不同的插值方法收敛到几乎相同的性能，表明FSTRN的性能改善归因于内插方法的改进。图4：不同退化模型（a）和CRL（b）不同插值方法的收敛性分析。每个组合的曲线基于200个epoch中缩放因子×4的测试视频的PSNRGRL的引入，与CRL中具体的插值方法关系不大。5.4. 与最新技术水平的比较我们将所提出的方法与不同的单图像SR方法和最先进的多帧SR方法进行了定量和定性比较，包括双三次插值，SRCNN [5，6]，SRGAN [25]，RDN[47] ，BRCN [14，15]和VESPCN [3]。在以下比较中，FRB的数量D被设置为5，并且CRL的放大方法被设置为双线性插值。所有方法的定量结果总结在表2中，其中评价度量是PSNR和SSIM指数。具体来说，与最先进的SR方法相比，所提出的FSTRN显示出显着的改善，超过他们的平均PSNR和SSIM分别为0.55 dB和0.2。除了定量评价外，我们还提供了单帧（图2）和多帧（图5）SR比较方面的一些定性结果，显示了原始帧和4个SR结果之间的视觉比较。不难看出，拟议的FSTRN重新-覆盖最精细的细节，并产生最令人满意的结果，无论是在视觉上还是在PSNR/SSIM指数方面FSTRN_F0C0L0FSTRN_F1C0L0FSTRN_F1C0L1FSTRN_F1C1L1峰值信噪比（dB）双线性最近双立方区域反卷积峰值信噪比（dB）10530∼(a) （b）SRCNN（c）RDN（d）BRCN（e）VESPCN（f）FSTRN图5：Flag视频的原始帧（第1帧和第5帧，从顶行到底）与SRCNN、RDN、BRCN、VESPCN和FSTRN分别获得的SR结果之间的比较。我们的研究结果显示，与其他作品相比，更清晰的输出与更平滑的帧间过渡。我们的结果表明，更尖锐的输出，甚至在网格处理，这是公认的最难处理的SR，FSTRN可以处理得很好，显示出有前途的性能。6. 结论本文提出了一种新的快速时空残差网络（FSTRN）视频SR问题。我们还设计了一种新的快速时空残差块（FRB），以同时提取时空特征，同时确保高的计算效率。除了在LR空间上使用残差来提高特征提取性能之外，我们还提出了一种跨空间残差学习来利用低分辨率（LR）输入和高分辨率（HR）输出之间的相似性。理论分析为该方法的泛化能力提供了保证，实验结果验证了该方法的有效性，并表明该网络的泛化能力明显优于现有的SR方法.7. 确认本工作得到了国家自然科学基金项目61822113、41871243、41431175、61771349、国家重点科研项目&中国自然科学基金项目2018 YFA 0605501，澳大利亚研究理事会项目FL-170100117，DP- 180103424，IH-180100002，湖北省自然科学基金项目2018 CFA050。引用[1] Peter L Bartlett，Dylan J Foster，and Matus J Telgarsky.神经网络的谱归一化边界。在NIPS，第6240-6249页[2] 彼得·L·巴特利特和沙哈尔·门德尔松。Rademacher和Gaussian复杂度：风险边界和结构结果。JMLR，3（Nov）：463[3] 放大图片创作者：Andrew P.作者简介：王泽涵，施文哲，陈文斌，陈文斌.基于时空网的实时视频超分辨率10531工作和运动补偿。在CVPR中，第2848- 2857页[4] Liujuan Cao，Rongrong Ji，Cheng Wang，and JonathanLi.基于监督超分辨率转换的卫星图像域自适应车辆检测。在AAAI，第1138-1144页[5] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoou Tang.学习用于图像超分辨率的深度卷积网络。InD a vidJ. Fleet，Toma'sPajdla，BerntSchiele，and TinneTuytelaars ， editors ， ECCV ， volume 8692 ofLectureNotes in Computer Science，pages 184Springer，2014.[6] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoou Tang.使用深度卷积网络的图像超分辨率。IEEETransactionsonPatternAnalysisandMachineIntelligence，38（2）：295[7] Chao Dong，Chen Change Loy，and Xiaoou Tang.加速超分辨率卷积神经网络。ECCV，第391-407页，2016年[8] VincentDumoulin 和 FrancescoVisinAguidetoconvolutionarithmeticfordeeplearning.CoRR ，abs/1603.07285，2016。[9] 泽维尔·格洛罗特安托万·博德斯和约舒亚·本吉奥。深度稀疏整流神经网络。在杰弗里J。大卫·戈登。Dunson和Miroslav Dud 'ık，编辑，AIS- TATS，JMLR会议记录第15卷，第315-323页。JMLR.org，2011年。[10] 郭军，赵宏阳。构建用于视频超分辨率的端到端时空卷积网络。在 Satinder P. Singh 和 Shaul Markovitch ，编辑，AAAI，第4053-4060页。AAAI Press，2017.[11] 何凤翔，刘同良，陶大成。为什么Resnet有效？残差泛化。CoRR，abs/1904.01367，2019。[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 深入研究整流器：超越人类对imagenet分类的水平。在ICCV，第1026- 1034页中。IEEE计算机学会，2015年。[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[14] 炎黄、魏王、梁王。用于多帧超分辨率的双向递归卷积网络。在Corinna Cortes，Neil D.作者：Daniel D. Lee，Masashi Sugiyama和Roman Garnett，编辑，NIPS，第235-243页[15] 炎黄、魏王、梁王。通过双向递归卷积网络实现视频超分辨率 . IEEE Transactions on Pattern Analysis andMachine Intelligence，40（4）：1015[16] 水忘机、魏旭、明阳、开宇。用于人体动作识别的三维IEEE Transactions on Pattern Analysis and MachineIntelligence，35（1）：221[17] Jiening Jiao ， Wei-Shi Zheng ， Ancong Wu ， XiatianZhu，and Shaogang Gong.深度低分辨率人物重新识别。在AAAI，2018。[18] Younghyun Jo、Seoung Wug Oh、Jaeyeon Kang和SeonJoo Kim。使用动态上采样滤波器的深度视频超分辨率网络，无需显式运动补偿。在CVPR中，第3224-3232页[19] Armin Kappeler、Seunghwan Yoo、Qiqin Dai和Agge-losK.卡萨格洛斯用卷积神经网络实现视频超分辨率。IEEE Transactions on Computa- tional Imaging ， 2（2）：109[20] Jiwon Kim，Jung Kwon Lee，and Kyoung Mu Lee.使用非常深的卷积网络实现精确的图像超分辨率。CVPR，第1646-1654页，2016年[21] Jiwon Kim，Jung Kwon Lee，and Kyoung Mu Lee.用于图像超分辨率的深度递归卷积网络。在CVPR，第1637-1645页[22] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。CoRR，abs/1412.6980，2014。[23] Alex Krizhevsky、Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络的图像网分类。在Peter L.作者声明：C. N.克里斯托？佩雷拉C. Bur ges，L e'onBottou，andKi lianQ. Weinberger，编辑，NIPS，第1106-1114页[24] YannLeCun，Le'onBottou，YoshuaBengio和PatrickHaffner。基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278-2324，Nov1998.[25] Christian Ledig ， Lucas Theis ， Ferenc Huszar ， JoseCaballero ， Andrew Cunningham ， Alejandro Acosta ，Andrew P.Aitken ， Alykhan Tejani ， Johannes Totz ，Zehan Wang，and Wenzhe Shi.使用生成对抗网络的照片逼真的单图像超分辨率。在CVPR中，第105-114页，2017年。[26] Renjie Liao，Xin Tao，Ruiyu Li，Ziyang Ma，and JiayaJia.通过深度草稿集成学习实现视频超分辨率。在ICCV，第531-539页[27] Bee Lim ， Sanghyun Son ， Heewon Kim ， SeungjunNah，and Kyoung Mu Lee.用于单图像超分辨率的增强深度残差网络见CVPRW，第1132IEEE计算机学会，2017年。[28] 刘策，孙德清.贝叶斯自适应视频超分辨率研究。IEEETransactionsonPatternAnalysisandMachineIntelligence，36（2）：346[29] Ding Liu ， Zhaowen Wang ， Yushen Fan ， XianmingLiu，Zhangyang Wang，Shiyu Chang，Xinchao Wang，and Thomas S.煌学习用于视频超分辨率的时间动态：深度学习方法。IEEE Transactions on Image Processing，27（7）：3432[30] 刘丁，王兆文，温碧涵，杨建超，韩伟，和托马斯·S.煌通过稀疏先验的深度网络实现鲁棒的单图像超分辨率。 IEEE Trans-actions on Image Processing ， 25（7）：3194[31] 马坦·普罗特，迈克尔·埃拉德，武田博之，和佩曼·米兰法.将非局部均值方法推广到超分辨率重建。IEEE图像处理学报，18（1）：36[32] Mehdi SM Sajjadi 、 Raviteja Vemulapalli 和 MatthewBrown。帧循环视频超分辨率。在CVPR中，第6626-105326634页10533[33] 放大图片作者：Wenzhe Shi，Jose Caballero，FerencHuszar ， Johannes Totz ， Andrew P.Aitken ， RobBishop，Daniel Rueckert，and Zehan Wang.使用有效的子像素卷积神经网络实现实时单幅图像和视频超分辨率。在CVPR，第1874-1883页[34] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 CoRR ， abs/1409.1556 ，2014。[35] 放大图片作者：Geoffrey E.Hinton，Alex Krizhev

下载后可阅读完整内容，剩余1页未读，立即下载