没有合适的资源?快使用搜索试试~ 我知道了~
视频超分辨率中的快速时空残差网络及性能优势
10522用于视频超分辨率的李胜1,何凤翔2,杜波1,张乐飞1,徐永浩3,陶大成2,1武汉大学计算机学院2UBTECH Sydney AI Centre,SCS,FEIT,悉尼大学,澳大利亚武汉大学测绘遥感信息工程国家重点实验室{shli,remoteking,zhanglefei}@ whu.edu.cn{fengxiang.he,dacheng.tao}@sydney.edu.auyonghaoxu@ieee.org摘要最近,基于深度学习的视频超分辨率(SR)方法取得了令人鼓舞的性能。为了同时利用视频的空间和时间信息,采用3维(3D)卷积是一种自然的方法。然而,直接利用3D卷积可能导致过高的计算复杂度,这限制了视频SR模型的深度,从而损害性能。在本文中 , 我 们 提 出 了 一 种 新 的 快 速 时 空 残 差 网 络(FSTRN),采用三维卷积的视频SR任务,以提高性能,同时保持低的计算负载。具体来说,我们提出了一种快速的时空残差块(FRB),它将每个3D滤波器划分为两个3D滤波器的乘积,这两个3D滤波器具有相当低的维度。此外,我们还设计了一种跨空间的残差学习方法,将低分辨率空间和高分辨率空间直接联系起来,可以大大减轻(a) EDSRk x k x kConv3dReLU此外(b) 三维残差块k x 1 x 1Conv3d1 x k x kConv3dPReLU此外(c) 拟议的FRB特征融合和放大部分的计算负担。对基准数据集的广泛评估和比较验证了所提出的方法的优势,并表明所提出的网络显着优于当前最先进的方法。1. 介绍超分辨率(SR)解决了从其低分辨率(LR)对应物估计高分辨率(HR)图像或视频的问题。SR广泛用于各种计算机视觉任务,例如卫星成像[4]和监视成像[17]。最近,基于深度学习的方法已经成为解决SR问题的一种有前途的方法*通讯作者。图1:比较(a)EDSR中的残留块(b)单个C3D残差块,以及(c)所提出的FRB。[5,20,27,29,30,45]. 视频SR的直接想法逐帧执行单个图像SR。然而,它忽略了帧之间的时间相关性,输出的HR视频通常缺乏时间一致性,这可能会出现虚假闪烁伪影[33]。现有的视频SR任务的大多数方法利用时间融合技术来提取数据中的时间信息,例如运动补偿[3,39],其通常需要手动设计结构和更多的计算消耗。为了自动且同时利用空间和时间信息,自然采用3维(3D)滤波器来k x kConv2dReLUk x kConv2d此外10523×OHR / PSNR/SSIM Bicubic/26.62/0.82 SRCNN / 27.89/0.85 SRGAN/27.09/0.82RDN / 27.06/0.81 BRCN / 28.05/0.86 VESPCN/27.55/0.84图2:对原始帧的视觉观察和在4SR的Dancing视频上的SR结果,值得注意的是,所提出的FSTRN方法不仅实现了最高的PSNR和SSIM值,而且还以最少的伪影恢复了最精细的纹理替换二维(2D)滤波器。然而,额外的维度会带来更多的参数,导致计算复杂度过高。这种现象严重限制了视频SR方法中采用的神经网络的深度,从而破坏了性能[15]。由于在输入LR视频和期望的HR视频之间存在相当大的相似性,因此,在各种SR网络中,都广泛涉及到双连接[20,25,27],充分展示了剩余连接的优势。然而,SR任务的剩余标识映射超出了足够的使用,它要么应用于HR空间[20,37],大大增加了网络的计算复杂性,要么应用于LR空间以完全保留来自原始LR输入的信息[47],在网络的最终部分对特征融合和升级阶段施加沉重的负担。为了解决这些问题,我们提出了快速时空残差网络(FSTRN)(图1)。3)用于视频SR。由于计算复杂度 高 和 存 储 空 间 有 限 , 直 接 利 用 原 始 三 维 卷 积(C3D)构建一个非常深的时空网络是困难和不切实际的。因此,我们提出了快速时空残差块(FRB)(图1)。1c)作为FSTRN的构建模块,它由跳跃连接和时空因子化C3D组成。FRB可以大大降低计算复杂度,使网络能够同时学习时空特征,同时保证计算效率。此外,全局残差学习(GRL)的引入,利用输入LR视频和所需的HR视频之间的相似性。一方面为了提高特征提取的性能,我们采用了LR空间残差学习(LRL)。另一方面,我们进一步提出了一个跨空间的剩余连接(CRL)直接连接LR空间和HR空间。通过CRL,LR视频被用作理论分析提供了一个与网络规模(n为样本大小)无显式关系的泛化界(1/ n),保证了算法在未知数据上的可行性.对基准数据集进行深入的实证研究,仿真结果验证了该算法优于现有算法的优越性。总之,本文的主要贡献有三个方面:我 们提 出了 一 种新 的框 架 快速 时空 残 差网 络(FSTRN)的高质量视频SR。该网络可以同时利用空间和时间信息。通过这种方式,我们保持了节奏的一致性,并缓解了虚假闪烁伪影的问题我们提出了一种新的快速时空残差块(FRB),它将每个3D滤波器划分为两个3D滤波器的乘积,这两个3D滤波器具有显着更低的维度。通过这种方式,我们显着降低了计算负载,同时通过更深的神经网络架构提高性能。我们建议采用全局残差学习(GRL),它包括LR空间残差学习(LRL)和···10524000·D交叉空间残差学习(CRL),以利用输入LR视频和输出HR视频之间的相当大的相似性,这显著地提高了性能。2. 相关工作2.1. 使用CNN的近年来,卷积神经网络(CNN)在许多计算机视觉任务中取得了重大成功[13,23,24,34,36],包括超分辨率(SR)问题。Dong等人开创了一种称为超分辨率卷积神经网络(SRCNN)的三层深度全卷积网络,以端到端的方式学习LR和HR图像之间的非线性映射[5,6]。从那时起,人们提出了许多研究,这些研究通常基于更深的网络和更先进的技术。随着网络的深化,剩余连接一直是缓解深度神经网络优化困难的一种有前途的方法[13]。结合残差学习,Kim等人。提出一个非常深的卷积网络[20]和深度递归卷积网络(DRCN)[21]。这两个模型显著地提高了任务的执行效率,证明了剩余学习在SR任务中的潜力。Tai等人提出了具有递归块的深度递归残差网络(DRRN)和具有内存块的深度密集连接网络[37],这进一步证明了残差学习的优越性能。所有上述方法的工作插值放大输入图像.然而,直接馈送插值图像记忆网络(LSTM)[10]。Sajjadi等人通过使用帧循环方法来使用不同的方式,其中先前估计的SR帧也被重定向到网络中,这鼓励了时间上更一致的结果[32]。学 习 时 空 信 息 的 更 自 然 的 方 法 是 采 用 3D 卷 积(C3D),其在视频学习中表现出优异的性能[16,43,44]。Caballero等人[3]提到的慢融合也可以被看作是 C3D 。 此 外 , Huanget al.[15] 使 用 C3D 改 进 了BRCN,允许模型以自然的方式灵活地访问不同的时间上下文,但网络仍然很浅。在这项工作中,我们的目标是建立一个深端到端的视频SR网络与C3D和保持高效率的计算复杂度。3. 快速时空残差网络3.1. 网络结构在本节中,我们描述了所提出的快速时空残差网络(FSTRN)的结构细节。如图3、FSTRN主要由四部分组成:LR视频浅层特征提取网络(LFENet)、快速时空残差块(FRB)、LR特征融合和上采样SR网络(LSRNet)以及由LR空间残差学习(LRL)和跨空间残差学习(CRL)组成的全局残差学习(GRL)部分。LFENet简单地使用C3D层从LR视频中提取特征。让FL=HLFE(ILR),(3.1)进入神经网络可以导致一个显着的高COM-其中FL是提取的特征图的输出,并且计算复杂性为了解决这个问题,提出了一个有效的子像素卷积层[33]和转置卷积层[7],以便在网络的末端将特征映射放大到精细分辨率。使 用 剩 余 连 接 的 其 他 方 法 包 括 EDSR [27] ,SRResNet [25],SRDenseNet [42]到RDN[47]第47段。然而,剩余连接被限制在LR空间内。 这些残差可以增强HLFE()表示LFENet中的C3D操作。然后,FL用于稍后的LR空间全局残差学习,并且还用作FRB的输入以用于进一步的特征提取。FRB用于在LFENet输出上提取时空特征。假设使用D个FRB,第一个FRB对LFENet输出执行,并且后续FRB进一步提取先前FRB输出上的特征,因此第d个FRB的输出F_L特征提取,但会将过重的负荷FL=H. FL网络的升级和融合部分d联邦预算局d .=HFRB,dd−1HFRB,d−1.···..HFRB,1LΣΣ0ΣΣ···2.2. 使用CNN的视频SR基于图像SR方法并进一步掌握时间一致性,大多数现有方法采用滑动帧窗口[3,18,19,26,39]。为了同时处理时空信息,现有方法通常利用时间融合技术,例如(3.2)其中,HRB,d表示第d个FRB的操作,关于FRB的更多细节将在第3.2节中示出与FRB一起,进行LR空间残差学习(LRL)以进一步改进LR空间中的特征学习。LRL充分利用了前面层,并且可以通过以下方式获得:运动补偿[3,19,26,39],双向循环,租金卷积网络(BRCN)[14],长期短期FL=HLRL .ΣFL,FL 、(3.3)LRL D0F10525LRL× ×× × × ×SrSrSrSr××Sr×图3:我们提出的快速时空残差网络(FSTRN)的架构。其中FL是LRL的输出特征图,伴随着更多的计算。为了解决这个问题,我们亲-复合函数HLRL。更多详情见第3.3节。在LRL特征提取的基础上,利用LSRNet在HR空间进行超分辨率视频的提取。具体而言,我们使用C3D进行特征融合,然后使用反卷积[8]进行放大,再次使用C3D进行特征映射通过将上述单个3D残差块上的C3D分解为两步时空C3D,即,我们用一个1k k滤波器,后面跟着一个k1,1滤波器,已被证明在训练和测试损失方面表现更好[44,46],如图所示LSRNet中的频道调谐 输出F L可以是-1c. 此外,我们将整流线性单元(ReLU)[9]改为模拟为:.L=HLSRLΣLRL 、(3.4)它的变体PReLU,其中负部分的斜率是从数据中学习的,而不是预定义的[12]。所以其中HLSR(·)表示LSRNet的操作FRB可以公式化为:最后,网络输出由来自LL.. .LΣΣΣSrLSRNet和一个附加LR到HR空间全球驻地,Fd=Fd−1+Wd,tWd,sσ Fd−1、(3.6)在HR空间中形成跨空间残差学习(CRL)。CRL的详细信息也在第3.3节中给出。因此,将输入从LR空间到HR空间的SR映射表示为FH,FSTRN的输出可以获得为其中σ表示PReLU [12]激活函数。Wd,s和Wd,t分别对应于FRB中的空间卷积和时间卷积的权重,其中未示出偏置项。这样,计算ISR=HFSTRN(ILR)=FL+FH,(3.5)成本可以大大降低,这将在第5.2节中显示。因此,我们可以建立一个更大的,基于C3D的其中HFSTRN表示所提出的FSTRN方法的函数。3.2. 快速时空残差块现在,我们呈现关于所提出的快速时空残差块(FRB)的细节,其在图1中示出。1.一、残差块已被证明在计算机视觉中表现出色,特别是在低级到高级任务中[20,25]。Lim等人[27]提出了一种改进的残差块,通过从SRResNet中的残差块中去除批量归一化层,如图1a所示,这表明在单图像SR任务中有很大的改进。为了将残差块应用于多帧SR,我们简单地仅保留一个卷积层,但将2D滤波器膨胀到3D,这类似于[16]。如图1b所示,kk平方滤波器扩展为K Kk立方滤波器,赋予残差块一个额外的时间维度在膨胀之后,随之而来的问题是显而易见的,因为它需要比2D卷积更多的参数跨空间剩余连接LR剩余连接SR映射KSrLLR0LL1LDLDLLRLLSrKKRLRConvPReLUCFoRnBvConvPReLUCFoRnBvConvPReLUCFoRnBvConvPReLU辍学Conv高档ConvHRFF10526模型在计算资源有限的情况下直接视频SR,具有更好的性能。3.3. 全局剩余学习在本节中,我们描述了LR和HR空间上的全局残差学习(GRL)。对于SR任务,输入和输出是高度相关的,因此输入和输出之间的剩余连接被广泛使用。然而,以前的工作要么在放大的输入上执行残差学习,这将导致高计算成本,要么直接在输入-输出LR空间上执行残差连接,然后进行用于特征融合和上采样的上尺度层,这给这些层带来了很大的压力。为了解决这些问题,我们在LR和HR空间上提出了全局残差学习(GRL),它主要由两部分组成:LR空间残差学习(LRL)和跨空间残差学习(CRL)。LR空间残差学习(LRL)与LR空间中的FRB我们应用一个剩余连接10527LRLSrSrǁ − ǁ ≤2ε2212Sr123112212我我n我F=H2F,F=σLD0√X12BS参数校正线性单元(PReLU)[12]考虑到输入帧之间的高度相似性,我们还引入了一个dropout [35]层来增强网络的泛化能力。因此,LRL的输出FL(覆盖界)的假设空间H诱导FSTRN。 这是一种束缚。c o.我们必须保持FSTRN的完整性。然后我们得到一个O1的上限FSTRN的泛化误差(泛化界)这个推广界为我们的LLRL.LLLRLD0. FL+FL,(3.7)提出的算法。如图图1c显示,FRB通过添加恒等式获得其中,σL表示PReLU激活和丢弃层的组合函数。跨空间残差学习(CRL)使用简单的SR映射将LR视频直接映射到HR空间,然后添加到LSRNet结果FL,形成HR空间中的全局残差学习。具体来说,CRL引入了一个映射到具有一个PReLU和两个卷积层的链式神经网络。Bartlett等人证明了大多数标准非线性是Lipschitz连续的(包括PReLU)[1]。假设由两个卷积算子引入的仿射变换可以分别用权矩阵Ai和Ai表示。预计所有的FRB,将LR插值到输出,这可以大大减轻LSRNet的负担,有助于改善SR结果。LR到HR空间的映射可以表示为:FH=HCRL(ILR),(3.8)其中FH是HR空间上的超分辨输入映射。HCRL表示映射函数的操作。映射函数被选择为尽可能简单,以便不引入太多的附加计算成本,包括基于双线性、最近、双三次、面积和反卷积的插值。GRL的有效性和SR图的选择-从 词 干 的 输 入 端 到 输 出 端 , 有 1 个 卷 积 层 , 1 个PReLU,1个upgrade和1个卷积层(我们这里不考虑dropout)。它们可以分别表示为权矩阵A1、非线性-ityσ、权重矩阵A和权重矩阵A。 如图3所示,LR残差学习是恒等映射,HR残差学习可以用权重矩阵AHR表示。我们可以进一步获得由FSTRN诱导的假设空间的上界,如下所示。定理1( FSTRN的覆 盖界) 。 对于 第i 个FRB(i =1,. . . ,D),假设PReLU的Lipschitz常数为ρi,权重矩阵的谱范数为ping方法在5.3节中演示。有界:<$Ai<$σ≤si和<$Ai<$σ≤si。 另外,假设分别有两个参考矩阵Mi和Mi3.4. 网络学习12对于Ai和Ai,满足<$Ai−Mi <$σ≤bi,在训练中,我们使用l1损失函数进行训练. 处理对于l1范数,我们使用Charbonnier罚函数近似为ρ(x)=x2+ε2设θ为待优化网络的参数,是网络输出。然后,目标函数被定义为:ΣNi=1,2。 类似地,假设权矩阵A1、A2、A3和AHR分别由s1、s2、s3和sHR 上 界。另外,存在4个对应的参考矩阵Mi,i∈ {1,2,3,HR},使得AiMi比岛与此同时,假设嘴唇非线性常数σ1为ρ1。然后,ε-覆盖数满足:1n nL(ISR,IHR;θ)=Nn=1ρ(IHR−ISR)(3.9)b2X2α<$。1ΣΣD其中N是每次训练的批量大小我们在这里设ε=1e−3。值得注意的是,虽然网络N(H)≤2个对数ε22W2+Σd=1 经常预算(d)Σ产生与输入相同的帧,我们专注于重新-b2..Σ2第2章.Σ2s2b3从输入帧中构造中心帧,+()2log 2W2+ε2ε3这项工作因此,我们的损失函数主要与bX。Σ输入帧的中心帧。4. 理论分析在学习理论中,我们通常使用泛化误差来哪里+HR2logε22W2、(4.1)表示算法的泛化能力,定义为预期风险R与.d2d2 1N(d)=Σ2Σρisisi+ 1该算法的经验风险R。本节我们FRBεdΣ1 2i=1Σ研究FSTRN的泛化能力具体地说,我们首先给出覆盖数N(H)的上界.bd2002年。1+sd2+. 2002年d d d2 1、(4.2)10528ε−×ρi(1+si)(1+si)+1θ3N2Nε−s−1√()=(X2s1ρ1)2YDΣ。Σ2ρds ds dΣ+1,(4.3)和Turbine视频,其中包含具有严重运动模糊和锯齿的复杂运动。在[5,41]之后,SR是Ydεd=HR1 2d=1ΣΣρi(1+si)(1+si)+1、(4.4)仅应用于亮度通道(YCbCr颜色空间中的Y通道),并通过峰值信噪比(PSNR)和结构相似性来评估性能ε−sα<$i=1.-1YD1 2亮度通道上的亮度(SSIM)。培训设置。对以下数据进行了数据扩充:对25个YUV视频序列数据集进行了优化。[14,15]之后,1 2α<$i=1扩大训练集,我们在一个体积中训练模型-通过裁剪多个重叠体积,和ρ1(1 +s2)+sHR+ 1,(4.5)培训视频。在裁剪过程中,我们采用了大的空间尺寸为144×144,时间步长为5,α¯=D型ΣΣρj(1+sj)(1+sj)+1ρ1(1+s2),(4.6)将空间和时间步长设定为32和10,分别为。此外,受[40]的启发,考虑了训练卷的翻转和换位版本j=11 2是的。具体来说,我们将原始图像旋转了90度,然后水平和垂直地翻转它们因此,在本发明中,这里省略了详细的证明,并在基于[2,11]的附录中给出。最后,我们可以得到下面的定理。为了简洁起见,我们表示等式的右侧(RHS)。(4.1)作为R.定理2(FSTRN的推广界)。对于任何实数δ∈(0,1),概率至少为1−δ,以下不等式对任何假设Fθ成立:我们可以从原始视频数据集生成13020个体积。在此之后,训练和测试LR输入生成过程都被分为两个阶段:通过具有标准去噪率为2的高斯滤波器来平滑每个原始帧,以及使用双三次方法对先前帧进行下采样此外,为了在测试阶段保持输出帧的数量等于原始视频,在测试视频的头部和尾部应用帧填充。R(Fθ)≤R(F)+8+36<$RlogN+3.对数(2/δ).(4.7)在这些实验中,我们专注于高档因子4的视频SR,这通常被认为是视频SR中最具挑战性和普遍性的情况FRB的数量和辍学率根据经验设定为5和0。3 .第三章。 的定理2可以由定理1得到。德塔岛。在附录中列出了相关信息。当量(4.7)g给出了FSTRN算法的O ~(1/ N)我们的结果的另一个优点是,所有的面-所涉及的tors并不明确依赖于我们的神经网络的大小,它可能非常大。这种强度可以防止提出的结果没有意义。总体而言,这一结果从理论上保证了我们的方法的可行性和5. 实验在本节中,我们首先分析了网络的贡献,然后给出了实验结果,以证明所提出的模型在基准数据集上的有效性。5.1. 设置数据集和指标。为了与现有作品进行公平比较,我们使用了25个YUV格式基准视频序列作为我们的训练集,这些序列以前曾在[14,15,28,31,38]中使用过。我们在与[14]相同的基准挑战视频上测试了所提出的模型,设置相同,包括舞蹈,旗帜,风扇,跑步机亚当优化器[22]用于使用标准反向传播最小化损失我们从1e4的步长开始,然后在训练损失停止下降时将其减少到10倍。根据GPU内存大小设置批处理大小。块#参数浮点数C3DRBFRB111K49K小行星566252米降低比率55.86%55.48%表1:使用单个C3D的一个残差块的#Params和#FLOP比较(图1A)1b)和一个FRB(图。第1c段)。5.2. FRB研究在本节中,我们将研究所提出的FRB对效率的影响。我们分析的计算效率的FRB相比,直接使用C3D(C3DRB)的残差块假设我们所有的输入和输出特征图大小为64,每个输入由大小为32 32的5帧组成,然后详细比较所提出的FRB和ε2=HR+12N10529×方法跳舞PSNR /SSIM跑步机PSNR /SSIM标志PSNR /SSIM风扇PSNR /SSIM涡轮PSNR /SSIM平均PSNR /SSIM双三26.78 /0.8321.58 /0.6526.97 /0.7833.42 /0.9326.06 /0.7627.80 /0.80[5]27.91 /0.8722.61 /0.7328.71 /0.8334.25 /0.9427.84 /0.8129.20 /0.84SRGAN[25]27.11 /0.8422.40 /0.7228.19 /0.8333.48 /0.9327.38 /0.8128.65 /0.84RDN[47]27.51 /0.8222.69 /0.7228.62 /0.8234.46 /0.9328.10 /0.8229.30 /0.84BCN [14]28.08 /0.8822.67 /0.7428.86 /0.8434.15 /0.9427.63 /0.8229.16 /0.85VESPCN[3]27.89 /0.8622.46 /0.7429.01 /0.8534.40 /0.9428.19 /0.8329.40 /0.85FSTRN(我们的)28.66/0.8923.06/0.7629.81/0.8834.79/0.9528.57/0.8429.95/0.87表2:Bicubic,SRCNN[5],SRGAN[25],RDN[47],BRCN[14],VESPCN[3]和我们的比例因子为4的FSTRN测试视频序列的PSNR和SSIM结果的比较。C3DRB总结在表1中。很这样,计算成本可以大大降低,所以我们可以建立一个更大的,基于C3D的模型,直接视频SR在有限的计算资源具有更好的性能。5.3. 消融研究我们进行了消融研究,以分析并发症,FRB、CRL和LRL的烧蚀研究3029282726250 50 100 150 200时代(一)不同CRL的消融研究3029282726250 50 100 150 200时代(b)第(1)款FRB和GRL在不同退化模型下的贡献。图4a示出了退化模型的收敛曲线,包括:1)在没有FRB、CRL和LRL的情况下获得的基线(FSTRN F0 C 0 L0);2)基线与FRB整合(FSTRN F1 C 0 L0); 3)具有FRB和LRL的基线(FSTRN F1 C 0 L1); 4)FRB、CRL和LRL(FSTRN F1 C1 L1)的所有组成部分的基线,这是我们的FSTRN。FRB的数量D被设置为5,CRL使用双线性插值。基线收敛缓慢且性能相对较差(绿色曲线),并且额外的FRB极大地改善了性能(蓝色曲线),这可能是由于有效的帧间特征捕获能力。正如预期的那样,LRL进一步提高了网络性能(马根塔曲线)。最后,应用CRL的添加(红色曲线),在LR和HR空间上构成GRL。仿真结果表明,该网络具有更快的收敛速度和更好的性能,证明了FRB和GRL的有效性和优越性。此外,为了说明CRL中不同的插值方法对网络性能的影响,我们研究了CRL中不同的插值方法。具体来说,我们探讨了双线性,最近,双三次,面积和反卷积插值。如图4 b,除反卷积外,其他插值方法的表现几乎相同,原因是反卷积需要一个学习上采样滤波器的过程,而其他方法则不需要。不同的插值方法收敛到几乎相同的性能,表明FSTRN的性能改善归因于内插方法的改进。图4:不同退化模型(a)和CRL(b)不同插值方法的收敛性分析。每个组合的曲线基于200个epoch中缩放因子×4的测试视频的PSNRGRL的引入,与CRL中具体的插值方法关系不大。5.4. 与最新技术水平的比较我们将所提出的方法与不同的单图像SR方法和最先进的多帧SR方法进行了定量和定性比较,包括双三次插值,SRCNN [5,6],SRGAN [25],RDN[47] ,BRCN [14,15]和VESPCN [3]。在以下比较中,FRB的数量D被设置为5,并且CRL的放大方法被设置为双线性插值。所有方法的定量结果总结在表2中,其中评价度量是PSNR和SSIM指数。具体来说,与最先进的SR方法相比,所提出的FSTRN显示出显着的改善,超过他们的平均PSNR和SSIM分别为0.55 dB和0.2。除了定量评价外,我们还提供了单帧(图2)和多帧(图5)SR比较方面的一些定性结果,显示了原始帧和4个SR结果之间的视觉比较。不难看出,拟议的FSTRN重新-覆盖最精细的细节,并产生最令人满意的结果,无论是在视觉上还是在PSNR/SSIM指数方面FSTRN_F0C0L0FSTRN_F1C0L0FSTRN_F1C0L1FSTRN_F1C1L1峰值信噪比(dB)双线性最近双立方区域反卷积峰值信噪比(dB)10530∼(a) (b)SRCNN(c)RDN(d)BRCN(e)VESPCN(f)FSTRN图5:Flag视频的原始帧(第1帧和第5帧,从顶行到底)与SRCNN、RDN、BRCN、VESPCN和FSTRN分别获得的SR结果之间的比较。我们的研究结果显示,与其他作品相比,更清晰的输出与更平滑的帧间过渡。我们的结果表明,更尖锐的输出,甚至在网格处理,这是公认的最难处理的SR,FSTRN可以处理得很好,显示出有前途的性能。6. 结论本文提出了一种新的快速时空残差网络(FSTRN)视频SR问题。我们还设计了一种新的快速时空残差块(FRB),以同时提取时空特征,同时确保高的计算效率。除了在LR空间上使用残差来提高特征提取性能之外,我们还提出了一种跨空间残差学习来利用低分辨率(LR)输入和高分辨率(HR)输出之间的相似性。理论分析为该方法的泛化能力提供了保证,实验结果验证了该方法的有效性,并表明该网络的泛化能力明显优于现有的SR方法.7. 确认本工作得到了国家自然科学基金项目61822113、41871243、41431175、61771349、国家重点科研项目&中国自然科学基金项目2018 YFA 0605501,澳大利亚研究理事会项目FL-170100117,DP- 180103424,IH-180100002,湖北省自然科学基金项目2018 CFA050。引用[1] Peter L Bartlett,Dylan J Foster,and Matus J Telgarsky.神经网络的谱归一化边界。在NIPS,第6240-6249页[2] 彼得·L·巴特利特和沙哈尔·门德尔松。Rademacher和Gaussian复杂度:风险边界和结构结果。JMLR,3(Nov):463[3] 放大图片创作者:Andrew P.作者简介:王泽涵,施文哲,陈文斌,陈文斌.基于时空网的实时视频超分辨率10531工作和运动补偿。在CVPR中,第2848- 2857页[4] Liujuan Cao,Rongrong Ji,Cheng Wang,and JonathanLi.基于监督超分辨率转换的卫星图像域自适应车辆检测。在AAAI,第1138-1144页[5] Chao Dong , Chen Change Loy , Kaiming He , andXiaoou Tang.学习用于图像超分辨率的深度卷积网络。InD a vidJ. Fleet,Toma'sPajdla,BerntSchiele,and TinneTuytelaars , editors , ECCV , volume 8692 ofLectureNotes in Computer Science,pages 184Springer,2014.[6] Chao Dong , Chen Change Loy , Kaiming He , andXiaoou Tang.使用深度卷积网络的图像超分辨率。IEEETransactionsonPatternAnalysisandMachineIntelligence,38(2):295[7] Chao Dong,Chen Change Loy,and Xiaoou Tang.加速超分辨率卷积神经网络。ECCV,第391-407页,2016年[8] VincentDumoulin 和 FrancescoVisinAguidetoconvolutionarithmeticfordeeplearning.CoRR ,abs/1603.07285,2016。[9] 泽维尔·格洛罗特安托万·博德斯和约舒亚·本吉奥。深度稀疏整流神经网络。 在杰弗里J。大卫·戈登。Dunson和Miroslav Dud 'ık,编辑,AIS- TATS,JMLR会议记录第15卷,第315-323页。JMLR.org,2011年。[10] 郭军,赵宏阳。构建用于视频超分辨率的端到端时空卷积 网 络。 在 Satinder P. Singh 和 Shaul Markovitch , 编辑,AAAI,第4053-4060页。AAAI Press,2017.[11] 何凤翔,刘同良,陶大成。为什么Resnet有效?残差泛化。CoRR,abs/1904.01367,2019。[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun. 深入研究整流器:超越人类对imagenet分类的水平。在ICCV,第1026- 1034页中。IEEE计算机学会,2015年。[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[14] 炎黄、魏王、梁王。用于多帧超分辨率的双向递归卷积网络。在Corinna Cortes,Neil D.作者:Daniel D. Lee,Masashi Sugiyama和Roman Garnett,编辑,NIPS,第235-243页[15] 炎黄、魏王、梁王。通过双向递归卷积网络实现视频超分 辨 率 . IEEE Transactions on Pattern Analysis andMachine Intelligence,40(4):1015[16] 水忘机、魏旭、明阳、开宇。用于人体动作识别的三维IEEE Transactions on Pattern Analysis and MachineIntelligence,35(1):221[17] Jiening Jiao , Wei-Shi Zheng , Ancong Wu , XiatianZhu,and Shaogang Gong.深度低分辨率人物重新识别。在AAAI,2018。[18] Younghyun Jo、Seoung Wug Oh、Jaeyeon Kang和SeonJoo Kim。使用动态上采样滤波器的深度视频超分辨率网络,无需显式运动补偿。在CVPR中,第3224-3232页[19] Armin Kappeler、Seunghwan Yoo、Qiqin Dai和Agge-losK.卡萨格洛斯用卷积神经网络实现视频超分辨率。IEEE Transactions on Computa- tional Imaging , 2(2):109[20] Jiwon Kim,Jung Kwon Lee,and Kyoung Mu Lee.使用非常深的卷积网络实现精确的图像超分辨率。CVPR,第1646-1654页,2016年[21] Jiwon Kim,Jung Kwon Lee,and Kyoung Mu Lee.用于图像超分辨率的深度递归卷积网络。在CVPR,第1637-1645页[22] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。CoRR,abs/1412.6980,2014。[23] Alex Krizhevsky、Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络的图像网分类。在Peter L.作者声明:C. N.克里斯托?佩雷拉C. Bur ges,L e'onBottou,andKi lianQ. Weinberger,编辑,NIPS,第1106-1114页[24] YannLeCun,Le'onBottou,YoshuaBengio和PatrickHaffner。基于梯度的学习应用于文档识别。Proceedings of the IEEE,86(11):2278-2324,Nov1998.[25] Christian Ledig , Lucas Theis , Ferenc Huszar , JoseCaballero , Andrew Cunningham , Alejandro Acosta ,Andrew P.Aitken , Alykhan Tejani , Johannes Totz ,Zehan Wang,and Wenzhe Shi.使用生成对抗网络的照片逼真的单图像超分辨率。在CVPR中,第105-114页,2017年。[26] Renjie Liao,Xin Tao,Ruiyu Li,Ziyang Ma,and JiayaJia.通过深度草稿集成学习实现视频超分辨率。在ICCV,第531-539页[27] Bee Lim , Sanghyun Son , Heewon Kim , SeungjunNah,and Kyoung Mu Lee.用于单图像超分辨率的增强深度残差网络见CVPRW,第1132IEEE计算机学会,2017年。[28] 刘策,孙德清.贝叶斯自适应视频超分辨率研究。IEEETransactionsonPatternAnalysisandMachineIntelligence,36(2):346[29] Ding Liu , Zhaowen Wang , Yushen Fan , XianmingLiu,Zhangyang Wang,Shiyu Chang,Xinchao Wang,and Thomas S.煌学习用于视频超分辨率的时间动态:深度学习方法。IEEE Transactions on Image Processing,27(7):3432[30] 刘丁,王兆文,温碧涵,杨建超,韩伟,和托马斯·S.煌通过稀疏先验的深度网络实现鲁棒的单图像超分辨率 。 IEEE Trans-actions on Image Processing , 25(7):3194[31] 马坦·普罗特,迈克尔·埃拉德,武田博之,和佩曼·米兰法.将非局部均值方法推广到超分辨率重建。IEEE图像处理学报,18(1):36[32] Mehdi SM Sajjadi 、 Raviteja Vemulapalli 和 MatthewBrown。帧循环视频超分辨率。在CVPR中,第6626-105326634页10533[33] 放大图片作者:Wenzhe Shi,Jose Caballero,FerencHuszar , Johannes Totz , Andrew P.Aitken , RobBishop,Daniel Rueckert,and Zehan Wang.使用有效的子像素卷积神经网络实现实时单幅图像和视频超分辨率。在CVPR,第1874-1883页[34] Karen Simonyan和Andrew Zisserman用于大规模图像识别 的 非 常 深 的 卷 积 网 络 。 CoRR , abs/1409.1556 ,2014。[35] 放大图片作者:Geoffrey E.Hinton,Alex Krizhev
下载后可阅读完整内容,剩余1页未读,立即下载
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)