基于深度递归残差网络的图像超分辨率

194 浏览量更新于2023-10-16 收藏 1.62MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于深度递归残差网络的图像超分辨率YingTai1，Jian Yang1，and Xiaoming Liu21南京理工大学计算机科学与工程系2密歇根州立大学{taiying，csjyang}@ njust.edu.cn，liuxm@cse.msu.edu摘要近年来，基于卷积神经网络（CNN）的模型在单图像超分辨率（SISR）方面取得了巨大的成功由于深度网络的强大，这些CNN模型学习从低分辨率输入图像到高分辨率目标图像的有效非线性映射，代价是需要大量参数。本文提出了一个非常深的CNN模型（多达52个卷积层），称为深度递归残差网络（DRRN），它致力于实现深度而简洁的网络。具体地说，采用全局和局部的残差学习，以减轻训练深度网络的难度广泛的基准评估表明，DRRN显着优于SISR的最先进的状态，而利用少得多的参数。代码可在https：//github上获得。com/tyshiwo/DRRNCVPR 17.1. 介绍单图像超分辨率（ SingleImageSuper-Resolution ，SISR）是一个经典的计算机视觉问题，其目标是从低分辨率（ LowResolution， LR ）图像恢复高分辨率（HighResolution，HR）图像。由于SISR恢复高频信息，因此它被广泛用于医学成像[26]，卫星成像[29]，安全和监视[37]等应用，其中非常需要高频细节。近年来，深度学习模型，特别是卷积神经网络（CNN），由于其强大的学习能力，被广泛应用于解决神经网络中的病态问题。这项工作是在第一作者在密歇根州立大学担任访问学者时进行的。它得到了国家科学院的支持，中华民国政府基金。91420201 、 61472187 、 61502235 、 61233011 、 61373063 和61602244，973项目编号2014CB 349303，长江学者和高校创新研究团队项目，部分项目由CCF-腾讯开放研究基金资助图1. Set5上比例因子×3的最近CNN模型的PSNR [1]。红点是我们的模型。△、△、△分别为小于5层、20层、30层以上的模型。DRRNB1U9表示存在1个递归块，其中堆叠了9个在相同深度但参数少得多的情况下，DRRNB1U9实现了比最先进方法更好的性能[13，14]。在增加深度而不添加任何参数，52层DRRN B1U25进一步提高了性能，并显著优于VDSR [13]， DRCN [14] 和 RED 30 [17] 0 。 37 ， 0 。21 比021dB。提出了超分辨率（SR）的逆问题，并已证明优于基于重建的方法[4，35]或其他学习范式[20，22，23，31]。作为SR的先驱CNN模型，超分辨率卷积神经网络（SRCNN）[2]通过全卷积网络预测非线性LR-HR映射，并显着优于经典的非DL方法。然而，SRCNN不考虑任何自相似性. 为了解决这个问题，深度联合超分辨率（DJSR）联合利用了丰富的外部示例和输入特有的自身示例的力量受学习迭代收缩和阈值算法[5]的启发，级联稀疏编码网络（CSCN）[32]经过端到端训练，以充分利用图像的自然稀疏性。Shi等人。[25]观察到先验模型[2，32]通过双三次插值增加LR图像3147DRRN_B1U25DRRN_B1U9DRCNRED30VDSRCSCNESPCNSRCNN3148前CNN学习，这增加了计算成本。高效亚像素卷积神经网络（ES-PCN）通过仅在网络的末端上述CNN模型的一个共同点是它们的网络包含少于5层，例如，SRCNN [2]使用3个卷积层。他们的4层或5层更深的结构没有实现更好的性能，这是由于训练更深的网络的困难，并导致观察到受ImageNet[21]上非常深的网络[8，27，28]的成功启发，Kim等人。[13，14]分别从训练效率和存储的角度提出了两个非常深的SR卷积网络，都堆叠了20个一方面，为了加快非常深的网络的收敛速度，VDSR [13]以非常高的学习率（ 10−1 ，而不是 SRCNN 中的10−4）进行训练，作者进一步使用残差学习和可调梯度裁剪来解决梯度爆炸问题。另一方面，为了控制模型参数，深度递归卷积网络（DRCN）[14]通过具有多达16个递归的链结构引入了非常深的递归层。为了降低训练DRCN的难度，采用递归监督和跳接的方法，并采用增强策略进一步提高性能。最近，Mao etal. [17]提出了一个名为RED 30的30层卷积自动编码器网络，用于图像恢复，它使用对称跳过连接来帮助训练。这三个模型都学习残差分支中输入的插值LR（ILR）图像和地面真实HR图像之间的残差图像。然后将残差图像添加到来自身份分支的ILR图像以估计HR图像。这三种模型的性能都大大优于以前的DL和非DL方法，这表明SR中的尽管实现了出色的性能，但非常深的网络需要大量的参数。与紧凑型机型相比，大型机型需要更多的存储空间，并且不太适用于移动系统[6]。为了解决这个问题，我们提出了一种新的深度递归残差网络（DRRN），以有效地构建一个非常深的网络结构，其性能更好，但参数分别比VDSR、DRCN和RED 30少2倍、6倍和14倍简而言之，DRRN推进了SR更深入而简洁的网络性能。具体而言，DRRN有两个主要的算法创新：(1) 引入了全局和局部残差学习在DRRN。在VDSR和DRCN中，残差图像由网络的输入和输出估计，称为全局残差学习（GRL）。由于SR输出与输入非常相似，因此GRL有效地缓解了差异。训练深度网络的方法。因此，我们在身份分支中也采用了GRL。此外，非常深的网络可能会受到性能下降问题的影响，正如在视觉识别[8]和图像识别[17]中所观察到的那样。原因可能是在如此多的层之后丢失了大量的为了解决这个问题，我们引入了一种增强的残差单元结构，称为多路径模式局部残差学习（LRL），其中身份分支不仅将丰富的图像细节带到后期层，而且还有助于梯度流。GRL和LRL的主要区别在于LRL是在每几个堆叠层中执行的，而GRL是在输入和输出图像之间执行的，即， DRRN 有许多LRL，只有1个GRL。(2) DRRN中提出了残差单元的递归学习，以保持模型的紧凑性。在DRCN [14]中，深度递归层（多达16个卷积递归）并且权重在16个卷积递归中共享。我们的DRRN有两个主要区别与DRCN相比：（a）与在卷积层之间共享权重的DRCN不同，DRRN具有由若干残差单元组成的递归块，并且权重集在这些残差单元之间共享。（b）为了解决非常深的模型的梯度消失/爆炸问题，DRCN监督每个递归，使得对早期递归的监督有助于反向传播。DRRN通过设计具有多路径结构的递归块来减轻这种负担。我们的模型可以很容易地训练，即使有52个卷积层。最后，通过递归学习，DRRN可以在不增加任何权重参数的情况下通过增加深度来提高精度。为了说明DRRN中使用的两种策略的有效性，图。1显示了SR [2，13，14，17，25，32]的几个最近CNN模型的峰值信噪比（PSNR）性能与参数数量（表示为k）的关系。与以前的CNN模型相比，DRRN以更少的参数实现了最佳性能。2. 相关工作自Sec. 1概述了基于DL的SISR，本节重点介绍了与我们最相关的三项工作：[14][15][16][17][18][19][19]图2通过仅具有6个卷积层的简化网络结构展示了这些模型，其中为了清楚起见，省略了激活函数，批归一化（BN）[11]和ReLU [192.1. ResNetResNet [8]的主要思想是使用残差学习框架来简化深度网络的训练。作者没有希望每几个堆叠的层直接适合所需的底层映射，而是明确地让这些层适合残差映射，这被认为更容易优化。将输入表示为x，下面的-将映射定义为H（x），残差映射定义为：3149输入输入输入convconvconvconvconvconvconv输出1. 输出4convw1w4 输出输出输出输出(a) ResNet（b）VDSR（c）DRCN（d）DRRN（我们的）图2. （a）ResNet的简化结构[8]。绿色虚线框表示剩余单位。(b)VDSR [13]。紫线表示全局标识映射。（c）DRCN [14]。蓝色虚线框表示递归层，其中卷积层（浅绿色）共享相同的权重。（d）DRRN。红色虚线框表示由两个残差单元组成的递归块在在递归块中，剩余单元（具有浅绿色或淡红色）中的对应的对应层共享相同的权重。在在所有四种情况下，具有浅蓝色的输出都是受监督的，并且是逐元素加法。方法关键战略数学公式ResNetVDSRDRCN链式局部残差学习全局残差学习全局残差学习+递归学习（单权值层）+多CNN集成y= fRec（UU（UU−1（. （U1（f1（x）. ）））y= fRec（fd−1（fd−2（... （f1（x））. ）+xy=ΔTwt·（fRec（f（t）（f（x）+x）t=1 21DRRN多路径模式局部残差学习+全局残差学习+递归学习（残差单元中的多个权重层y = fRec（RB（RB−1（. （R1（x））. ）+x表1.在ResNet [8]，VDSR [13]，DRCN [14]和DRRN中使用的策略U、d、T和B分别是ResNet中的残差单元、VDSR中的卷积层、DRCN中的递归和DRRN中的递归块的数量x和y是网络的输入和输出f表示卷积层的函数U表示残差单元结构的函数，R表示递归块的函数F（x）：=H（x）-x，因此残差单元结构为：x=U（x）=σ（F（ x，W）+h（ x）），（1）其中，x是残差单元的输出，h（x）是识别映射[8]：h（x）=x，W是权重集合（省略偏差以简化符号），函数σ表示ReLU，F（x，W）是要学习的残差映射，U表示残差单元结构的函数。对于堆叠两个卷积层的基本残差单元，F（x，W）=W2σ（W1x）。通过堆叠这种结构来构建一个非常深的152层网络，ResNet在ILSVRC2015分类竞赛中获得了第一名。由于ResNet中的剩余学习在每个这种策略是局部残差学习的一种形式，其中残差单元以链模式堆叠2.2. VDSR与在每一个堆叠层中使用残差学习的ResNet不同，VDSR [13]引入了GRL，即，输入ILR图像和输出HR图像之间的残差学习。VDSR有三个注意事项：（1）Un-convconvconvconvconvconvconvconvconvconvconvconvconvconvconvconv输入3150与只使用3层的SRCNN [2]一样，VDSR在残差分支中堆叠了20个权重层（每层3×3），这导致了更大的感受野（41×41vs.13×13）。(2)GRL和可调梯度裁剪使VDSR能够非常快地收敛（在GPU Titan Z上为14小时(3) 通过尺度增强，VDSR的单个网络对不同尺度的图像具有鲁棒性。稍后，我们将证明VDSR实际上是DRRN的一种特殊情况，在我们的2.3. DRCNDRCN [14]的动机是观察到添加更多的权重层会引入更多的参数，其中模型可能过拟合并且也会变得磁盘饥饿。为了解决这些问题，作者在网络中引入了递归层，使得在递归层中执行更多递归的同时模型参数不增加。DRCN由三个部分组成：嵌入网络、推理网络和重构网络，它们在图中被示为第一、中间4和最后一个卷积层2（c）中所述的方法。嵌入网f1（x）表示给定的3151convconvReLUBNconvconvconvconvconvconvconvconvconvconvconvconv2t=1H0Hu- 1xb-1xb-1xb-1conv重量胡conv图3.仔细观察DRRN中的第u个剩余单元黑色虚线框表示残差函数F，它由两个“conv”层组成图像x作为特征图H0。推理网 f2（ H0）将T个递归（在[14]中T=16）堆叠在递归层中，这些递归之间具有共享的权重最后，重建网络fRec（HT）生成中间HR图像，其中HT是推理网络的输出怎么-convXB(a) U=1XB(b) U=2XB(c) U=3由于训练这样的深度网络是困难的，因此作者进一步提出了两种缓解方法，递归监督和跳跃连接。具体地说，对于递归层中的第t个中间递归，递归网之后的输出被公式化为图4. 递归块的结构。U表示递归块中的残差单元的数量。比激活后版本更容易训练并产生更好的性能。具体地，具有预激活结构的剩余单元被公式化为：yt=fRec（f（t）（f1（x）+x，（2）Hu=F（Hu−1，Wu）+Hu−1，（3）其中x是跳过连接，基本上是GRL。每个中间预测yt都是在监督下学习的。最后，采用集成策略，输出是所有预测的加权平均y=Wt·yt，其中权重wt在训练期间学习。3. 深度递归残差网络在本节中，我们介绍了我们提出的DRRN的技术部分。具体地说，在单位分支中采用全局残差学习，在残差分支中通过构造递归块结构引入递归学习，在递归块结构中，多个残差单元堆叠在一起。请注意，在ResNet [8]中，不同的残差单元为标识分支使用不同的输入（图2（a）中的绿色虚线框）。然而，在我们的递归块中，使用多路径结构，并且所有残差单元共享同一分支的相同输入（图中的绿色虚线框） 2（d）），这进一步促进了学习[16]。我们强调DRRN和相关模型之间的网络结构的差异。1.一、现在，我们将逐步介绍我们模型的更多细节，从残差单元到递归块，最后是整个网络结构。3.1. 残差单元在ResNet [8]中，基本残差单元用公式表示为Eq. 1和激活函数（BN [11]和ReLU [19]）在权重层之后执行。与这种“后激活”结构相反，He et al.[9]提出了一种“预激活”结构，它在权重层之前执行激活。他们声称激活前版本其中u = 1，2，.，U，U是递归块中残差单元的数量，H u−1和H u是第u个残差单元的输入和输出，F表示残差函数。而不是直接使用上述剩余单位，我们模-公式化3，使得到单位分支和剩余分支的输入不同。正如SEC开头所描述的3，一个递归块中的残差单元的所有单位分支的输入保持相同，即，图中的H03 .第三章。因此，在我们的递归块的输入和输出之间有多个路径4.第一章残差路径有助于学习高度复杂的特征，而标识路径有助于在训练期间进行梯度与链式模式相比，这种多路径模式有利于学习，并且不太容易过度拟合[16]。因此，我们将剩余单位表示为Hu=G（Hu−1）=F（Hu−1，W）+H0，（4）其中G表示我们的残差单元的函数，H0是递归块中第一个卷积层的结果由于残差单元是递归学习的，因此权重集W在递归块内的残差单元之间共享，但是在不同的递归块之间不同。3.2. 递归块我们现在介绍递归块的细节。首先，我们在图中说明了递归块的结构。4.第一章受[16]的启发，我们在递归块的开始引入卷积层，然后在第二节中提到的几个残差单元3.1被淘汰我们3152convconvconvconvconvconvconvRBRBRBRBRBRBi=1BbbbBxx3conv其中fRec是DRRN中最后一个卷积层重构残差的函数选项卡. 1列出了ResNet、VDSR、DRCN和DRRN的数学公式。Giv enatrainingset{x（i），x∈（i）}N ，其中N是num-训练补丁的BER，并且xR（i）是LR补丁x（i）的地面真实HR补丁，DRRN的损失函数为L（Θ）=1个N2个Ni=1xX4y图5.具有B = 6且U = 3.这里，将B表示为递归块的数量，xb-1和xb（b = 1，2，...，B）作为第b个递归块的输入和输出，H0=f b（xb−1）作为xb−1通过第一卷积层后的结果，其函数为f b。根据等式4，第u个残差单元的结果为Hu=G（Hu−1）=F（Hu−1，W b）+H0.（五）因此，第b个递归块xb的输出为：其中Θ表示参数集。目标函数通过具有反向传播的小批量随机梯度下降（SGD）进行优化[15]。我们通过Caffe实现DRRN [12]。4. 实验4.1. 数据集通过遵循[13，23]，我们使用291个图像的训练数据集，其中91个图像来自Yang等人。[35]和其他200个图像来自伯克利分割数据集[18]。为了进行测试，我们使用了四个广泛使用的基准数据集，Set5 [1]，Set14[36]，BSD 100 [18]和Urban100 [10]。它们分别具有5、14、100和100个图像。4.2. 实现细节在291张图像训练数据集上进行数据增强。[30]《礼记》云：“礼，礼也。xb=HU=G（U）（fb（xb−1））=G（G（. （G（fb（xb−1）. ））的情况下，（六）考虑训练图像的各部分具体地说，我们将原始图像旋转90度，180度，270度，然后水平翻转。之后，对于每个原始图像，我们其中执行Gb的U3.3.网络结构最后，我们简单地堆叠几个递归块，然后用卷积层重建LR和HR图像之间的残差。然后将残差图像添加到来自输入LR图像的全局身份映射DRRN的整个网络结构如图所示。五、实际上，VDSR [13]可以被视为DRRN的特殊当U= 0时，DRRN变为VDSR。DRRN有两个关键参数：递归块数目B和每个递归块中的残差单元数目U。给定不同的B和U，我们可以学习具有不同深度的DRRN-卷积层的数量。具体地，DRRNd的深度被计算为：d=（1 + 2 × U）× B +1。（七）将x和y表示为DRRN的输入和输出，有7个额外的增强版本。此外，受VDSR [13]的启发，我们还使用尺度增强来训练我们的模型，不同尺度（×2，×3和×4）的图像都包含在训练集中。因此，对于所有不同的-在大规模的情况下，我们只需要训练一个模型。在考虑训练时间和存储复杂度的基础上，将训练图像分割成31×31块，步长为21 我们将SGD的小批量大小设置为128，动量参数设置为0。9，重量衰减到10−4。每个权重层有128个大小为3 ×3的过滤器。对于权重初始化，我们使用与He等人[7]，这被证明适用于利用ReLU的网络。初始学习率设置为0。1，然后每10个时期减少一半。由于在我们的工作中使用了大的学习率，我们采用了可调节的梯度裁剪[13]来提高收敛速度，同时抑制梯度爆炸。具体而言，将裁剪渐变到[−θ，θ]，其中γ是当前学习率，θ = 0。01R是第b个递归块的函数，我们有γ γ3153xb=Rb（ xb−1）=G（U）（fb（xb−1））。（八）是渐变剪裁参数。培训一名DRRN，d=20大约需要4天，使用2个Titan X GPU。当b=1时，我们定义x0=x。然后，DRRN可以公式化为：y=D（x）=f Rec（RB（RB−1（. （R1（x））. ）+x，（9）4.3. B和U的研究在本小节中，我们将探讨B的各种组合和U来构造具有不同3154数据集规模双三美国有线电视新闻网[2][第10话]RFL [23]VDSR [13]DRCN [14]DRRNB1U9DRRNB1U25×2三十三岁。66比0 9299三十六66比0 9542三十六49比0 9537三十六54/0.9537三十七53/0。9587三十七63/0。9588三十七66比09589三十七74比09591Set5×3×4三十39比0868228岁42比08104三十二75/0。9090三十48比08628三十二58/0。9093三十31/0。8619三十二43比0 9057三十14/08548三十三岁。66比0 921331岁35/0。8838三十三岁。82比0 922631岁53/0。8854三十三岁。93比0 923431岁58/0。8864三十四03/0。924431岁68比0。8888×2三十24/08688三十二45/0。9067三十二22/0。9034三十二26/0。9040三十三岁。03/0。9124三十三岁。04/0。9118三十三岁。19比0 9133三十三岁。23/09136产品14×3×4二十七岁55/0。7742二十六岁完全正确702729岁30/08215二十七岁50/0。751329岁16比08196二十七岁40/0 751829岁05/0。8164二十七岁24/0745129岁77比0831428岁01/0。767429岁76比0831128岁02/0。767029岁94比0833928岁18比0770129岁96比0834928岁21/07720×229岁56/0。843131岁36比0887931岁18比0885531岁16比0884031岁九成896031岁85/0。8942三十二01/0。8969三十二05/0。8973BSD100×3×4二十七岁21/07385二十五96比0 667528岁41/0。7863二十六岁九成710128岁29比07840二十六岁84比0 710628岁22/0。7806二十六岁75/0。705428岁82比07976二十七岁29比0 725128岁80/0。7963二十七岁23/0723328岁91/07992二十七岁35/0。726228岁95/0。8004二十七岁38比0 7284×2二十六岁88比0 840329岁50/0。894629岁54/0.896729岁11/08904三十76比09140三十75/0。913331岁02/0。916431岁23/09188Urban100×3×4二十四岁46比0 734923岁14/06577二十六岁24/07989二十四岁52/0。7221二十六岁44/08088二十四岁79比0 7374二十五86比0 7900二十四岁19比0 7096二十七岁14/08279二十五18比0 7524二十七岁15/0。8276二十五14/07510二十七岁38比0 8331二十五35/0。7576二十七岁53/0。8378二十五44/07638表2.基准结果。数据集Set 5、Set 14、BSD 100和Urban 100上比例因子× 2、× 3和× 4的平均PSNR/SSIM。红色表示我们的方法的最佳性能，蓝色表示先前方法的最佳性能。更params少图6. B和U组合下各种DRRN的PSNR。点的颜色表示对应于右侧条的PSNR，并且还绘制了4个深度轮廓（d= 50，30，20，10）。在Set5上对比例因子× 3进行测试。深度，看看这两个参数如何影响性能。在图6中，我们构建了一个B和U的网格，并在网格中采样了几个点，深度范围从8层到52层。当在一个递归块中使用更多的残差单元时，参数数量保持不变，并且当堆叠更多的递归块时，参数数量线性增加。首先，为了清楚地显示单个参数如何影响DRRN，我们将一个参数固定为3，并将另一个参数从1更改为4。图6表明，增加B或U会导致在更深的模型中，并实现了更好的性能，这表明更深的仍然更好。尽管结构不同，但只要它们的深度相似，这些模型是可比较的，例如，B2U3（d=15，k=784K）和B3U2（d=16，k=1，182 K）达到33。76和33。77dB，分别。上述结构都使用递归学习策略。接下来，我们测试三个非常不同的结构，以证明这种策略的有效性。具体来说，我们将一个参数固定为1，并更改另一个参数构建d=52的网络。这导致两个前-treme结构：B1U25（k=297 K）和B17U1（k=7，375K）。对于B1U25，仅使用一个递归块，其中递归地学习25个残差单元对于B17U1，堆叠了17个递归块，没有递归学习。3155ing.我们还构造了一个正规结构B_3U_8（d=52，k=1，182K）.图6表明，尽管结构不同，但三种网络的性能相当（B17 U1 34. 03分贝，B3U8 34。04dB和B1U25 34. 03分贝）并且性能优于先前的浅网络。感谢递归学习策略，B1U25可以使用更少的参数实现最4.4. 与最新型号的比较我们现在提供定量和定性比较。综合考虑性能和参数个数，我们选择DRRNB1U25（d=52，k=297K）作为最佳模型。为了公平比较，我们还构造了DRRNB1U9（d=20，k=297K）结构，其具有与VDSR和DRCN相同的深度，但参数较少近年来的DL [2，13，14]和非DL [10，20，23]方法都实验设置与以前的方法相同具体来说，我们首先将双三次插值应用于图像的颜色分量，所有模型仅应用于其亮度分量。因此，输入和输出图像具有相同的大小。为了公平比较，类似于[2，13，14，23]，我们在评估之前裁剪图像边界附近的像素，尽管这对于DRRN是不必要的。选项卡. 2通过引用[13，14]中先前方法的结果，总结了四个测试集这两个DRRN模型在所有数据集和比例因子中，在PSNR和结构相似性（SSIM）1方面都优于所有现有方法。特别是在最近困难的Ur-ban 100数据集[10]上，DRRN显著推进了最新技术水平，改进幅度为0。47，0。38和0的情况。在比例因子×2、×3和×4时分别为26dB。此外，我们还使用另一个度量标准：信息保真度标准（IFC）[24]进行比较，该标准声称与SR评估的感知评分相关性最高[34]。结果见表。3 .第三章。注意1通过残差分支中的两个卷积层，DRRN实现了最先进的性能。更复杂的设计有可能提高性能，但不是这项工作的重点。3156数据集规模双三美国有线电视新闻网[2][第10话]RFL [23]PSyCo [20]VDSR [13]DRRNB1U9DRRNB1U25×2六、0838. 0367 .第一次会议。8118. 5568. 6428. 5698. 5838. 671Set5×3×43 .第三章。580二、3294.第一章658二、9914.第一章7483 .第三章。1664.第一章9263 .第三章。191五、0833 .第三章。379五、2213 .第三章。547五、2413 .第三章。581五、3973 .第三章。703×2六、1057 .第一次会议。7847 .第一次会议。5918. 1758. 2808. 1788. 1818. 320产品14×3×43 .第三章。473二、2374.第一章338二、7514.第一章371二、8934.第一章531二、9194.第一章6603 .第三章。0554.第一章7303 .第三章。1334.第一章7323 .第三章。1474.第一章8783 .第三章。252×2六、2457 .第一次会议。9897 .第一次会议。9378. 4508. 5898. 6458. 6538. 917Urban100×3×43 .第三章。620二、3614.第一章584二、9634.第一章8433 .第三章。3144.第一章8013 .第三章。110五、0313 .第三章。351五、1943 .第三章。496五、2593 .第三章。536五、4563 .第三章。676表3.基准结果。数据集Set5、Set14和Urban100上比例因子×2、×3和×4的平均IFC。红色表示我们的方法的最佳性能，蓝色表示先前方法的最佳性能。Ground TruthBicubicSRCNN SelfEx VDSRDRRN_B1U9 DRRN_B1U25(PSNR/SSIM/IFC）（21.10/0.7046/3.134）（21.77/0.7540/3.761）（21.94/0.7608/3.669）（22.58/0.7942/4.341）（22.74/0.7999/4.365）（23.37/0.8158/4.713）（PSNR/SSIM/IFC）（22.55/0.7073/3.591）（23.51/0.7608/4.344）（23.42/0.7587/4.281）（23.99/0.7728/4.716）（24.23/0.7781/4.734）（24.41/0.7805/4.914）(PSNR/SSIM/IFC）（21.98/0.8126/1.920）（24.80/0.8928/2.666）（24.85/0.9076/2.941）（25.85/0.9289/3.406）（26.33/0.9365/3.557）（26.48/0.9415/3.822）3157图7. 定性比较。(1)第一行显示图像“img059”（Urban100，比例因子× 3）。DRRN恢复清晰的线条，而其他人都给出模糊的结果。（2）第二行显示图像DRRN准确地恢复了模式。（3）最后一行显示图像DRRN中的文本是清晰的，而其他文本则是模糊的。[2，10，20，23]的结果引自[20]2，而VDSR的结果来自我们的重新实现。与DRRN类似，VDSR重新实现也使用BN和ReLU作为激活函数，与不使用BN的原始VDSR [13]这些结果2由于PSyCo [20]没有在四个基准上提供完整的PSNR/SSIM性能，因此我们没有将其包含在表中。二、忠实，因为我们的VDSR重新实现达到了类似的基准性能[13]在表中报告。二、由于在[20]中仅使用了Set5、Set14和Urban100，因此我们在此测试中省略了BSD 100。很明显，DRRN在所有数据集和尺度因子中仍然优于所有现有方法。考虑到速度，我们的 20层B1U9网络需要0. 25在Titan X GPU上处理一张288×288的315816层22层28层浅深很深图8. 使用VDSR（蓝色）、DRRN NS（绿色）、DRRN C（青色）和DRRN（红色）时，Set5上比例因子×3的方法VDSRDRRN NS CDRRN NSDRRN CDRRNLoc. Res. L×√√√√Recu. L××√×√√多径×××√PSNR33.8633.9233.9733.9533.99表4.打开或关闭不同DRRN组件时的平均PSNR，数据集5上的比例因子×3。定性比较SRCNN[2]，SelfEx [10]，VDSR [13]和DRRN在图中说明。7.第一次会议。对于SRCNN和SelfEx，我们使用它们的公共代码。对于VDSR，我们使用重新实现。正如我们所看到的，我们的方法相对于图案产生相对较清晰的边缘，而其他方法可能会给出模糊的结果。4.5. 讨论由于在[13]中已经很好地讨论了全局残差学习，因此在本节中，我们主要关注局部残差学习（LRL），递归学习和多路径结构。局部剩余学习为了证明有效的-LRL、DRRN与VDSR [13]进行了比较没有LRL。为了公平比较，两种方法的参数深度和数量保持相同。具体而言，我们评估三个深度：16（B3U2）、22（B3U3）和28（B3U4）卷积层。每个卷积层有128个过滤器，大小为3×3。为了保持参数编号相同，在此测试中，我们不共享权重一个递归块中的残差单元的集合，并且将该DRRN结构表示为DRRN NS。图8示出了两种方法在不同深度下的PSNR。我们看到，LRL策略在所有深度都能持续改善VDSR。递归学习为了对比我们的递归学习策略，将三个DRRN NS版本与三个权重共享版本进行了比较（图1）。（八）。存储是构建深度模型时需要考虑的一个重要因素。递归学习策略可以减少存储需求，保持简洁的模型，同时增加其深度。有趣的是，权重共享的DRRN版本实现了与DRRN NS版本图9. 比较近三年提出的深度和浅层模型，报告Set5和Set14上比例因子×3的PSNR而仅使用一小部分参数，这表明当有限的训练集（例如，291图像），递归学习在相同的结构下确实有效，并且不太容易过拟合[16]。多路径结构为了证明多径结构的有效性，我们比较了DRRN和链式结构，表示为DRRN C。如图8，在相同的深度和参数数下，多径结构在所有三种情况下都此外，Tab。4.以B3U4网络为例，对性能增益进行了综合研究它显示了与基准VDSR相比，不同的技术部件如何最后，我们比较了近三年（2014年至2016年）发表的深度和浅层SISR模型，这些模型报告了比例因子在数据集Set5和Set14上×3浅（非DL）模式-ELS 包括 A+ [31] 、 SelfEx [10] 、 RFL [23] 、 NBSRF[22]、PSyCo [20]和IA [30]。深度模型（d≤8）包括SRCNN [2]、DJSR [33]、CSCN [32]、ESPCN [25]FSRCNN [3] 。非常深的模型（ d≥20 ）包括 VDSR[13]、DRCN [14]、RED [17]和d=20的DRRN和52.图9示出了1）非常深的模型显著优于浅模型;2）DRRN B1 U9（d=20，k=297K）已经优于具有相同深度但更少参数的现有技术; 3）更深的DRRN B1U25（d=52，k=297K）在不添加任何参数的情况下进一步提高了性能。5. 结论在本文中，我们提出了深度递归残差网络（DRRN）的单图像超分辨率。在DRRN中，在递归块中递归地学习增强的残差单元结构，并且我们堆叠几个然后将残差图像添加到来自全局身份分支的输入LR图像以估计HR图像。大量的基准测试实验和分析表明，DRRN是一个深刻的，简洁的，和优越的模型SISR。3159引用[1] C. M. Bevilacqua、A. Roumy和M.- L. A.莫瑞尔基于非负邻域嵌入的低复杂度单幅图像超分辨率。在BMVC，2012年。一、五[2] C. 东角，澳-地Loy，K.他，还有X。唐使用深度卷积网络实现图像IEEE Transactions on Pattern Analysis andMachine Intelligence，38（2）：295 一二三六七八[3] C.东角，澳-地Loy和X.唐加速超分辨率卷积神经网络。在ECCV，2016年。 8[4] D. Reinner，S. Bagon和M.伊拉尼从单一图像中获得超分辨率。ICCV，2009年。1[5] K. Gregor 和 Y. 乐存。学习稀疏编码的快速近似。ICML，2010年。1[6] S.汉，H. Mao和W. J·达利深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。ICLR，2016年。2[7] K.他，X。Zhang，S. Ren和J. Sun.深入研究rec- tifiers：在ImageNet分类上超越人类水平的性能。在ICCV，2015年。5[8] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。二、三、四[9] K.他，X。Zhang，S. Ren和J. Sun.深度剩余网络中的身份映射。arXiv：1603.05027v2，2016. 4[10] J. - B. Huang，黄背天蛾A. Singh和N.阿胡佳从转换的自我样本的单一图像超分辨率CVPR，2015。五六七八[11] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML，2015。二、四[12] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构。arXiv：1408.5093，2014。5[13] J. Kim，J. K. Lee和K. M.李你使用非常深的卷积网络实现精确的图像超分辨率在CVPR，2016年。一二三五六七八[14] J. 金，J.K. Lee和K.M. 李你用于图像超分辨率的深度递归在CVPR，2016年。一二三四六八[15] Y.勒昆湖Bottou，Y. Bengio和P.哈夫纳基于梯度的学习应用于文档识别。在Proceedings of the IEEE，1998年。5[16] M. 梁和X 。胡用于物体识别的递归卷积神经网络CVPR，2015。四、八[17] X.- J. Mao，C.沈，和Y。B.杨使用具有对称跳跃连接的非常深的卷积编码器-解码器网络的图像恢复。在NIPS，2016年。一、二、八[18] D.马丁角，澳-地Fowlkes，D. Tal和J.马利

下载后可阅读完整内容，剩余1页未读，立即下载