基于生成对抗网络的单幅照片真实感超分辨率

92 浏览量更新于2023-10-16 收藏 1.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4681基于生成对抗网络的单幅照片真实感超分辨率ChristianLedig，LucasTheis，FerencHusza'r，JoseCaballero，Andre wCunningham，Alejandro Acosta，Andrew Aitken，Alykhan Tejani，Johannes Totz，Zehan Wang，Wenzhe Shi Twitter{cledig，ltheis，fhuszar，jcaballero，aacostadiaz，aaitken，atejani，jtotz，zehanw，wshi}@ twitter.com摘要尽管使用更快和更深的卷积神经网络在单个图像超分辨率的准确性和速度方面取得了突破，但一个核心问题仍然在很大程度上没有解决：当我们以大的放大因子进行超分辨率时，我们如何恢复更精细的纹理基于优化的超分辨率方法的行为主要由目标函数的选择驱动。最近的工作主要集中在最小化均方重建误差。由此产生的估计具有高峰值信噪比，但它们通常缺乏高频细节，并且在感知上不满意，因为它们无法匹配在较高分辨率下预期的保真度。在本文中，我们提出了SRGAN，生成对抗网络（GAN）的图像超分辨率（SR）。据我们所知，这是第一个能够推断4倍放大因子的照片真实感自然图像的框架。为了实现这一点，我们提出了一个感知损失函数，它包括对抗损失和内容损失。对抗性损失将我们的解决方案推到自然图像流形使用鉴别器网络，该鉴别器网络被训练为区分超分辨率图像和原始照片真实感图像。此外，我们使用的内容损失动机的感知相似性，而不是像素空间的相似性。我们的深层残余网络能够从公共基准上的大量下采样图像中恢复照片般逼真的纹理。广泛的平均意见得分（MOS）测试显示使用SRGAN在感知质量方面的巨大收益。与SRGAN获得的MOS分数更接近于原始高分辨率图像的那些比与任何国家的最先进的方法获得的。1. 介绍从其低分辨率（LR）对应物估计高分辨率（HR）图像的高度挑战性任务被称为超分辨率（SR）。SR受到了计算机视觉研究界的大量关注，并具有广泛的应用[62，70，42]。4×SRGAN（拟定）原件图1：超分辨率图像（左）与原始图像（右）几乎无法区分。[4×放大]欠定SR问题的不适定性对于高的放大因子特别明显，对于高的放大因子，监督SR算法的优化目标通常是最小化恢复的HR图像和地面实况之间的均方误差（MSE）。这是方便的，因为最小化MSE也最大化峰值信噪比（PSNR），这是用于评估和比较SR算法的常见度量[60]。然而，MSE（和PSNR）捕获感知相关差异（例如高纹理细节）的能力非常有限，因为它们是基于逐像素图像差异来定义的[59，57，25]。这在图2中示出，其中最高PSNR不一定反映感知上更好的SR结果。的4682双三SRResNetSRGAN原始（21.59dB/0.6423）（23.53dB/0.7832）（21.15dB/0.6868）图2：从左到右：双三次插值、针对MSE优化的深度残差网络、针对对人类感知更敏感的损失优化的深度残差生成对抗网络、原始HR图像。相应的PSNR和SSIM在括号中示出。[4×放大]超分辨图像和原始图像之间的感知差异意味着恢复的图像不是如Ferwerda [15]所定义的照片真实感。在这项工作中，我们提出了一个超分辨率生成对抗网络（SRGAN），我们采用了一个深度剩余网络（ResNet）跳过连接和偏离MSE作为唯一的优化目标。与以前的工作不同，我们使用VGG网络的高级特征图[48，32，4]定义了一种新的感知损失，并结合了一种鼓励解决方案在感知上难以与HR参考图像区分的方法。图1中显示了一个示例照片级真实感图像，该图像采用4倍放大因子进行超分辨率处理。1.1. 相关工作1.1.1图像超分辨率最近关于图像SR的综述文章包括Nasrolahi和Moeslund[42]或Yang et al.[60]第一章。在这里，我们将专注于单图像超分辨率（SISR），并且将不进一步讨论从多个图像恢复HR图像的方法[3，14]。基于预测的方法是解决SISR的第一批方法虽然这些过滤方法，例如。线性、双三次或Lanczos [13]滤波可以非常快，但它们过度简化了SISR问题，并且通常产生具有过度平滑纹理的解决方案。已经提出了特别关注边缘保持的方法[1，38]。更强大的方法旨在建立低分辨率和高分辨率图像信息之间的复杂映射，并且通常依赖于训练数据。许多基于示例对的方法依赖于LR训练补丁来进行测试。其对应的HR对应物是已知的。早期的工作由Freeman等人提出。[十七、十六]。SR问题的相关方法起源于压缩感知[61，11，68]。Glasner等人[20]作者利用图像中跨尺度的补丁冗余来驱动SR。这种自相似性的范例也在Huang等人中使用。[30]，其中通过进一步允许小的变换和形状变化来扩展self字典。Gu等人[24]提出了一种卷积稀疏编码方法，通过处理整个图像而不是重叠补丁来提高一致性。为了重建真实的纹理细节，同时避免边缘伪影，Tai等人。[51]将基于梯度轮廓先验的边缘定向SR算法[49]与基于学习的细节合成的优点相结合。Zhang等人[69]提出了一种多尺度字典来捕获不同尺度下相似图像块的冗余。为了超分辨率地标图像，Yue等人。[66]从Web检索具有相似内容的相关HR图像，并提出用于对齐的结构感知匹配标准。邻域嵌入方法通过在低维流形中找到类似的LR训练块并组合它们对应的HR块以用于重建来对LR图像块进行上采样[53，54]。在Kim和Kwon[34]作者强调了邻域方法过拟合的趋势，并使用核岭回归制定了一个更一般的示例对回归问题也可以用高斯过程回归[26]，树[45]或随机森林[46]来解决。在Daiet al.[5]学习大量特定于补丁的回归量，并在测试期间选择最合适的回归量。最近基于卷积神经网络（CNN）的SR4683算法已经显示出优异的性能。 Wang等人[58]作者基于学习的迭代收缩和阈值算法（LISTA）将稀疏表示先验编码到他们的前馈网络架构中[22]。Dong等人。[8，9]使用双三次插值来放大输入图像，并训练端到端的三层深度全卷积网络以实现最先进的SR性能。随后，表明使网络能够直接学习放大滤波器可以进一步提高精度和速度方面的性能[10，47，56]。Kim等人利用他们的深度递归卷积网络（DRCN）。[33]提出了一种高性能架构，该架构允许长范围像素依赖性，同时保持模型参数的数量较小。特别是相关的，我们的文件是约翰逊等人的作品。[32] Bruna et al.[4]，他们依赖于更接近感知相似性的损失函数来恢复视觉上更有说服力的HR图像。1.1.2卷积神经网络许多计算机视觉问题的最新技术水平同时由Krizhevsky等人的工作成功后专门设计的[36]第30段。研究表明，更深的网络架构可能难以训练，但有可能大幅提高网络为了有效地训练这些更深层次的网络架构，批量归一化[31]通常用于抵消内部协变量偏移。更深层次的网络架构也被证明可以提高SISR的性能，例如。Kim等人[33]制定递归CNN并呈现最先进的结果。另一个简化深度CNN训练的强大设计选择是最近引入的残差块的概念[28]和跳过连接[29，33]。跳过连接减轻了对身份映射进行建模的网络架构，身份映射本质上是平凡的，然而，对于用卷积核表示可能是不平凡的在SISR的背景下，还表明学习放大滤波器在准确性和速度方面是有益的[10，47，56]。这是对Dong等人的改进。[9]其中双三次插值用于放大LR在将图像馈送到CNN之前进行观察。1.1.3损失函数像MSE这样的像素级损失函数很难处理恢复丢失的高频细节（比如纹理）时固有的不确定性：最小化MSE鼓励找到合理解决方案的逐像素平均值，这些解决方案通常过于平滑，因此感知质量较差[41，32，12，4]。不同知觉的重构图3：来自自然图像流形（红色）和使用MSE（蓝色）和GAN（橙色）获得的超分辨率斑块的图示。基于MSE的解决方案由于像素空间中可能的解决方案的逐像素平均而显得过于平滑，而GAN将重建推向自然图像流形，从而产生感知上更令人信服的解决方案。在图2中用相应的PSNR举例说明质量。我们在图3中说明了最小化MSE的问题，其中具有高纹理细节的多个潜在解决方案被平均以创建平滑重建。在Mathieu et al.[41] Denton et al.[6]作者通过使用生成对抗网络（GAN）[ 21 ]来解决这个问题，以应用于图像生成。Yu和Porikli [65]通过鉴别器损失来增加像素MSE损失，以训练一个网络，该网络能够以较大的放大因子（8×）超分辨率人脸图像。 GAN也被用于Radford等人的无监督表示学习。[43]。Li和Wand [ 37 ]描述了使用GAN学习从一个流形到另一个流形的映射的想法，用于风格转换和Yeh等人。[63] I'm sorry.Bruna等人[4]最小化VGG19 [ 48 ]和散射网络的特征空间的平方误差。Dosovitskiy和Brox [12]使用基于在神经网络的特征空间中计算的欧氏距离的损失函数，并结合对抗训练。结果表明，建议的损失允许视觉上优越的图像生成，并可用于解决解码非线性特征表示的不适定逆问题。类似于这项工作，Johnson et al.[32] Bruna et al.[4]建议使用从预训练的VGG网络中提取的特征，而不是低级的像素误差度量。具体而言，作者基于从VGG19[48]网络中提取的对于超分辨率和艺术风格转移，获得了感知上更令人信服的结果[18，19]。最近，Li和Wand [37]还研究了比较和4684nn在像素或VGG特征空间中混合块。1.2. 贡献损失函数对于训练图像IHR，n = 1，. . . ，N与相应的ILR，n = 1，. . . ，N，我们求解：GAN提供了一个强大的框架，ΣNθG=argminlSR（Gθ（英、法、西）（1）具有高感知质量的自然图像是的GAN程序鼓励重建θG N n=1Gnn移动到搜索空间中包含照片级真实感图像的概率很高的区域，从而更接近自然图像流形，如图3所示。在本文中，我们描述了第一个非常深的 ResNet[28，29]架构，使用GAN的概念来形成照片逼真的SISR的感知损失函数。我们的主要贡献是：• 我们为图像SR设置了一个新的艺术状态，通过PSNR和结构相似性（SSIM）测量的更高的放大因子（ 4 倍），我们的 16 块深度 ResNet（SRResNet）针对MSE进行了优化。在这项工作中，我们将专门设计一个感知损失SR作为几个损失分量的加权组合，这些损失分量对恢复的SR图像的不同期望特性在第2.2节中更详细地描述了各个损失函数。2.1. 对抗性网络体系结构根据Goodfellow等人。[21]进一步定义一个网络DθD，我们以交替的方式与GθG一起优化，以解决对抗性最小-最大问题：最小值最大值EIHR最大值（IHR）[logDθ（IHR）]+• 我们提出了SRGAN，这是一个基于GAN的网络针对新的感知损失进行了优化。在这里，我们将基于MSE的内容丢失替换为基于θGθDEILRP.G.（ILR）[log（1−DθD（GθG（ILR）]（二）VGG网络的特征图[48]，其对像素空间的变化更具有不变性[37]。• 我们通过对来自三个公共基准数据集的图像进行了广泛的平均意见评分（ MOS ）测试，证实SRGAN是最新的技术水平，以很大的幅度，用于估计具有高放大因子（4倍）的照片逼真SR图像。我们在第2节中描述了网络架构和感知损失。第3节提供了对公共基准数据集的定量评估以及可视化插图。本文在第4节中进行了讨论，在第5节中进行了总结。2. 方法在SISR中，目的是从低分辨率输入图像ILR估计高分辨率、超分辨率图像ISR。这里，ILR是其高分辨率对应物IHR的低分辨率版本。高分辨率图像仅在训练期间可用。在训练中，通过将高斯滤波器应用于IHR，随后进行具有下采样因子r的下采样操作来获得ILR。对于具有C个颜色通道的图像，我们用大小为W×H×C的实值张量来描述ILR，用rW×rH×C来描述IHR，ISR我们的最终目标是训练生成函数G，该生成函数G估计给定的LR输入图像其对应的HR对应物。为了实现这一点，我们将生成器网络训练为前馈CNN GθG 参数化为θG。这里θG={W1：L;b1：L}表示L层的权重和偏置深度网络，并通过优化SR特定该公式背后的一般思想是，它允许训练生成模型G，其目标是欺骗被训练以将超分辨率图像与真实图像区分开的可微分鉴别器D通过这种方法，我们的生成器可以学习创建与真实图像高度相似的解决方案，因此难以通过D分类。这鼓励了存在于自然图像的子空间（流形）中的感知上优越的解决方案。这与通过最小化逐像素误差测量（诸如MSE）获得的SR解决方案在我们的非常深的生成器网络G的核心，如图4所示，是具有相同布局的B个残差块灵感来自Johnson etal.[32]我们采用Gross和Wilber [23]提出的块布局具体来说，我们使用两个卷积层，它们具有小的3×3内核和64特征图，然后是批量归一化层[31]和ParametricReLU [27]作为激活函数。我们增加了输入图像的分辨率与两个训练的子像素卷积层提出的石等。[47 ]第47段。为了区分真实的HR图像从生成的SR样本，我们训练鉴别器网络。该架构如图4所示。我们遵循Radford等人总结的架构指南。[43]并使用LeakyReLU激活（α=0。2）避免在整个网络中使用最大池。训练鉴别器网络以解决等式2中的最大化问题。它包含8个卷积层，具有数量不断增加的3×3滤波器内核，从64增加到512个内核，与VGG网络[48]一样。每当特征的数量加倍时，步幅卷积被用于降低图像分辨率。得到的512个特征图之后是两个密集层和最终的S形激活1列车D4685XGx为oh图4：生成器和鉴别器网络的架构，具有相应的内核大小（k），特征映射(n)以及为每个卷积层指示的步幅函数来获得样本分类的概率。2.2. 感知损失函数我们的感知损失函数lSR的定义对于我们的生成器网络的性能是虽然lSR通常基于MSE [9，47]建模，但我们改进了Johnson等人的方法。[32] Bruna et al.[4]并设计一个损失函数，该函数评估关于感知相关特征的解决方案。我们将感知损失公式化为内容损失（ISR）和对抗性损失分量的加权和：这是最广泛使用的图像SR优化目标，许多最先进的方法都依赖于此 [9，47]。然而，在实现特别高的PSNR的同时，MSE优化问题的解决方案通常缺乏高频内容，这导致具有过度平滑纹理的感知上不令人满意的解决方案（参见图1）。图2）。而不是依赖于像素明智的损失，我们建立在Gatys等人的想法。[18] ，Bruna et al.[4] 和Johnson 等人。[32]并使用更接近感知相似性损失函数我们基于Simo n yan和Zisserman[48]中描述的预训练的19层VGG网络的ReLU激活层定义VGG损失。对于φi，j，我们lSR=lSR−3lSR（三）表示通过第j次卷积获得的特征图XX X X+10Gen`联系我们c`contentloss（内容丢失）verrariallosxsperceptual loss（基于VGG的内容丢失）（激活后）在VGG19网络内的第i个最大池化层之前，我们认为这是给定的。然后，我们将VGG损失定义为特征在下文中，我们描述内容损失lSR和对抗损失lSR的可能选择。重建图像GθG参考图像IHR：（ILR）和X2.2.1内容损失GenSrV GG/i.j1Wi，jHi，jWi，jHi，jx=1y=1（φi，j（IHR）x，y（五）逐像素MSE损失计算为：-φi，j（Gθ （ILR））x，y）2SRMSE1r2WH W.W.Hx=1y=1（IHR−GθLL==4686（ILR）x，y）2（4）这里，Wi，j和Hi，j描述VGG网络内的相应特征图G4687DGGenMSEXLRMSE2.2.2对抗性损失除了到目前为止描述的内容损失之外，我们还将GAN的生成组件添加到感知损失中这鼓励我们的网络通过试图欺骗鉴别器网络来支持驻留在自然图像流形上的解决方案生成损失lSR基于所有训练样本上的WMDθ（Gθ（lLR））的概率定义为：ΣN测试图像。我们通过使用具有下采样因子r=4的双三次内核对HR图像（BGR，C=3）进行下采样来获得LR图像。对于每个小批次，我们随机裁剪不同训练图像的16个96×96HR子图像。请注意，我们可以将生成器模型应用于任意大小的图像，因为它是完全卷积的。为优化我们使用Adam [35]，其中β1= 0。9 .第九条。SRRes- Net网络的学习率为10- 4，更新迭代次数为10-6我们使用训练好的基于MSE的SRResNet网络作为生成器的初始化，SrGen =n=1-logDθD（GθG（ILR））（6）训练实际GAN以避免不期望的局部最优。所有SRGAN变体都以10- 4的学习速率进行了10- 5次更新迭代，并以10 - 4的学习速率进行了另外10 -5次迭代。这里，DθD（GθG（ILR））是侦察的概率-低至10- 5。我们轮流更新发电机结构象GθG（ILR）是自然的HR图像。为了更好和等效于k=1的网络梯度行为我们最小化−logDθD（GθG（ILR））─如Goodfellow等人[21]中所用我们的发电机网络而不是log[1 −DθD（GθG（I））][21]。3. 实验3.1. 数据和相似性度量我们在三个广泛使用的基准数据集Set5[2]，Set14[68]和BSD 100，BSD 300的测试集[40]上进行实验。所有实验均在低分辨率和高分辨率图像之间以4×的比例因子进行。这相当于图像像素减少16倍。为了进行公平比较，所有报告的PSNR [dB]和SSIM [57]测量值都是使用daala软件包1在中心裁剪的y通道上计算的，从每个边界去除4像素宽的条带。参考方法的超分辨图像，包括最近邻、双三次、SRCNN [8]和SelfExSR [30]，从Huang等人的在线补充材料中获得。2[30]和来自Kim等人的DRCN3[33]。获得的结果具有16个相同的（B=16）残差块。在测试期间，我们关闭批量归一化更新以获得输出只依赖于输入[31]。我们的实现基于Theano [52]和Lasagne [7]。3.3.平均意见评分（MOS）检验我们已经进行了MOS测试来量化不同方法重建感知上令人信服的图像的能力具体而言，我们要求26名评分员为超分辨率图像分配1（质量差）至5（质量优秀）的积分评分员在Set5，Set14和BSD 100上对每个图像的12个版本进行了评分：最近邻（NN），双三次，SRCNN [8]，SelfExSR [30]，DRCN [33]，ESPCN[47]、SRResNet-MSE、SRResNet-VGG 22（未在BSD 100）， SRGAN-MSE模块， SRGAN-VGG 22型，SRGAN-VGG54和原始HR图像。每一个这样评定的评定者1128个实例（19张图像的12个版本加上100张图像的9个版本）以随机方式呈现使用SRResNet（损失：lSRSrVGG/2。2）和评分员根据NN（评分1）和HR（评分5）进行校准来自BSD 300训练集的20个图像的版本中SRGAN变体可在线获得 4. 统计检验采用配对双侧Wilcoxon符号秩检验，并在p 0时确定显著性<。05.读者也可能对独立的在GitHub5上开发了基于GAN的解决方案。然而，它只提供了有限的一组面孔上的实验结果，这是一个更受约束和更容易的任务。3.2. 培训详情和参数我们在NVIDIA Tesla M40 GPU上使用ImageNet数据库中的35万张图像随机样本训练了所有网络[44]。这些图像与1https://github.com/xiph/daala（提交：8d03668）试点研究中，我们评估了校准程序和重测信度的26个评分员的一个子集上的10个图像从BSD 100增加了一种方法的图像两次到一个更大的测试集。我们发现了良好的可靠性和相同的图像之间的评级没有显着差异。评分者非常一致地将NN内插测试图像评为1，将原始HR图像评为5（c.f.见图5）。表1、表2和图5总结了进行的MOS测试的实验结果。3.4. 内容物损失我们研究了不同内容损失选择对基于GAN的网络的感知损失[2]具体来说，我们研究lSR=lSR+10−3lSR为https://github.com/jbhuang0604/SelfExSR3http://cv.snu.ac.kr/research/DRCN/X以下内容损失lSR：Gen4https://twitter.box.com/s/lcue6vlrd01ljkdtdkhmfvk7vtjhetog5https://github.com/david-gpu/srezL和l4688• SRGAN-MSE：lSR，研究具有标准MSE作为内容损失的对抗网络。4689VGG/2。2VGG/5。4VGG/5。4表1：SR-ResNet和对抗网络在Set 5和Set 14基准数据上的不同损失函数的性能。 MOS评分显著高于（p <0.05）。05）与这一类的其他损失相比，[4×放大]SRResNet-SRGAN-图5：BSD 100上MOS评分的颜色编码分布。对于每种方法，评估了2600份样本（100张图像×26名评定者）平均值显示为红色标记，其中箱以值i为中心。[4×放大]• SRGAN-VGG22：lSR其中φ2，2，损失定义为用于评价（c.f.第3.1节），因此报告的值可能与原始论文中报告的值略有偏离。在表示较低级别特征的特征图上[67]。我们进一步获得了SRGAN和所有参考BSD 100的方法。示并且结果显示于表• SRGAN-VGG54：1SRφ5，4，损失定义为2证实SRGAN优于所有参考方法在更高级别特征的特征图上，网络层更有可能专注于图像的内容[67，64，39]。在下文中，我们将该网络称为SRGAN。我们还评估了两个损失lSR的并且为真实感图像SR设定了新的技术状态。MOS的所有差异（c.f.表2）在BSD 100上是高度显著的，除了SRCNN与SelfExSR。图5总结了所有收集的MOS评级的分布。（SRResNet-MSE）和lSRMSE4. 讨论和今后的工作V GG/2。2（SRResNet-VGG22）.我们将SRResNet-MSE称为SRResNet。定量结果在表1中进行了总结，图6.即使与对抗性损失相结合，MSE也提供了具有最高PSNR值的解决方案，然而，与对视觉感知更敏感的损失分量所实现的结果相比，这些解决方案在感知上相当平滑并且不太令人这是由基于MSE的内容损失和对抗性损失之间的竞争引起的。我们进一步将在少数基于SRGAN-MSE的重建中观察到的轻微重建伪影我们无法确定SRResNet或SRGAN相对于Set5的 MOS 评分的显著最佳损失函数。然而，SRGAN-VGG 54在MOS方面显著优于Set 14上的其他SRGAN和SRResNet变体。我们观察到一种趋势，即与φ 2，2相比，使用更高级别的VGG特征图φ5，4产生更好的纹理细节（参见图1）。见图6）。3.5. 最终网络的性能我们比较了SRResNet和SR-GAN与NN、双三次插值和四种最先进方法的性能。定量结果总结在表2中，并证实SRResNet（在PSNR/SSIM方面）在三个基准数据集上设定了新的技术水平。请注意，我们使用了一个公开可用的框架我们使用MOS测试证实了SRGAN的优越感知性能。我们进一步表明，标准定量测量（如PSNR和SSIM）无法捕获和准确评估相对于人类视觉系统的图像质量[55]。这项工作的重点是超分辨率图像的感知质量，而不是计算效率。所提出的模型是，在对比石等。[47]，未针对实时视频SR进行优化。然而，初步实验的网络架构表明，较浅的网络有可能提供非常有效的替代品在一个小的减少定性性能。与Dong et al.[9]，我们发现更深层次的网络架构是有益的。我们推测ResNet设计对更深层网络的性能有重大影响。我们发现，更深的网络（B >16）可以进一步提高SRResNet的性能，但代价是更长的训练和测试时间。我们发现，由于高频伪影的出现，更深层网络的SRGAN变体越来越难以当针对SR问题的照片般逼真的解决方案时，特别重要的是内容损失的选择，如图6所示。在这项工作中，我们发现lSR以产生感知上最令人信服的结果，我们将其归因于更深的网络层表示更高抽象特征的潜力[67，64，39]Set5MSEVGG22MSEVGG22VGG54PSNR32.0530.5130.6429.8429.40SSIM0.90190.88030.87010.84680.8472MOS3.373.463.773.783.58产品14PSNR28.4927.1926.9226.4426.02SSIM0.81840.78070.76110.75180.7397MOS2.983.15磅3.433.573.72磅4690SRResNetSRGAN-MSE SRGAN-VGG 22SRGAN-VGG 54原始HR图像（一）（b）第（1）款（c）第（1）款（d）其他事项（e）（f）第（1）款（g）（h）（一）（j）图6：SRResNet（左：a，b），SRGAN-MSE（左中：c、d）、SRGAN-VGG 2.2（中：e，f）和SRGAN-VGG 54（中右：g、h）重建结果和对应的参考HR图像（右：i，j）。[4×放大]表2：NN、双三次、SRCNN [8]、SelfExSR [30]、DRCN [33]、ESPCN [47]、SRResNet、SRGAN-VGG54和基准数据上的原始HR的比较最高测量值（PSNR [dB]、SSIM、MOS）以粗体显示。[4×放大]Set5最近双三SRCNNSelfExSRDRCNESPCNSRResNetSRGANHRPSNR26.2628.4330.0730.3331.5230.7632.0529.40∞SSIM0.75520.82110.86270.8720.89380.87840.90190.84721MOS1.281.972.572.653.262.893.373.584.32产品14PSNR24.6425.9927.1827.4528.0227.6628.4926.02∞SSIM0.71000.74860.78610.79720.80740.80040.81840.73971MOS1.201.802.262.342.842.522.983.724.32BSD100PSNR25.0225.9426.6826.8327.2127.0227.5825.16∞SSIM0.66060.69350.72910.73870.74930.74420.76200.66881MOS1.111.471.871.892.122.012.293.564.46从像素空间。我们推测，这些更深层的特征图纯粹集中在内容上，而对抗性损失则集中在纹理细节上，这是没有对抗性损失的超分辨率图像与照片级逼真图像之间的主要区别我们还注意到，理想的损失函数取决于应用。例如，产生更精细细节的方法可能不太适合医疗应用或监视。文本或结构化场景的感知令人信服的重建4691[30]具有挑战性，也是未来工作的一部分。描述图像空间内容但对像素空间中的变化更加不变性的内容损失函数的开发将进一步改善照片真实感图像SR结果。5. 结论我们已经描述了一个深度残差网络SRRes-Net，当使用广泛使用的PSNR测量进行评估时，它在公共基准数据集上设置了一个新的最新技术水平。我们已经强调了这种以PSNR为重点的图像超分辨率的一些局限性，并介绍了SRGAN，它通过训练GAN来增强具有对抗损失的内容损失函数使用广泛的MOS测试，我们已经证实，SRGAN重建的大放大因子（4×），在相当大的幅度上，比用最先进的参考方法获得的重建更照片逼真。4692引用[1] J. Allebach 和 P.W. 黄。边缘定向插值。在 Proceedings ofInternational Conference on Image Processing，第3卷，第707-710页[2] M. Bevilacqua、A.鲁米角Guillemot和M. L.艾伯瑞·莫瑞尔基于非负邻域嵌入的低复杂度单幅图像超分辨率BMVC，2012年。[3] S. Borman和R. L.史蒂文森图像序列的超分辨率-综述。中西部电路与系统研讨会，第374-378页[4] J. Bruna，P. Sprechmann和Y.乐存。具有深度卷积足够统计的超分辨率。国际学习表征会议（International Conference onLearning Representations，ICLR），2016。[5] D. 戴河，巴西-地Timofte和L.范古尔联合优化回归器的图像超分辨率。在Computer Graphics Forum，第34卷，第95-104页[6] E. Denton，S. Chintala、A. Szlam和R.费格斯。使用对抗网络的拉普拉斯金字塔的深度生成图像模型。神经信息处理系统进展（NIPS），第1486-1494页，2015年[7] S. Dieleman ， J.Schl üter ， C.Raf fel 、 E. Olson ， S. K.Snderby，D. Nouri，D. Maturana，M. Thoma、E. Battenberg，J. Kelly，J.D. Fauw，M. Heilman，diogo149，B. McFee，H. Weideman，takacsg84，peterderivaz，Jon，instagibbs，D.K. 拉苏尔，刘聪，布里特弗里，J. Degrave千层面：第一次释放。2015年。[8] C.东角，澳-地C. Loy，K.他，还有X。唐学习用于图像超分辨率的深度卷积网络。欧洲计算机视觉会议（ECCV），第184-199页。Springer，2014.[9] C.东角，澳-地C. Loy，K.他，还有X。唐使用深度卷积网络实现图像超分辨率。IEEE Transactions on Pattern Analysis andMachine Intelligence，38（2）：295[10] C.东角，澳-地C. Loy和X.唐加速超分辨率卷积神经网络。欧洲计算机视觉会议，第391-407页。施普林格，2016年。[11] W. 东湖，澳-地Zhang，G.Shi和X。吴基于自适应稀疏域选择和自适应正则化的图像去模糊和超分辨率IEEE Transactions onImage Processing，20（7）：1838[12] A. Dosovitskiy和T.布洛克斯基于深度网络生成具有感知相似性度量的图像。神经信息处理系统（NIPS）进展，第658-666页，2016年[13] C. E.杜雄一维和二维的Lanczos滤波《应用气象学杂志》，第18卷，第1016-1022页。1979.[14] S. Farsiu，M. D.罗宾逊，M。Elad和P.米兰法快速和强大的多帧超分辨率。 IEEE Transactions on Image Processing ， 13（10）：1327[15] J. A.费沃达计算机图形学中的三种真实感。在电子成像中，第290国际光学与光子学学会，2003年。[16] W. T. 弗里曼，T.R. Jones和E.C. 帕斯特基于示例的超分辨率。IEEE Computer Graphics and Applications，22（2）：56[17] W. T. Freeman，E. C. Pasztor和O. T.卡迈克尔学习低级视觉。国际计算机视觉杂志，40（1）：25[18] L. A. Gatys，A. S. Ecker和M.贝丝使用卷积神经网络进行纹理合成。神经信息处理系统进展（NIPS），262-270页，2015年[19] L. A. Gatys，A.S. Ecker和M.贝丝使用卷积神经网络的图像风格传递在IEEE计算机视觉和模式识别会议（CVPR），第2414[20] D. Reinner，S. Bagon和M.伊拉尼从单一图像中获得超分辨率。IEEEInternational Conference on Computer Vision（ICCV），第349-356页[21] I. Goodfellow，J.普热-阿巴迪米尔扎湾，澳-地Xu，L.沃德法利S. 奥扎尔A.Courville和Y.本吉奥。生成性对抗网。神经信息处理系统进展（NIPS），第2672-2680页，2014年[22] K. Gregor和Y.乐存。学习稀疏编码的快速近似。第27届国际机器学习会议（ICML-10），第399-406页，2010年[23] S. Gross 和 M. 威尔伯培训和调查残留网，在线http://torch.ch/blog/2016/02/04/resnets。HTML.2016年。[24] S. Gu，W.左角，澳-地Xie，黄胸拟谷盗D.孟，X. Feng和L.张某图像超分辨率卷积稀疏编码。IEEEInternational Conferenceon Computer Vision（ICCV），第1823- 1831页2015年。[25] P. Gupta，P.斯里瓦斯塔瓦河Bhardwaj和V. Bhateja一种基于hvs的改进 psnr 彩色图像质量评价方法。IEEEInternationalConferenceonCommunicationandIndustrialApplication（ICCIA），第1-4页[26] H.他和W。C.萧基于高斯过程回归的单幅图像超分辨率。在IEEE计算机视觉和模式识别会议（CVPR）中，第449-456页[27] K. 他， X 。 Zhang ， S. Ren 和 J. Sun. 深入研究整流器：在imagenet 分类上超越人类水平的表现。 IEEEInternationalConference on Computer Vision（ICCV），第1026[28] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）中，第770-778页[29] K.他，X。Zhang，S. Ren和J. Sun.深度剩余网络中的身份映射。在欧洲计算机视觉会议（ECCV）中，第630-645页。施普林格，2016年。[30] J. B. Huang，黄背天蛾A. Singh和N.阿胡佳从变换的自我样本的单个图像超分辨率。在IEEE计算机视觉和模式识别会议（CVPR）中，第5197[31] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。第32届国际机器学习会议（ICML）论文集，第448-456页，2015年[32] J. Johnson，A. Alahi和F.李实时风格转换和超分辨率的感知损失。在欧洲计算机视觉会议中，第694-711页施普林格，2016年。[33] J. Kim，J. K. Lee和K. M.李你用于图像超分辨率的深递归卷积网络。在IEEE计算机视觉和模式识别会议（CVPR），2016年。[34] K. I. Kim和Y.权基于稀疏回归和自然图像先验的单图像超分辨率。 IEEE Transactions on Pattern Analysis and MachineIntelligence，32（6）：1127[35] D. Kingma和J. BA. Adam：

下载后可阅读完整内容，剩余1页未读，立即下载