基于自然流形判别的超分辨率图像重建方法

109 浏览量更新于2023-10-18 收藏 1.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8122基于显式自然流形判别的Jae Woong Soh Gu Yong Park Junho Jo Nam Ik Cho首尔国立大学INMC ECE系，韩国首尔{soh90815，benkay，jottue}@ ispl.snu.ac.kr，nicho@snu.ac.kr摘要近年来，许多用于单图像超分辨率（SISR）的卷积神经网络已经被提出，它们专注于根据客观失真度量重建高分辨率图像然而，用客观损失函数训练的网络通常无法重建对于更好的感知质量至关重要的逼真的精细纹理和细节恢复真实感细节仍然是一个具有挑战性的问题，只有少数工作已经提出了旨在提高视觉质量，通过生成增强的纹理。然而，生成的假细节通常会产生不期望的伪影，并且整体图像看起来有些不自然。因此，在本文中，我们提出了一种新的方法来重建具有高感知质量的真实感超分辨率图像，同时保持结果的自然性。特别地，我们着重研究了SISR问题的域先验性质。具体地说，我们在低层域定义自然度先验，并将输出图像约束在自然流形上，最终生成更自然、更真实的我们的研究结果表明，更好的自然度的一致性，最近的超分辨率算法，包括面向感知的。1. 介绍单图像超分辨率（SISR）是一个经典的图像恢复问题，其目的是从相应的低分辨率（LR）图像恢复高分辨率（HR）图像。在SISR问题中，通常假设给定的图像是HR图像的低通滤波和下采样版本。因此，恢复HR是不适定问题，因为多个HR图像可以对应于一个LR图像。也就是说，SISR是一个具有挑战性的一对多问题，吸引了研究人员找到许多有趣的解决方案和应用，因此迄今为止已经提出了许多算法。最近，卷积神经网络（CNN）具有(a) （b）EnhanceNet [29](c)[37]第37话图1：DIV2K验证集[ 34 ]中“0823”的超分辨结果（×4）图像的一部分被裁剪和缩放以进行可视化。我们的NatSR结果更自然-与其他算法的结果相比，具有更少伪影的人工神经网络在感知上是合理的在包括SISR在内的大多数计算机视觉领域都取得了巨大的成功。在典型的基于CNN的SISR方法中，考虑了面向失真的损失函数。具体地，CNN试图实现更高的峰值信噪比（PSNR），即，，在均方误差（MSE）方面的低失真。对于SISR [5，18，30，19，21，32，36，23，42，15，11]，SISR的性能不断提高，因为许多研究人员仍在创建创新的架构，也因为网络的可能深度和连接8123作品在成长。然而，它们产生的结果有些模糊，即使在非常深和复杂的网络中也无法恢复细节。这是因为面向失真的模型为了解决上述问题，还提出了面向感知的模型以获得更好的视觉质量HR图像。对于一些示例，在[16]中引入了感知损失，其被定义为特征域中的最近，SRGAN [22]和EnhanceNet [29]被提出用于产生更好的感知质量。SRGAN采用生成模型，特别是生成对抗网络（GAN）[8]，并采用感知损失。EnhanceNet增加了额外的纹理损失[7]，以实现更好的纹理重建。然而，它们有时会产生令人不快和不自然的伪影以及重建的细节。也有一些方法考虑超分辨率图像的自然度。这些方法之一是通过细化的数据集隐式地监督自然性。具体来说，由于CNN对训练数据集非常敏感，因此考虑使用改进的数据集的几种方法[23，42]例如，从训练数据集中丢弃具有低梯度幅度的补丁，这隐含地提供了更好的自然度。这种方法可以通过将可能的HR空间约束到纹理丰富的空间来提高PSNR性能。另一种方法是通过调节特征空间来提供明确的监督例如，最近被取消的SFT-GAN [37]通过在采用对抗性损失的同时用其高级语义约束特征，表现出了很好的感知质量。然而，它的实际应用是有限的，因为它需要的类别先验，而且它是有限的类别，包括在培训过程中。对于类别外输入，该框架与SRGAN [22]相同。此外，SFT-GAN强烈依赖于所采用的语义分割方法的能力，因为语义的错误指定可能会导致更差的感知质量。为了获得真实和自然的感知质量HR图像，我们提出了一种新的SISR方法，它限制了低级别域先验，而不是高级语义。为此，我们首先研究了SISR的过程和领域知识。利用领域知识，对LR图像的HR空间进行显式建模通过将输出图像约束到自然流形中，我们的生成模型可以仅针对所需目标空间中的多模态输出之一。作为一个结果，我们的方法比其他面向感知的方法显示更少的工件，如图1所示。综上所述，本文的主要贡献如下如下• 我们明确建模SISR问题，并调查理想的HR空间。• 我们设计了一个基于神经网络的自然流形判别器，并证明了我们的模型是合理的。• 我们采用了一种具有分形残差学习（FRL）的CNN结构，并展示了一种名为分形残差超分辨率（FRSR）的面向失真的模型，实现了与最近的CNN相当的结果。• 本文提出了一种面向感知的SISR方法--自然真实感超分辨率（NatSR）方法，该方法生成真实感纹理和自然细节有效地同时实现高感知质量。本文的其余部分组织如下。节中3.我们对LR-HR空间和SISR问题进行了明确的建模，并研究了它的内在性质。然后在Sec。 4、将目标HR空间划分为三个不相交的集合，其中两个集合在非自然流形上，一个集合在自然流形上。节中5，我们证明了我们的主要方法和NatSR，并在Sec. 6、从几个方面对可行性进行了探讨和分析。实验结果见Sec. 7 .第一次会议。2. 相关工作2.1. 单幅图像超分辨率传统的非CNN方法主要集中在域和特征先验上。早期的方法探索域先验来预测丢失的像素。例如，诸如双三次和Lanczos的插值方法通过相邻LR像素的加权平均来生成HR像素。后来，研究了边缘特征、梯度特征[33，31]和内部非局部相似性[14]等先验知识。此外，字典学习稀疏编码方法被用于SISR [40，6，39，35]。最近，已经表明基于CNN的方法优于早期的非CNN算法，在准确性方面取得了重大突破。这些基于CNN的方法隐式地采用了在训练数据集中记录的图像和域先验。SRCNN [5]是第一个使用三个卷积层的基于CNN的方法，之后提出了许多具有更深和更重结构的其他作品[18，30，19，32，21，36，23，42，15，11]。所有这些方法都是区别性的和面向失真的方法，其目的是实现更高的PSNR。2.2. 面向感知的超分辨率扭曲导向模型的问题最近引起了研究人员的注意，8124LRF(a) HRF(b) LRF(c) 模糊HRF(d) 噪音HR图3：我们提出的天然流形的LR-HR模型及其对SISR的判别。U是图像空间，V是可能的HR空间，并且A、B和N是三个离散空间。图2：频域中LR-HR关系和SISR的简单说明。通常缺乏高频细节并且在感觉上不令人满意。此外，Blauet al. [4]提出了感知质量和失真之间的折衷关系，并据此提出了一些面向感知的模型。例如，Johnsonetal.[16]已经表明，像素域中的损失对于感知质量不是最佳的，相反，特征空间中的损失可能更接近人类感知模型。然后，Ledig等人。[22]引入了SRGAN，它采用了GAN的生成模型[8]，并采用了[16]中的感知损失。因此，与产生可能的HR图像的平均值的面向失真的方法不同，SRGAN在多模态目标HR空间中生成候选者之一。EnhanceNet [29]更进一步，利用纹理损失[7]更好地生成图像细节。然而，由于一对多反问题的固有属性，它是需要考虑的语义生成的像素。在这方面，SFT-GAN [37]通过调节目标像素的语义类别来限制特征空间3. 模拟SISR联合组V。α和σ控制流形之间的边界。具有相同的低频分量但不同的高频部分（在图2d中未注明的噪声）的无限数量的可能HR由于SISR是为给定的LR找到HR，因此它通常被建模为找到条件，概率似然p（IHR|I LR）。由于其一对多的特性，最好将其建模为生成模型，而不是歧视性的一个。4. 自然流形判别4.1. 设计自然流形现在我们进入真实的情形来寻找自然流形。图3显示了我们的LR-HR图像空间建模，其中U：[0，1]H×W×C是具有高度H、宽度W和通道C以及归一化像素值的整体图像集对于某个ILR，V是其元素通过低通滤波和下采样全部导致相同ILR相反，LR图像通过任何SR方法映射到V中的元素我们也可以解释为早期的CNN和我们的LR-HR模型。对于面向失真的模型，输出是HR空间，i。e. ，wiIHRi其中IHRi V，对于某些在本节中，我们明确定义和建模LR- HR空间和SISR问题。首先，让我们将LR图像ILR定义为低通滤波和下采样的HR图像IHR。形式上，LR-HR关系被描述为ILR=h（IHR）↓，（1）其中h（·）表示低通滤波器，并且表示低通采样。图2a和图2b显示了频率范围内HR和LR对应关系的简单解释。这里我们假设空间域是无限的。图2c和图2d两者都是用于核心的可能的HR。i和权重wi，因此结果是模糊的。敬阿列维-针对这个问题，一些方法[23，42]改进了训练集。具体地说，他们丢弃了具有低梯度幅度的训练块，这对候选IHRi为了模拟自然流形，我们将V分成三个不相交的集合，如图3所示。第一个是模糊集合A，其元素被建模为插值LR和原始HR的凸组合。具体地，集合A被定义为：在图2b中响应LR，并且此外，可以存在A={IA|IA=（1−α）h（I↑）+αIHR}，（2）U： 0、1��×��×��V：HR空间LRGT太吵B自然太模糊一8125LRLRLRLR其中h（·）是与等式中相同的低通滤波器。（1），并且↑去注释在原始值之间具有零插入的上采样。0.2#10-320在ue 因此，h（I↑）对应于图2c，图2c还150.110是指ILR到IHR大小的插值。还有，05-0.10α∈[0，1]是一个超参数，它决定了A和N之间的边界，即，在0-528 04650410015062图2c和图2a。我们可以很容易地证明，0100501500也是V的元素，即，A.具体来说，如果我们应用低通滤波和下采样，对于IA，它变成LR如下：（a）8×8DCT。（b）128×128DCT。h（IA）↓（3）图4：双三次上/下采样的DCT系数缩放因子为×4的内核。=h（（1−α）h（I↑=h（（1−α）h（I↑）+αIHR）↓（4）））↓+h（αIHR）↓（5）k3n64s1k2s2k3n128s1K2S2k3n256s1K2S2k3n512s1K2S2k3n1s1=（1−α）h（I↑）↓+αh（IHR）↓（6）=（1 −α）ILR+αILR（7）I LR.（八）从EQ。（1），证明了IA∈V.换句话说，图2c和图2a的加权和当然在V中。要考虑的第二组是噪声组B，其包含如图2d的图像。具体来说，我们可以将集合建模为：B={IB|IB=IHR+n}（9）其中n是高频噪声，标准差为σ。我们还可以看到，BV，因为h（IB）↓（10）=h（IHR+n）↓（11）=h（IHR）↓+h（n）↓（12）=h（IHR）↓（13）I LR.（十四）此外，IB可以被解释为IHR和IHR+n0的凸组合（图2a和图2d的加权和），因为（1−β）IHR+β（IHR+n0）（15）=IHR−βIHR+βIHR+βn0（16）=I HR+ βn0。（十七）其中n=βn0。模糊IA和噪声IB用于训练我们的自然流形，这将在下一小节中解释。在实践中，我们使用2D离散余弦变换（DCT）在频域我们在等式中设置用于上/下采样的低通滤波器。（1）和eq.（2）作为双三次滤波器，其DCT如图4所示。为了生成大范围的噪声图像，我们将噪声注入到最后一列和最后一行。在实验中，为了简洁起见，我们使用了8 ×8的二维离散余弦变换。ConvConvConvMaxpoolConvConvMaxpoolConvMaxpoolConvConvConvMaxpool全局平均池化乙状8126图5：我们的NMD网络架构。4.2. 自然流形判别器为了将目标空间缩小到自然流形，我们设计了一个将自然图像（如图3所示属于N的元素）与模糊/嘈杂的图像（A或B）区分开来的边界。为此，我们设计了一个基于CNN的分类器，它区分N（自然流形）和一个非自然流形（NRB），它将被称为自然流形（NMD）。执行所述训练其中sigmoid二进制交叉熵损失函数被定义为- Ex∈A<$B[log（1−DNM（x））] −Ex∈N[log（DNM（x））]，（十八）其中DNM（·）表示NMD的输出S形值。对于期望，我们使用训练数据集的经验平均值我们的国家导弹防御系统的网络结构，图5是一个简单的VGG风格的CNN。在我们的例子中，没有使用最后一级的全连接层.相反，使用一个卷积层和全局平均池化。对于训练，我们从α=0开始。5，σ=0。1.一、我们根据10个验证精度（AVA）的平均值更新两个超参数。当它达到95%以上时，我们按照以下规则更新α和σ如果α≥ 0的AVA。95然后（19）α←α +0。1（20）如果σ的AVA ≥ 0。第95话（21）σ←0. 8× σ。（二十二）我们停止训练，最终的α和σ等于0。8和0的情况。0044分别81275. 自然逼真的超分辨率在本节中，我们解释了所提出的自然和现实的超分辨率（NatSR）生成器模型和训练损失函数。5.1. 网络架构我们的NatSR的整体架构如图6所示，它将ILR作为输入并生成SR输出。如图所示，我们的网络是基于残差学习的，它长期以来一直被用作缓解深度网络中退化问题的基本技能。通常，使用两种类型的剩余学习：局部残差学习（LRL）在局部范围内将输入旁路到输出[12]，全局残差学习（GRL）在网络的全局范围内提供输入和输出之间的跳跃连接[18]。对于mer方法[18，10]已经表明，学习稀疏特征比直接学习像素域值有效得多。因此，最近的模型采用局部残差学习（短路径）和全局残差学习（长路径）[22，23，42]。5.2.2自然度损失我们基于我们预先训练的自然流形（NMD）设计自然度损失。为了将目标流形集中在自然流形内，NMD的输出应该接近1。我们可以使用损失作为sigmoid输出的负数，但我们使用它的对数尺度来提升梯度：LNatural=E[−log（D NM（I SR））]（24）其中DNM（·）表示NMD的输出S形值。5.2.3对抗性损失众所周知，GAN很难训练且不稳定，因此GAN有很多变体[43，2，9，25，17]。最近，已经提出了具有相对论性熵的GAN[17]，其在根据Fre'chet起始距离[13]生成fake图像方面显示出与标准GAN[8]因此，我们使用RaGAN进行对抗训练，其描述为：受前人研究的启发，我们采用了图6所示的连接方案，命名为分形残差学习-LG=−ExrPr[log（D（xr））]−Exf Pg [log（1−D（xf））]ing（FRL）结构，因为连接具有分形图案。此外，作为NatSR的基本构建块，我们采用了图7所示的残差密集块（RDBlock）[42]，并在RDBlock中采用残差缩放[23]。通过使用FRL和RDBlock，可以使用从短路径到作为GAN的一个分支，我们采用了与NMD类似的网络架构而不是只使用卷积层，我们采用频谱归一化[28]来使dis-covered。（二十五）LD=−Exf<$Pg[log（D<$（xf））]−Exr<$Pr[log（1−D<$（xr））]，（二十六）其中，Pr和Pg分别是HR和SR的分布，xr和xf分别表示真实数据和假数据，D（xr）=sigmoid（C（xr）−Exf<$Pg[C（xf）]）（27）D（xf）=sigmoid（C（xf）−ExP[C（xr）]）（28）满足Lipschitz条件。此外，我们使用strided卷积而不是最大池化层。补充材料中提供了具体的结构细节。5.2. 训练损失函数5.2.1重构损失要对p（I HR ）进行建模，|ILR），我们采用逐像素重建损失，特别是地面实况和超分辨率图像之间的平均绝对误差（MAE）：LRecon=E[||I HR− I SR||第1段]、（23）段其中ISR表示超分辨输出。尽管所有面向感知的模型都应用感知损失，但我们不采用这样的损失，因为在我们的实验中发现感知损失会导致不期望的伪影为了增强高频细节，我们转而使用NMD作为解决方案。Rr8128其中C（·）表示判别式的输出logit。在我们的例子中，RaGAN的动机是测量图像比生成的SR图像平均。5.2.4整体亏损训练我们的NatSR的总损失项定义为上面定义的损失项的加权和：L=λ1L Recon +λ2L Natural + λ3LG。（二十九）作为我们的基线，我们训练面向失真的模型，其中λ2=λ3=0，这意味着总损失只是重建损失LRecon。我们将我们的基线模型命名为分形残差超分辨率网络（FRSR）。对于我们面向感知的NatSR，我们使用上面的全损失，λ1= 1，λ2= 10−3和λ3= 10−3。8129图6：我们的NatSR网络架构。我们采用分形残差学习的中，长路径的跳跃连接，并采用剩余密集块（RDBlock）的短路径连接。图7：我们为NatSR采用的残差密集块（RDBlock）6. 讨论及分析6.1. 建议鉴别器为了证明我们的NMD的意义和有效性，我们测试了面向感知的方法（如SRGAN变体[22]，EnhanceNet，NatSR）以及面向失真的方法（包括我们的FRSR）的NMD得分。表1显示了BSD 100 [26]上的结果，其中NMD被设计为当输入图像接近自然原始图像时输出分数1，并且当输入模糊或有噪声时输出较低的分数。我们可以看到，以前的感知导向方法得分在0到1之间，这意味着它们位于我们的LR-HR模型中自然和非自然流形的边界附近。此外，原始HR得分为1，双三次插值得分为0，这意味着我们的NMD以高置信度区分HR和LR。此外，SRResNet，EDSR和我们的FRSR，这是扭曲导向的，得分几乎为0。我们可以解释的结果是，面向失真的方法产生的图像也位于模糊流形上。另一方面，我们的NatSR结果的分数接近1，这是远远高于其他面向感知的算法。总之，我们认为我们的自然流形模型和NMD是合理的，NMD也是有效的表1：NMD评分结果。区分自然和非自然的多样性。6.2. 超分辨率图像当我们通过在我们的LR-HR空间模型中解释输入和输出图像来接近SISR时，我们根据我们的模型分析了各种方法的超分辨图像超分辨图像必须位于图3中的集合V上，这意味着超分辨图像的下采样必须在LR空间中，即，它必须与输入LR图像相似，I LRh（I SR）↓.（三十）为了进行分析，我们在表2中显示了h（ISR）↓和ILR 之间的RGB-PSNR ，并在Set 5 [3] 上进行了测试。结果按SRGAN、EnhanceNet和我们的NatSR的升序排列。尽管我们没有对LR空间给出任何约束，但我们的NatSR结果主要依赖于可行集V。另一方面，SRGAN结果为约36dB，这意味着SRGAN几乎没有反映LR-HR属性。��×��×��×��…��×��Conv子像素子像素ConvConvConvReLUConvRDBlockReLURDBlockConvRDBlockReLURDBlockConvRDBlockRDBlockRDBlockRDBlock方法NMD评分HR1 .一、000±0。001双三0的情况。000 ±0。000SRResNet0的情况。032 ±0. 009EDSR0的情况。043 ±0. 012FRSR（我们的）0的情况。044 ±0. 011SRGAN-MSE0的情况。755 ±0。0638130HRSRGANNatSRENetEDSR双三SRGANENetHRNatSREDSR双三表2：LR域中LR输入与下采样SR图像之间的RGB-PSNR的结果。0 2 4 6 810按升序排列的(a) 按升序排列的NIQE。0 2 4 6 8 10NQSR降序排列(b) 按降序排列的国家质量报告。7. 实验结果7.1. 实现细节我们使用最近发布的DIV2K [34]数据集训练NMD和NatSR（包括FRSR），该数据集由高质量（2K分辨率）800张训练图像，100张验证图像和100张测试图像组成。输入的大小LR补丁设置为48 × 48，我们只使用缩放因子× 4进行训练。ADAM优化器[20]用于训练，初始学习率为2×10- 4，并在训练期间减半一次。我们用张量实现代码-flow [1].对于测试，我们使用著名的SISR基准来评估我们的模型：Set5 [3]、Set14 [41]、BSD 100 [26]和Urban100 [14].7.2. 评价方法和比较对于面向失真的模型的评估，使用流行的FR-IQA（全参考图像质量评估），PSNR和SSIM（结构相似性）[38但是，由于这些措施不适合测量感知模型的质量，我们使用最近提出的NR-IQA（无参考图像质量评估）之一，称为NQSR [24]，其用于SISR，并为Ma等人所熟知。s score.此外，另一种NR-IQA，NIQE [27]用于测量图像的自然度。NQSR越高，NIQE越低，知觉质量越好然而，NR-IQA方法的如此多的变体是否完美地反映了人类的感知质量是值得怀疑的。因此，我们需要使用NR-IQA结果仅作粗略参考。我们将我们的FRSR与其他面向失真的方法（如LapSRN，SRDenseNet，DSRN和EDSR [21，36，11，23]）进行比较，并将我们的NatSR与其他面向感知的方法（如SRGAN，ENet和SFT-GAN [22，29，37]）进行比较（我们将SRGAN-VGG 54表示为SRGAN和EnhanceNet-PAT简称为ENet7.3. FR IQA结果在本小节中，我们讨论面向畸变的方法及其结果。表3中列出了总体平均PSNR/SSIM结果，这表明我们的FRSR与其他FRSR相比显示出相当或更好的结果。EDSR [23]显示了最好的结果，然而，图8：排序后的NR-IQA结果（左图：[27]右：NQSR[24]）。最好的在顶部，最差的在底部。我们的NatSR结果用较深的颜色突出显示。考虑到表3最后一行中所示的参数数量，我们的FRSR也是一种胜任的方法。作为子实验，我们还评估了FR-IQA结果的面向感知的方法。当然，其结果比面向失真的算法更差，有时甚至比双三次插值图像更差。然而，我们的比SRGAN和EnhanceNet在像素域上更接近原始图像。7.4. NR IQA结果我们使用NR-IQAs评估了方法，结果总结见图8，其中显示了使用BSD 100检测的平均NIQE和NQSR 可以观察到，我们的NatSR不是最好的，但产生了与其他面向感知的方法和原始HR相当的度量。正如预期的那样，最先进的面向失真的方法之一，EDSR得分最差的两个指标，除了双三次插值。对于NIQE，除了地面真实HR，SRGAN得分最好。我们的NatSR在这个指标上得分第二高。对于NQSR，SRGAN得分最好的所有方法，包括人力资源。我们的NatSR排名低于SRGAN和ENet，但包括HR在内的所有方法的得分虽然NatSR在这两个分数上都不是最好的，但我们相信NatSR通过NMD成本抑制噪声和模糊输出，对人类视觉感知显示出相当一致的结果，如图1和图98. 主观评估8.1. 平均意见评分（MOS）为了更好地评估几个结果的感知质量，我们使用DIV2K验证集进行了平均意见评分（MOS ）测试[34]。为了与最近的面向感知的方法进行公平比较，SFT-GAN [37]使用适当的语义分割掩码进行评估，以产生最佳性能。详情见补充材料。3.183.333.804.466.217.57方法RGB-PSNR（dB）SRGAN三十六16ENet-PAT41岁65NatSR四十五948.778.768.748.553.895.968131数据集规模双三LapSRNSRDenseNetDSRNEDSRFRSRSRGANeNetNatSRSet5428.42/0.810431.54/0.885032.02/0.893431.40/0.883032.46/0.897632.20/0.893929.41/0.834528.56/0.809330.98/0.8606产品14426.00/0.702728.19/0.772028.50/0.778228.07/0.770028.71/0.785728.54/0.780826.02/0.693425.67/0.675727.42/0.7329BSD100425.96/0.667527.32/0.728027.53/0.733727.25/0.724027.72/0.741427.60/0.736625.18/0.640124.93/0.625926.44/0.6827Urban100423.14/0.657725.21/0.756026.05/0.781925.08/0.747026.64/0.802926.21/0.7904-23.54/0.692625.46/0.7602参数4-0.8米2.0 M1.2米43 M4.8米1.5米0.8米4.8米表3：FR-IQA结果。基准测试的平均PSNR/SSIM值。红色表示最好的结果，蓝色表示第二好。HR双三次EDSRFRSR（Ours）ENet NatSR（Ours）图9：Urban100的“img031”可视化结果8.2. 视觉比较我们在图1，9中可视化了一些结果。如图1所示，与其他面向感知的方法相比，我们的NatSR显示出最小的失真。此外，图9显示了面向失真的方法显示模糊的结果，而面向感知的方法显示更好的图像细节。然而，ENet产生不自然的卡通场景，而SFT-GAN无法在建筑物中产生自然的细节.更多的结果可以在补充材料中找到。9. 结论在本文中，我们提出了一种新的方法SISR幻觉自然和现实的纹理。首先，我们从LR-HR空间和SISR过程的建模开始。从这项工作中，我们开发了一个基于CNN的自然流形，它能够缩小目标空间到自然流形。我们也有亲-提出了基于残差密集块和分形残差学习的SR发生器。损失函数的设计使得我们的网络既可以作为面向失真的模型，也可以作为面向感知的模型。从实验中，它表明，我们的失真导向网络（FRSR）显示出相当大的增益相比，具有类似的参数的模型。此外，我们的感知导向网络（NatSR）与其他网络相比，显示了感知上合理的结果。我们期望通过更深更重的网络来生成更好的超分辨率图像，并使用更好的分类器NMD，我们的方法将带来更自然和真实的细节。这些代码可在https://github.com/JWSoh/NatSR上公开获得。致谢这研究是在经济上，由贸易、工业和能源（ MOTIE ），韩国，根据韩国技术促进研究所（KIAT）监督的8132引用[1] M. 阿巴迪山口Barham，J.Chen，Z.Chen，中国山核桃A.Davis，J.迪恩M. Devin，S.盖马瓦特湾Irving，M. Isard等人张量流：一个大规模机器学习系统。在OSDI，第16卷，第265-283页，2016中。7[2] M. Arjovsky，S. Chintala和L.博图Wasserstein生成对抗网络。在国际机器学习会议上，第214-223页5[3] M. Bevilacqua、A.鲁米角Guillemot和M. L.阿尔贝里-莫雷尔。基于非负邻域嵌入的低复杂度单幅图像超分辨率在BMVC，2012年。六、七[4] Y. Blau和T. Michaeli感知失真的权衡。在Proc. 2018IEEE/CVF计算机视觉和模式识别会议上，美国犹他州盐湖城，第6228-6237页，2018年。3[5] C.东角，澳-地C. Loy，K.他，还有X。唐学习用于图像超分辨率的深度卷积网络。在欧洲计算机视觉会议上。Springer，2014. 一、二[6] X. Gao，K.Zhang，L.Tao和X.李基于稀疏邻域嵌入的图像IEEE图像处理，21（7）：3194-3205，2012. 2[7] L. Gatys，A. S. Ecker和M.贝丝使用卷积神经网络进行纹理合成。神经信息处理系统的进展，第262-270页，2015年。二、三[8] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在神经信息处理系统的进展，第2672-2680页，2014年。二三五[9] I. Gulrajani， F. 艾哈迈德， M 。阿尔约夫斯基河谷Dumoulin，以及A. C.考维尔改进的瓦瑟斯坦甘斯训练。神经信息处理系统进展，第5767-5777页，2017年。5[10] T. Guo，H. S. Mousavi，T. H. Vu和V. Monga。用于图像超分辨率的深度小波预测。在IEEE计算机视觉和模式识别会议（CVPR）研讨会上，2017年。5[11] W.汉，S.张氏D. Liu，M. Yu，M. Witbrock和T. S.煌通过双态递归网络实现图像超分辨率。在IEEE计算机视觉和模式识别会议论文集，2018年。一、二、七[12] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 770-778，2016中。5[13] M. Heusel，H. Ramsauer，T.翁特希纳湾Nessler和S. Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展，第6626-6637页，2017年。5[14] J. - B. Huang，黄背天蛾A. Singh和N.阿胡佳从转换的自我样本的单一图像超分辨率。IEEE计算机视觉和模式识别会议论文集，第5197-5206页，2015年。二、七[15] Z. Hui，X. Wang和X.高.通过信息蒸馏网络实现快速准确的单幅图像超分辨率。在IEEE计算机视觉和模式识别会议论文集，第723-731页，2018年。一、二[16] J. Johnson，A. Alahi和L.飞飞实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694-711页。施普林格，2016年。二、三[17] A.乔利库-马蒂诺相对论鉴别器：标准GAN中缺少的关键元素。arXiv预印本arXiv：1807.00734，2018. 5[18] J. 金，J.Kwon Lee和K.李慕使用非常深的卷积网络实现精确的图像在2016年IEEE计算机视觉和模式识别会议的Proceedings，第1646-1654页。一、二、五[19] J. 金，J.Kwon Lee和K.李慕用于图像超分辨率的深度递归在 Proceedings of the IEEE conference on computervision and pattern recognition ，第 1637-1645 页， 2016年。一、二[20] D. P. Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。7[21] W.- S.赖，J. - B. Huang，N. Ahuja和M. H.杨深层拉普拉斯金字塔网络快速和准确的超分辨率。在IEEE计算机视觉和模式识别会议论文集，2017年。一、二、七[22] C. 莱迪格湖Theis，F.Husza'r，J.Caballero，A.坎宁安A.阿科斯塔A. P. Aitken，A. Tejani，J. Totz，Z. wang等人使用生成对抗网络的照片级真实感单幅图像超分辨率。在IEEE计算机视觉和模式识别会议论文集，2017年。二三五六七[23] B.林，S。儿子，H。Kim，S.不还有K M.李你用于单图像超分辨率的增强深度残差网络。在IEEE计算机视觉和模式识别会议上，2017年。一二三五七[24] C.妈，C- Y. Yang，X.杨和M.- H.杨学习一个无参考的质量度量单图像超分辨率。计算机视觉和图像理解，158：1-16，2017。7[25] X.茅角，澳-地Li，H.谢河，巴西-地Y. Lau，Z. Wang和S.史莫利。最小二乘生成对抗网络。在Computer Vision（ICCV），2017 IEEE国际会议上，第2813-2821页。IEEE，2017年。5[26] D.马丁角，澳-地Fowlkes，D.塔尔和J·马利克人类分割自然图像数据库及其在评价分割算法和测量生态统计中的应用计算机视觉，2001年。ICCV 2001年。程序。第八届IEEE国际会议，第2卷，第416-423页。IEEE，2001年。六、七[27] A.米塔尔河Soundararajan和A. C.波维克制作“全盲”图像质量分析仪。IEEE信号处理Lett. ，20（3）：209-212，2013. 7[28] T.宫城，T.卡塔奥卡，M。Koyama和Y.吉田生成对抗网络的频谱归一化 arXiv 预印本 arXiv ： 1802.05957 ，2018。5[29] M. S. 萨贾迪湾 Schoül k opf和M. 赫希Enhancenet：通过自动纹理合成实现单幅图像超分辨率。在计算机视觉（ICCV），2017 IEEE国际会议上，第4501-4510页。IEEE，2017年。一、二、三、七[30]W. Shi，J. 卡瓦列罗角 Hus za'r，J. Totz，A. P. Aitk enR. Bishop，D. Rueckert和Z. 王. 实时单8133图像和视频超分辨率使用一个有效的子像素卷积神经网络。在IEEE计算机视觉和模式识别会议论文集，第1874-1883页，2016年。一、二[31] J.孙，Z. Xu和H.- Y.沈基于梯度轮廓先验的图像超分辨率。计算机视觉和模式识别，2008年。CVPR 2008。IEEE会议，第1-8页。IEEE，2008年。2[32] Y. Tai，J.Yang和X.刘某通过深度递归残差网络实现图像超分辨率在IEEE计算机视觉和模式识别会议集，2017年。一、二[33] Y.-- W. 泰山，西-地Liu，M.S. Brown和S.是林书利用边缘先验和单幅图像细节合成的超在计算机视觉和模式识别（CVPR），2010 IEEE会议，第2400-2407页中。IEEE，2010。2[34] R. 很好， E. 阿古斯特松， L. 范古尔 M.- H. 小杨，L.张湾，澳-地林，S。儿子，H。Kim，S.不K M. Lee等人 Ntire 2017挑战单幅图像超分辨率：方法和结果。在计算机视觉和模式识别研讨会（CVPRW），2017年IEEE会议上，第1110-1121页IEEE，2017年。1、7[35] R. Timofte，V. De Smet，and L.范古尔A+：用于快速超分辨率的调整的锚定邻域回归。亚洲计算机视觉会议，第111Springer，2014. 2[36] T.通，G. Li，X. Liu和Q.高.使用密集跳跃连接的图像超分辨率。2017年IEEE计算机视觉国际会议。IEEE，2017年。一、二、七[37] X. Wang，K.Yu，C.Dong和C.C. 洛伊利用深空间特征变换恢复在IEEE计算机视觉和模式识别会议论文集，2018年。一、二、三、七[38] Z. Wang，中国山核桃A. C. Bovik，H. R. Sheikh和E.西蒙·切利。图像质量评估：从错误可见性到结构相似性。IEEE图像处理学报，13（4）：600-612，2004年。7[39] J. Yang，Z. Wang， Z. Lin，S. Cohen和T.煌用于图像超分辨率的耦合字典训练。IEEE transactions on imageprocessing，21（8）：3467-3478，20

下载后可阅读完整内容，剩余1页未读，立即下载