基于特征鉴别的单图像超分辨率，SRFeat方法的研究总结

159 浏览量更新于2023-10-14 收藏 1.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

SRFeat：具有特征鉴别的单幅图像Seong-Jin Park1，Hyeongseok Son1，Sunghyun Cho2，Ki-SangHong1，Seungyong Lee11 2POSTECH DGIST{windray，sonhs，hongks，leesy}@scho@dgist.ac.kr postech.ac.kr抽象。生成对抗网络（GAN）最近被用于单图像超分辨率（SISR），并显示出令人印象深刻的结果，具有逼真的合成高频纹理。然而，这种基于GAN的方法的结果往往包括与输入图像无关的不太有意义的高频噪声。在本文中，我们提出了一种新的基于GAN的SISR方法，该方法克服了这一限制，并通过附加一个在特征域中工作的额外鉴别器来产生更真实的结果我们的额外的discrim- inator鼓励生成器产生结构性的高频特征，而不是嘈杂的文物，因为它区分合成和真实图像的功能。我们还设计了一个新的发电机，利用远程跳过连接，使遥远的层之间的信息可以更有效地传输实验表明，我们的方法实现了国家的最先进的性能在PSNR和感知质量相比，最近的基于GAN的方法。关键词：超分辨率，对抗网络，高频特征，感知质量1介绍单图像超分辨率（SISR）是从一幅低分辨率（LR）图像恢复原始高分辨率（HR）图像成功的超分辨率（SR）具有很大的价值，因为它可以有效地用于各种应用，例如监视成像、医学成像和超高清内容生成。然而，SISR仍然是一个具有挑战性的问题，尽管广泛的研究了几十年，因为它固有的不适定性，即，对于给定的LR图像，存在可以被下采样为同一LR图像的大量HR图像大多数现有的SISR方法试图最小化超分辨率图像和目标图像之间的逐像素均方误差（MSE）最小化逐像素误差固有地最大化峰值信噪比（PSNR），其通常用于比较不同的方法。然而，众所周知的是，测量逐像素差异几乎不能捕获图像之间的感知差异[49，48，17]，因此较高的PSNR不一定导致每像素差异。Park等人2Fig. 1.我们的SR结果使用GAN训练的网络的最终结果（右）比仅使用MSE训练的网络（左）获得的结果在感知上更加真实更好的形象。相反，它更喜欢没有高频细节的模糊结果，因为误差的最小化回归到可能解决方案的平均值最近，Goodfellow等人。[14]介绍了一种称为生成对抗网络（GAN）的新框架，它由两个相互竞争的神经网络组成：产生器和鉴别器。生成器试图通过生成真实图像来欺骗鉴别器，而鉴别器试图将生成的假图像与真实图像区分开。这两个网络的联合训练产生了一个能够产生非常逼真的假图像的生成器。由于其在图像生成中的有效性，GAN已被广泛应用于各种任务，例如图像合成，风格转移，图像修复，和目标检测[37，55，20，25，23，19，30，28]。最近，GAN也被应用到SISR，以克服上述限制，并产生具有合成高频细节的超分辨图像。 Ledig等人提出了SRGAN [27]，其采用具有数据项的对抗性损失项来获得视觉上令人愉悦的结果，而不是最大化PSNR。Sajjadi等人提出了EnhanceNet [40]，它也基于GAN。EnhanceNet还采用了Gatys等人 [13]启发的纹理匹配损失，以鼓励超分辨率结果具有与地面真实HR图像相同的纹理。虽然基于GAN的SISR方法在感知质量方面比以前的方法显示出显着的改进，但它们通常倾向于在超分辨率图像中产生不太有意义的高频噪声我们认为，这是因为超分辨率图像和真实HR图像之间最主要的差异是高频信息，其中通过最小化像素误差获得的超分辨率图像缺乏高频细节。鉴别器区分超分辨图像与真实HR图像的最简单方式可以是简单地检查给定图像中高频分量的存在，并且生成器欺骗鉴别器的最简单方式将是将任意高频噪声放入结果图像中。在本文中，我们提出了一种新的基于GAN的SISR方法，可以产生令人愉悦的图像（图1）。①的人。为了克服以前基于GAN的SISR方法的局限性并产生更真实的结果，我们的方法采用了两个鉴别器：图像鉴别器和特征鉴别器。SRFeat：具有特征鉴别的单幅图像超分辨率3不同于以往的方法。图像鉴别器将像素域中的图像另一方面，特征鉴别器将图像馈送到VGG网络中并提取中间特征图。然后，特征映射器尝试基于所提取的特征图将超分辨率图像与真实HR图像区分开由于特征图对结构信息进行编码，因此特征鉴别器不仅基于高频分量而且基于结构分量来区分超分辨率图像和真实HR图像。最终，我们的generator被训练成合成现实的结构特征，而不是任意的高频噪声。为了实现高质量的SR，我们还提出了一种新的发电机网络与远程跳跃连接。跳过连接在[18]中首次引入，以实现神经网络层之间的信息有效传播，并且已被证明在训练非常深度的网络中是有效的我们进一步扩展了跳过连接的思想，并将远程跳过连接引入到我们的生成器网络中，以便可以更有效地传播远程层中的信息我们的新型网络架构使我们的生成器能够在没有鉴别器的情况下单独训练时实现最先进的PSNR，以及在使用我们的鉴别器训练时获得令人愉悦的结果。我们的贡献可归纳如下。– 我们提出了一个新的SISR框架，采用两种不同的鉴别器：工作在图像域的图像鉴别器和工作在特征域的特征鉴别器。由于我们的特征鉴别器，我们的生成器网络可以产生感知上逼真的SR结果。据我们所知，这是首次尝试将GAN应用于SISR的特征域。– 我们提出了一种新的发生器与长程跳跃连接的SISR。我们的发电机实现了国家的最先进的性能在PSNR相比，现有的方法具有相同数量的参数。2相关工作SISR在计算机视觉和图像处理中得到了广泛的研究。早期的方法是基于简单的插值，如双三次插值和Lanczos插值[11]。虽然基于插值的方法有效地执行，但它们不能恢复精细的纹理和结构，从而产生过度平滑的图像。为了克服这一限制，并增强边缘，提出了边缘保持插值[3，29]和基于边缘先验的方法[4，8，43]然而，由于自然图像的复杂性，建模的全局先验是不足以处理各种自然图像的精细结构。为了更有效地恢复高频细节，已经提出了许多利用外部信息的方法。Freeman等人。 [12]提出从一组训练图像中收集LR和HR补丁对，并直接用收集的HR补丁替换输入LR图像中的补丁。进一步提高质量，已经提出了沿着这条线的几种其他方法，例如Park等人4邻域嵌入[7，45，46，36]、稀疏编码[52，54，51，16]和局部映射函数回归[15，50，38]。所有这些方法从一组训练图像中收集LR和HR块对，并在低维空间中学习LR和HR块之间的映射函数。虽然这些方法示出了实质性的质量改进，但是由于其用于LR和HR图像的能力较低的映射模型，深度学习的最新进展使得能够学习从LR图像到HR图像的更强大的映射函数。Dong等人 [10，9]培训使用LR和HR图像块对的具有三层的浅卷积神经网络（CNN），并且显示出与当代最先进的方法相当的性能。为了进一步提高准确度以及速度和存储器效率，自2009年以来已经提出了许多CNN模型。[24，31，47，41，6，44]。具体地，Kim et al. [24]提出了具有一个长跳跃连接的非常深的神经网络，并表明更深的网络可以实现更好的准确性。Shi等人。 [41]提出了一个子像素卷积层，它将LR空间的特征映射聚合到HR空间。它们的子像素卷积层使得可以直接将LR图像馈送到网络中，而不是双三次上采样LR图像，从而减少内存使用和处理时间。由于CNN的建模能力，这些方法在PSNR方面实现了高性能。然而，它们仍然无法恢复高频信息，因为它们依赖于最小化MSE损失，这导致图像模糊，因为最小化回归到平均解。最近，已经提出了一些方法来克服MSE损失的限制，并产生感知上更令人满意的结果。 Johnson等人[22]提出了一个感知损失的启发内容损失[13]。感知损失测量从诸如VGG网络的图像识别网络提取的两个图像的特征图之间的差异[42]。他们表明，最小化感知损失导致低PSNR，但感知上更令人愉快的结果。然而，他们的方法不能恢复输入图像中GAN最近也被用于SISR [27，40]，以在超分辨率图像中合成令人愉悦的高频细节Ledig等人。 [27]除了感知损失之外，还引入了对抗性损失。是一个jjadietal. [40]这是一个很好的例子。在[13]中的样式损失启发下，通过在高精度损失下进行纹理重建来实现超分辨率图像，以便鼓励超分辨率图像具有与地面实况HR图像相同的纹理样式。虽然这些方法无法恢复输入图像中完全丢失的高频细节，但它们会合成高频细节，以便结果看起来令人愉悦。然而，它们往往会产生任意的高频伪影，如第2节所述1.一、此外，这些基于GAN的SR方法采用感知损失，使VGG特征的MSE最小化。类似于像素上的MSE，简单地最小化VGG特征的MSE将不足以完全表示特征图的实际特性。为了弥补这一点，我们采用了一个功能鉴别器，以更好地回归到一个真正的分布特征，并产生感知更愉快的高频细节。SRFeat：具有特征鉴别的单幅图像超分辨率53具有特征鉴别的我们的目标是从给定的LR图像11生成HR图像1g，其看起来尽可能地与原始HR图像 1h相似，并且同时在感知上令人愉悦。大小为W′×H′×C的LR图像II可以通过对大小为W×H×C的HR图像Ih应用各种下采样操作来获得，其中W=sW′，H=sH′，并且s是缩放因子。在本文中，我们仅假设双三次下采样而不失一般性，即，我们假设I1是通过利用双三次插值进行下采样而获得的。为了从Il中恢复Ih，我们设计了一种新的基于深度CNN（DCNN）的生成器，该生成器利用多个远程跳过连接。网络从Il生成HR图像Ig，其中Ig具有与Ih相同的维度。首先训练网络以减少Ig与Ih之间的逐像素差异。逐像素损失在PSNR方面很好地再现Ih，但通常导致模糊且视觉上不令人满意的图像Ig。为了提高Ig的视觉质量，我们采用了感知损失，并提出了额外的基于GAN的损失函数。这些损失使网络能够通过近似自然HR图像及其特征图的分布来生成视觉上更逼真的图像在下面的小节中，我们首先描述我们的生成器的体系结构。然后，我们详细解释训练损失函数。3.1架构我们设计了一个DCNN生成器，如图2所示。2.该网络由残差块[18]和多个远程跳过连接组成。具体来说，网络以Il作为输入，首先应用9×9卷积层来提取低级特征。然后，该网络采用与以前的工作类似的多个残差块[27，40]来学习具有更多非线性和更大感受野的更高级别特征残差块成功地应用于各种最近的架构[18，32，35]，因为已经很好地证明残差块能够实现有效的训练过程。每个块都有一个短程跳跃连接作为身份映射，它保留了来自前一层的信号，并让网络只学习残差，同时允许通过跳跃连接路径反向传播梯度。受SRResNet [27]的启发，我们的残差块由多个连续层组成：3× 3卷积，batchnorm，leakyReLU [33]，3× 3卷积和batchnorm层。我们在实验中使用16个残差块来提取深度特征。所有残差块被应用于LR空间维度的特征，以用于高效的存储器使用和快速推断。我们的生成器网络中除了子像素卷积层之外的所有卷积层都具有相同数量的滤波器。在我们的实验中，我们为每个卷积层尝试了64个和128个滤波器，以分析不同网络配置的性能我们利用额外的远程跳过连接来聚合来自不同残差块的特征具体来说，我们将每个残差块的输出连接到具有一个1× 1卷积层的残差块的末尾的Park等人65HViGXDOEORFNV/5，QSXWiPDJH«+++1[1 RQY+5[2][21[1 RQY1[1 RQY6XE-Si[&H0RQYR0XWiRQ7DUJHW iPDJH图二、具有短程和长程跳跃连接的发电机网络的架构我们使用16个残差块进行实验。长距离跳跃连接的目的是进一步鼓励梯度的反向传播，并且给出重新使用中间特征以改进最终特征的可能性由于不同残差块的输出对应于图像特征的不同抽象层次，我们对每个长程跳过连接应用1× 1卷积这种1× 1卷积的影响四点三。为了将由残差块获得的特征图上采样到目标分辨率，我们使用在[41]中提出的子像素卷积层（也称为像素混洗层）具体来说，子像素卷积层由两个子模块组成：一个卷积层，具有s′2Nc个滤波器，其中Nc是输入通道的数量，以及一个重排层，将来自通道的数据重新排列到不同的空间位置。子像素卷积层在每个空间维度上将输入特征图放大比例因子s’在我们的实验中，我们只考虑4倍上采样，因此我们使用两个子像素卷积层，其中s′= 2。最后，上采样的特征图进入具有三个滤波器的3× 3卷积层，以获得3通道彩色图像。3.2发电机网络我们通过两个步骤训练生成器网络：预训练和对抗训练。在预训练步骤中，我们通过最小化MSE损失来训练网络，MSE损失定义为：LMSE=1ΣWΣHΣC西隧ijkhi，j，k-Igi，j，k）2.（一）从预训练步骤获得的所得网络已经能够实现高PSNR。然而，它不能产生具有期望的高频信息的感知上令人愉悦的结果。9[9 RQY3[3 RQY%DWFK1RUP/HDN\5H/83[3&RQY%DWFK1RUP3[3 RQY%DWFK1RUP/HDN\5H/83[3&RQY%DWFK1RUP3[3 RQY%DWFK1RUP/HDN\5H/83[3&RQY%DWFK1RUP3[3 RQY6KXIIOHU3[3 RQY6KXIIOHU3[3 RQY（一SRFeat：具有特征鉴别的单幅图像超分辨率7E[log（d（y））]+E（2）一一一DD5HDO64641281282562565125125HDO“）DNH“V2）DNHV2 V2 V2图三.我们网络的架构。卷积层上面的数字表示滤波器的数量，而下面的s2表示步长2。3.3使用特征鉴别器的对抗训练为了提高感知质量，我们采用了GAN框架[14]。GAN框架解决了定义为以下的极大极小问题：.min maxΣypdata（y）xpx（x）[log（1-d（g（x），GD其中g（x）是x的生成器网络的输出，d是鉴别器网络。y是来自真实数据分布的样本，而x是随机噪声。虽然传统的GAN框架由一对单个生成器和单个鉴别器组成，但我们使用两个鉴别器：在U_R_D_F我们通过检查它们的像素值来对真实HR图像和伪SR图像进行边缘化或边缘化。另一方面，我们可以通过检查它们的特征图来确定或确定特定的HR图像并对SR图像进行分类，使得可以训练生成器以合成更有意义的高频细节。为了用鉴别器训练我们的预训练生成器网络，我们最小化损失函数，定义为：. ifΣLg=Lp+λ La+La、（3）其中Lp是强制SR结果看起来相似到训练集中的地面真实HR图像Li是图像GAN丢失生成器在像素域中合成高频细节 Lf是一特征GAN损失用于生成器在特征域中合成结构细节λ是GAN损失项的权重。虽然Lg看起来类似于先前方法的损失函数，但它具有附加特征GAN损失项Lf，其在感知质量方面产生显著差异，如我们的实验中所示。为了实现严格的定义和定义，我们最大限度地减少了损失Li和Lf，其中的每一个分别对应于Li和Lf发电机d da a并且通过交替地最小化Lg、Li来训练鉴别器下面，我们将更详细地描述每个损失术语和Lf.在感知相似性损失Lp感知相似性损失在特征域而不是像素域中度量两幅图像之间3[3 RQY/HDN\5H/83[3 RQY%DWFK1RUP/HDN\5H/83[3 RQY%DWFK1RUP/HDN\5H/83[3 RQY%DWFK1RUP/HDN\5H/83[3 RQY%DWFK1RUP/HDN\5H/83[3 RQY%DWFK1RUP/HDN\5H/83[3 RQY%DWFK1RUP/HDN\5H/83[3 RQY%DWFK1RUP/HDN\5H/8DHQVH 1024/HDN\5H/8DHQVH 16iJPRiGPark等人8（一）φ一DD一一D一D一D一D因此，最小化它会导致感知一致的结果[22]。以以下方式定义Ih与Ig之间的感知相似性损失Lp首先，Ih和Ig被馈送到预先训练的识别网络（诸如VGG网络）中。然后，提取两幅图像在第m层的特征图。所提取的特征图之间的MSE差被定义为感知相似性损失。在数学上，Lp被定义为：Lp=1Wm HmCmΣWmΣHmΣCm.mi，j，kh−mi，j，kΣ2（Ig）、（四）ijk其中，Wm、Hm和Cm表示第m个特征图Φm的维度。在我们的实验中，我们使用VGG-19 [42]作为识别网络。这里Φm表示在第m个图像GAN损耗Li且Li图像GAN损失项L1对于gener-和损失函数Li对于图像鉴别器，定义为：Li=−log.di（Ig）Σ（5）Li=−log . 迪岛我h-日志.1−di（Ig）Σ、（6）其中di⑴是图像鉴别器di的输出，即，图像I是从自然HR图像的分布中采样的图像的概率。请注意，对于稳定优化，我们最小化−log（di（Ig））而不是log（1−di（Ig））[14]。对于图像鉴别器di，我们使用与[27]中使用的相同的鉴别器网络，遵循[37]提出的指导方针（图2）。（3）第三章。特征GAN损耗LfLf特征GAN损失项Lf为生成器和特征鉴别器的损失函数Lf被定义为：Lf=−log .Df（φmΣ（Ig））和（7）Lf=−log .df.φm。我hΣ-日志. 1−df（φmΣ（Ig））、（8）其中，df（φm）是所述函数的输出，即df（φm）是临界值。例如，可以从自然HR图像特征图的分布中采样特征图Φ m。由于特征对应于抽象的图像结构，因此我们可以鼓励生成器产生逼真的结构高频而不是嘈杂的伪影。感知相似性损失和特征GAN损失都基于特征图。然而，与促进Ig和Ih之间的感知一致性的感知相似性损失相反，特征GAN损失Lf和Lf使得能够合成感知上有效的图像细节。我们一个d在Fig中使用这两个网络任务。 3对于我们的实验来说，这是一个非常关键的问题。我们还尝试了网络架构的变化，但观察到它们之间没有显着的性能差异，而所有的变化都表现出类似的改善趋势我们建议读者参考我们的补充材料，以获得其他变化的结果。φSRFeat：具有特征鉴别的单幅图像超分辨率94实验在本节中，我们首先介绍有关数据集和训练过程的详细信息。然后，我们分析了预训练的生成器网络的性能，以及具有特征向量的完全训练版本。4.1数据集我们使用ImageNet [39]数据集对生成器进行预训练，如[27]中所做。该数据集包含1000个类别中的数百万张图像我们随机抽取了大约12万张宽度和高度大于400像素的图像，然后我们将采样图像的中心裁剪版本用于预训练。为了进行评估，我们使用了三个广泛使用的数据集：Set5 [5]，Set14 [53]和BSD300的100个测试图像[34]。为了训练我们最终的基于GAN的模型，我们使用了DIV2K数据集[2]，它由800个HR训练图像和100个HR验证图像组成。在我们的实验中，我们观察到使用 DIV2K 数据集训练基于 GAN 的模型比使用ImageNet更快，更稳定。我们推测这部分是因为DIV2K图像是无损PNG格式，而ImageNet图像是有损JPEG格式。为了扩大训练数据的量，我们将数据增强应用于DIV2K图像。具体来说，我们对图像应用随机翻转、旋转和裁剪来制作目标HR图像。我们还对少量训练图像进行了采样，并将其缩小了1/ 2和1/ 4的版本用于数据增强，以训练网络能够处理不同尺度的内容。4.2培训详细信息在这里，我们解释了我们实验中的训练细节。我们通过将HR图像裁剪为296× 296子图像来获得目标HR图像。我们使用双三次插值1对图像进行下采样，以获得74×74的低分辨率输入训练图像。我们将Ih和Il的强度范围归一化为[-1，1]。我们在等式中设置权重λ。(3)10- 3。关于方程中的φm(4)、（7）和（8），我们在实验中使用VGG-19中的Conv 5层，因为我们发现Conv 5通常产生比其他层更好的结果。为了平衡不同的损失项，我们使用比例因子1/12缩放特征图φ m。第75章在计算损失之前对于预训练和对抗训练，我们使用Adam优化器[26]，动量参数β1 =0。9.对于预训练，我们执行了大约28万次迭代，这对于我们随机采样的ImageNet数据集来说大约是20个时期。我们将预训练的初始学习率设置为10- 4，并在训练损失停止减少时将其减少1/10。在学习率达到10−6之后，我们使用了这个值，而没有进一步降低。我们进行了大约五个时期的对抗训练，大约是100，0001我们使用MATLAB功能来解决具有复杂性的全局优化问题。10Park等人。表1.用于×4尺度放大的SISR方法的定量比较A+ [46]、SR-CNN [10]、VDSR[24]、Enhance [40]、SRDense [47]、SRRes [27]。我们的网络（SRFeatM）在PSNR和SSIM方面获得了最佳的准确性。在具有类似数量的参数的情况下，我们的具有64个特征通道（SRFeatM-64）的网络显示出比SRResNet更好的准确性。Set5Bicu bic A+ SRCNNVDSREnhanceSRDenseSRResSRFeatM-64SRFeatMPSNR28.42 30.28 30.48 31.35 31.74SSIM0.8104 0.8603 0.8628 0.8838 0.8869 0.8934 0.8910 0.89180.8938产品14Bicu bic A+ SRCNNVDSREnhanceSRDenseSRResSRFeatM-64SRFeatMPSNR26.00 27.32 27.49 28.01 28.42 28.50 28.5328.61SSIM0.7674 0.7774 0.7782 0.7804 0.78160.7835BSD100Bicu bic A+ SRCNNVDSREnhanceSRDenseSRResSRFeatM-64SRFeatMPSNR25.96 26.82 26.90 27.29 27.50 27.53 27.58 27.5927.64SSIM0.7251 0.7326 0.7337 0.7354 0.73570.7378迭代我们使用10−4作为前两个时期的学习率，10−5用于接下来的两个时期，10−6用于对抗训练的最后一个时期。我们在测试阶段修复了批量归一化层中的参数所有的模型都在具有12GB内存的NVIDIA TitanXP上训练。4.3预训练生成器由于我们的预训练网络仅使用MSE损失进行训练，因此应该最大化PSNR。为了评估预训练网络的性能，我们在Y通道上测量PSNR和SSIM [48]，并将它们与其他最先进的方法进行比较。为了公平的比较，我们从图像边界中排除了四个像素，因为大多数现有的SISR方法都不能正确地对于我们的网络，我们测试了两种不同的配置，一种是128通道，另一种是64通道。我们将它们分别表示为SRFeatM和SRFeatM-64。SRFeatM-64具有与SRResNet [27]相似数量的参数。具体而言，SRFeatM-64和SRResNet的模型大小之间的差异表1显示SRFeatM达到了最先进的精度，并且优于所有其他方法。 SRFeatM-64 还实现了比SRResNet [27]更高的PSNR和SSIM，其中它们具有相似数量的参数。在表2中，我们比较了我们的架构的变化，以查看每个组件的效果我们首先验证了1× 1卷积在长距离跳跃连接中的必要性在没有1× 1卷积（w/o Conv）的情况下，来自不同残差块的特征对最终特征的贡献相等，而不管它们是高级特征还是低级特征。表2显示，没有1×1卷积的长距离跳跃连接导致比SRFeatM-64更差的质量该表还显示，具有1×1卷积的远程跳过连接的网络比没有远程跳过连接的网络（w/oSkip）获得更高的质量，这验证了具有1× 1卷积的远程跳过连接的有效性SRFeat：具有特征鉴别的单幅图像超分辨率11表2.我们的发电机网络的变化之间的比较。Set5 Set14 BSD100SRFeatMPSNR 32.2728.71 27.64SSIM 0.8938 0.7835 0.7378无转换PSNR 32.05 28.59 27.56SSIM 0.89120.7809 0.7353不带跳过 PSNR 32.22 28.71 27.63SSIM 0.89330.7833 0.7373SRFeatM-64 PSNR 32.14 28.61SSIM 0.89180.7816 0.73574.4完全训练的发生器的评价我们评估了基于GAN的最终生成器的性能现有的定量评价方法如PSNR和SSIM不适合测量图像的感知质量为了提供与人类感知合理相关的测量，Sajjadi等人。[40]使用的对象识别性能。他们首先对原始HR图像进行下采样，并对这些图像执行SISR。然后，他们将最先进的对象识别模型应用于SR结果以及原始HR图像。他们认为，从这些结果的对象识别精度之间的差距意味着知觉质量的退化。我们还采用的方法来验证我们的方法的感知质量。我们使用ResNet-50的官方Caffe模型[18]作为识别模型，获得了最先进的分类精度。为了进行评估，我们使用了来自ILSVRC 2016 CLS-Risk数据集验证集的前1000张图像，如[40]所示为了计算基线精度，我们调整了图像的大小，使其沿短边具有256个像素，并如[18]中所做的那样裁剪了224×224像素的中心然后，我们通过将图像下采样到56× 56并应用我们的生成器网络的四个不同版本来制作四个不同的降级版本的数据集：SRFeat M用MSE训练，SRFeat I用感知损失和图像GAN损失但没有特征GAN损失训练，并且SRFeat IF-64和SRFeat IF用所有损失项训练。所有网络在其卷积层中使用128个滤波器，除了使用64个滤波器的SRFeatIF-64。我们还报告了从他们的论文中获得的[40]的错误率，尽管使用相同的ResNet-50网络的论文中报告的基线错误率与我们的略有不同（例如前5名错误率：7.1%在我们的和7.2%在[40]）。我们怀疑差距来自深度学习平台的差异，如Caffe [21]和Tensorflow [1]。结果示于表3中。显然，我们的没有GAN的SRFeatM显示出比使用原始图像获得的基线差得多的准确性，因为它生成没有高频细节的模糊图像然而，我们的SRFeatI与图像GAN损失相当大地提高了准确性，通过恢复- ING纹理在下采样中丢失。在Top-5的情况下，利用我们的特征GAN损失（SRFeatIF），基线和我们的基线之间的差距减小到3.912Park等人。表3.使用ILSVRC 2016验证数据集的图像进行分类测试的性能。基线误差率是根据 ResNet-50 对原始 224 × 224 裁剪图像的推断结果计算的。 SRFeatI 和SRFeatIF分别表示我们使用基于GAN的感知损失训练的网络，没有和有特征GAN损失。ResNet-50双三 SRFeatM增强 [第四十届]SRFeatI SRFeatIF-64 SRFeatIF基线前1位误差（%）47.941.439.931.133.030.925.4前5名误差（%）23.020.117.111.911.811.07.1图4.第一章分类测试中使用的原始输入和SR图像的样本顶行：原始图像（224× 224）。底行：右下角的SR图像（224× 224）和LR图像（56×错误.图4示出了从验证数据集提取的一些样本。从样本中，我们可以看出，准确性是合理的，因为原始图像和我们的结果之间的感知质量差异并不显著。Top-5误差中的SRFeatI和SRFeatIF之间的差距（0.9）大于Top-5误差中的SRFeatIF-64和SRFeatIF之间的差距（0.8），这意味着我们的特征GAN损失的有效性。EnhanceNet [40]与除SRFeatM之外的所有网络之间也存在很大的差距，这清楚地表明了我们方法的有效性。我们还定性地展示了通过采用特征GAN损失获得的感知质量的改善如图5，我们的特征GAN损失抑制噪声高频，同时生成感知上合理的结构化纹理。图图 6 示出了基于 GAN 的 SR 方法的定性比较EnhanceNet结果在边缘周围具有高频伪影，并且SRGAN结果具有模糊的结构纹理。另一方面，由于我们的特征GAN损失，我们的结果自然地合成了清晰的细节，而没有模糊或高频伪影。我们建议读者参考补充材料以获得更多结果，包括用户研究。SRFeat：具有特征鉴别的单幅图像超分辨率13原始图像（a）MSE（b）SRFeatI（c）SRFeatIF（d）GT图五.我们的模型之间的定性比较没有功能GAN损失（SRFeatI）和功能GAN损失（SRFeatIF）。在所有示例中，SRFeatIF生成比SRFeatI更逼真的纹理，同时抑制任意高频伪影。5讨论和结论我们提出了一种新的SISR方法，可以通过采用两个鉴别器来产生感知上令人愉悦的图像：图像鉴别器和特征鉴别器。特别是，我们的特征鉴别器鼓励生成器生成更多的结构性高频细节，而不是嘈杂的伪影。我们还提出了一种新的生成器网络架构，采用远程跳跃连接，更有效地传播信息之间的遥远的层。实验表明，我们的研究结果达到了国家的最先进的性能定量和定性。对于特征GAN损失和感知相似性损失，我们的网络仅使用一个固定层的特征。然而，我们发现特征GAN损失和感知相似性损失的最佳层取决于图像内容。因此，如果我们可以根据图像内容自适应地选择层，则可以进一步提高感知质量我们把这个依赖于内容的SR作为我们未来的工作。将GAN框架应用于特征图也可以是14Park等人。(a)Bicubic（b）Enhance [40]（c）SRGAN [27]（d）SRFeatIF（e）GT图六、基于GAN的SR方法与我们在比例因子4下的结果的定性比较其他方法的结果图像取自其网站。有利于解决SR以外的其他问题。探索其他应用程序可能是另一个有趣的未来工作。致谢我们感谢审稿人的建设性意见。这项工作得到了韩国科学和信息通信技术部的支持，通过IITP资助（IITP-2015-0-00174），Giga Korea资助（GK 18 P0300）和NRF资助（NRF-2017 M3 C4 A7066317）。它还得到了DGIST启动基金计划（2018010071）的支持。引用1. Abadi，M.，Barham，P.，陈杰，陈志，戴维斯，A.，迪恩J Devin，M.，Ghe-mawat，S.，Irving，G.Isard，M.，Kudlur，M.，Levenberg，J.，蒙加河摩尔SRFeat：具有特征鉴别的单幅图像超分辨率15美国，默里D.G. Steiner，B.，Tucker，P. Vasudevan，V.，Warden，P.，Wicke，M.，Yu，Y.，郑X：Tensorflow：一个大规模机器学习系统In：Proc. OSDI（2016）2. Agustsson，E.，Timofte，R.：Ntire 2017挑战单幅图像超分辨率：数据集和研究。在：CVPR研讨会（2017）3. Allebach，J.，Wong，P.W.：边缘定向插值。In：Proc.ICIP（1996）4. Baker ， S. ， Kanade ， T. ：超分辨率的限制以及如何打破它们。IEEETransactionPater nAnalysisandMachineIntelligence24 （ 9 ）， 1167- 1183（2002）5. Bevilacqua，M.，Roumy，A.，Guillemot角Alberi-Morel，M.L.：基于非负邻域嵌入的低复杂度单幅图像超分辨率。In：Proc. BMVC（2012）6. Bruna，J.，Sprechmann，P.，LeCun，Y.：具有深度卷积足够统计的超分辨率。ICLR Proc.（2016）7. 张，H.，杨D.Y.熊Y：通过邻居嵌入实现超分辨率。见：Proc.CVPR（2004）8. Dai，S.，Han，M.，徐伟，吴， Y.，Gong，Y.，Katsaggelos，A.K.：Softcuts：用于彩色图像超分辨率的软边缘平滑度先验。IEEE TransactionsonIm-ageProcessing18（5），9699. 董，C.，Loy，C.C.，他，K.，唐X：使用深度卷积网络的图像超分辨率。IEEE Transactions on Pattern Analysis and Machine Intelligence38（2），29510. 董，C.，Loy，C.C.，他，K.，唐X：学习用于图像超分辨率的深度卷积网络。In：Proc. ECCV（2014）11. Duchon ， C.E. ：一维和二维的Lanczos滤波。 Journal of AppliedMeter 〇logy18（8），101612. 弗里曼，W. T.，Pasztor，E.C.，卡迈克尔，O.T.：学习低层次视觉。Inter-nati〇nalJ〇urnalofC〇mputerVis〇n40（1），2513. 洛杉矶的加蒂斯Ecker，A.S. Bethge，M.：使用卷积神经网络的图像风格转换。在：Proc. CVPR（2016）14. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A.Bengio，Y.：生成性对抗网。In：Proc.NIPS（2014）15. Gu，S.，Sang，N.，Ma，F.：通过局部回归实现快速图像超分辨率。载于：Proc. ICPR（2012）16. Gu，S.，左，W.，Xie，Q.，Meng，D.，Feng，X.，中国科学院，Zhang，L.：图像超分辨率卷积稀疏编码。在：Proc. ICCV（2015）中17. 古普塔，P.，Srivastava，P.，Bhardwaj，S.，Bhateja，V.：一种基于hvs的改进psnr彩色图像质量评价In：Proc.ICCIA（2011）18. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。在：Proc. CVPR（2016）19. Iizuka，S.，Simo-Serra，E.，Ishikawa，H.：全局和局部一致的图像完成。ACM Transactions on Graphics 36（4），107（2017）20. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。In：Proc. CVPR（2017）21. Jia，Y.，Shelhamer，E.，Donahue，J.，Karayev，S.，朗J格尔希克河瓜达尔-拉马，S.，达雷尔，T.：Caffe：用于快速特征嵌入的卷积架构In：Proc. ACM MM（2014）22. Johnson，J.，Alahi，A.，fei Li，F.：实时风格转换和超分辨率的感知损失。见：Proc. ECCV（2016）23. Karras，T.，Aila，T. Laine，S.，Lehtinen，J.：GAN的逐步增长，以提高质量，稳定性和变化。In：Proc.ICLR（2018）16Park等人。24. 金，J.，Lee，J.K.，Lee，K.M.：使用非常深的卷积网络实现精确的图像超分辨率。在：Proc. CVPR（2016）25. 金，T.，Cha，M.，Kim，H.李，J.，Kim，J.：学习发现跨域关系与生成对抗网络。In：Proc.ICML（2017）26. Kingma，D.Ba，J.：Adam：随机最佳化的方法In：Proc.ICLR（2015年）27. 莱迪格角泰斯湖胡萨尔，F.卡瓦列罗，J.，Aitken，A.P.，Tejani，A.，托茨，J.，王志，Shi，W.：使用生成对抗网络的照片逼真的单图像超分辨率In：Proc. CVPR（2017）28. 李杰

下载后可阅读完整内容，剩余1页未读，立即下载