图像超分辨率和重尺度统一框架：分层条件流

112 浏览量更新于2023-10-13 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4076分层条件流：图像超分辨率和图像重尺度统一框架梁静云1Andreas Lugmayr1张凯1，*Martin Danelljan1 Luc Van Gool1，2 Radu Timofte11瑞士苏黎世联邦理工学院计算机视觉实验室2比利时{jinliang，andreas.lugmayr，kai.zhang，martin.danelljan，vangool，timofter} @ vision.ee.ethz.chhttps://github.com/JingyunLiang/HCFlow摘要规范化流最近已经证明了低水平视觉任务的有前途的结果。对于图像超分辨率（SR），它学习从低分辨率（LR）图像预测各种照片般逼真的高分辨率（HR）图像，而不是学习确定性映射。对于图像缩放，它通过联合建模的缩小和放大过程，实现了高精度。虽然现有的方法为这两项任务采用了专门的技术，但我们开始将它们统一在一个公式中-yZ x(a) SRFlowyzyZx(b) IRNX第在本文中，我们提出了一个统一的框架，图像SR和图像缩放的分层条件流（HCFlow）。更具体地，HCFlow通过同时对LR图像和其余高频分量的分布进行建模来学习HR和LR图像对之间的双射映射。特别地，高频分量以分层方式取决于LR图像。为了进一步提高性能，其他损失，如感知损失和GAN损失与常用的负对数似然损失的训练相结合。对一般图像SR、人脸图像SR和图像缩放的广泛实验表明，所提出的HCFlow在定量度量和视觉质量方面都达到了最先进的性能。1. 介绍规范化流[7，8，22，12，16，36]是强大的深度生成概率模型，允许高效和精确的似然计算和采样。它们已被用于生成图像[8，22]，模糊ker- [28]和音频[20]数据。最近，在低级视觉社区中，归一化流引起了人们的极大兴趣，并在图像超分辨率（SR）[32]和图像重新缩放[47]方面取得了可喜的进展。*通讯作者。(c) HCFlow图1：SRFlow [32]、IRN [47]和提议的HCFlow之间的比较。x、y和z分别表示HR图像、LR图像和潜变量。蓝色框是可逆神经网络，而绿色框是不可逆模型（例如，CNN）。实线双向箭头表示双射映射，而虚线箭头表示条件关系。SRFlow [32]是用于图像SR的开创性的基于流的模型。与学习从低分辨率（ LR ）图像到高分辨率（HR）图像的确定性映射的先前基于CNN的模型不同，SRFlow学习HR图像的分布并且能够生成各种照片般逼真的HR图像。然而，如图1（a），它将LR图像视为外部条件先验，因此在HR和LR图像对之间不完全可逆，使得难以用于图像重新缩放。另一项工作IRN[47]采用可逆神经网络来学习图像缩放的缩小和放大。由于该模型是双射的，所以在降尺度之后，它可以以高精度恢复输入HR图像。然而，如图所示。在图1（b）中，假设图像的高频和低频分量彼此独立，并且因此缺乏利用它们对图像SR的依赖性的能力。在本文中，我们提出了一个分层的条件流（HCFlow）作为一个统一的框架，图像SR和重新缩放。如图在图1（c）中，HCFlow是用于对HR-LR关系建模的基于可逆流的模型，4077其中高频分量分层地取决于图像的低频分量。更具体地，在前向传播中，HCFlow学习将输入HR图像分解成LR图像和潜在变量。在逆传播中，它基于LR输入和潜变量的随机样本生成HR图像。潜在变量（高频分量）的建模以分层方式取决于所生成的LR图像（低频分量）。当针对图像SR进行训练时，HCFlow通过在易处理的雅可比行列式计算的基础上最小化负对数似然损失来优化。为了进一步改善视觉质量，我们在逆传播中集成像素损失、感知损失和GAN损失以约束学习的HR空间。此外，HCFlow可用于图像缩放任务。它可以将HR图像分解为视觉上令人愉悦的LR图像和遵循简单分布的潜变量。在这种情况下，HCFlow被训练为编码器-解码器框架，其中正向和反向过程被联合优化。由于HCFlow是双射的，因此它可以通过从给定生成的LR图像的潜在空间采样来忠实地恢复HR图像。我们的贡献可归纳如下：1) 我们提出了一个统一的框架，图像SR和图像缩放。它学习同时对LR图像和残余高频分量进行建模。高频分量在层次上取决于所生成的LR图像。2) 我们提出了额外的损失来训练归一化流，包括像素，感知和GAN损失，这有效地提高了HR图像质量。3) 我们在三个任务上进行了广泛的实验：一般图像SR，人脸图像SR和图像缩放。HCFlow在定量指标和视觉质量方面实现了所有任务的最先进结果2. 相关工作在本节中，我们将简要回顾图像SR和图像重新缩放，特别关注两种高度相关的基于流的方法，即[32][47 ][48][49]2.1. 图像SR图像SR旨在在给定LR图像的情况下重建HR图像自从先驱工作SRCNN [9]以来，近年来已经提出了许多基于CNN的模型[9，19，24，43，41，40，42，15，6，6，54，55，30，49，11，5，44，26，51，52，53，54，55，56，57，58，59，5927、50]。它们中的大多数专注于精细的特征提取模块设计，并且在使用像素丢失进行训练时生成过度平滑的图像。为了弥补这一点，引入感知损失[17，43]和GAN损失[10，24，43，53]以提高感知质量。尽管有上述进展，但它们通常会在这对于图像SR是不自然的，因为一个LR图像可能对应于多个HR图像。SRFlow [32]. 归一化流[7，8，22，12，16，36，46]为图像SR提供了一种新的可能的解决方案。SRFlow设计了一个条件流来模拟HR图像的分布，条件是LR图像。它可以通过对不同的潜变量进行采样来生成各种真实感图像。我们提出的HCFlow在两个主要方面不同于SRFlow：首先，SRFlow使用LR图像作为外部条件先验，并将HR分布映射到简单的潜在分布。因此，它不能生成LR图像，因此不适用于图像重新缩放。相比之下，HCFlow对LR图像进行建模，并将其视为潜在空间的一部分。其次，SRFlow基本上遵循[8]中提出的流框架，而HCFlow提出了一个具有分层条件机制的新框架。2.2. 图像重新缩放图像重新缩放旨在将HR图像缩小到视觉上有意义的LR图像，然后合理地恢复HR图像。与在给定LR图像空间上工作的图像SR不同，图像重新缩放试图保持来自HR图像的尽可能多的信息以用于更好的后续重建，以减少存储和带宽成本。换句话说，它可以定义其自己的LR图像空间，该LR图像空间被期望比通过简单的降尺度（诸如双立方降尺度）的LR图像空间信息更多。通常，在图像重新缩放中，缩小和放大过程由编码器-解码器框架[18，25，38]联合建模，使得缩小模型针对稍后的放大操作进行优化IRN[47]. 最近，IRN提出使用双射可逆神经网络来建模降尺度和升尺度过程。高频分量被很好地捕获并在训练中被转换为结构化的潜在空间。在测试中，HR图像可以通过输入生成的LR图像和随机采样的潜变量来恢复特别地，IRN假设LR图像和高频分量彼此独立这两个部分是分开的，分别学习。相比之下，HCFlow假设移除的高频分量取决于LR图像，并且因此采用分层条件框架来对LR图像和高频分量的条件分布进行建模。此外，虽然IRN设计了HR和LR图像对之间的双射映射，但它只能通过Monte Carlo模拟而不是最大似然估计（MLE）来训练。HCFlow可以以相同的方式训练用于图像重新缩放，但是它进一步对LR图像分布进行建模，并且允许易于处理的雅可比行列式计算，使得当通过MLE训练时可以对HR和LR图像进行概率建模。4078y36z35一个33y28z27一个22y110z19的11Xy32z33一个34y25z26一个27y18z19的110X∼∼−θθθ联系我们N||Σ→0K.θ.θθθθ日 k−1.N||4 1(a) 正向传播（b）反向传播图2：具有3个流量水平的分层条件流（HCFlow）的示意性计算图在水平l上，yl−1（注意y0=x）被分解为低频分量yl和高频分量al。al和zl之间的变换以[yL，yL-1，...，y L- 如蓝色箭头所示。正向和反向传播中的计算顺序显示在每个节点的顶部。3. 方法3.1. 预赛基于流量的模型[7、8、23、37、13、22、2、16、12、36、28]目的是学习目标空间和潜在空间之间的双射映射对于高维随机变量（例如，具有分布xp（x）的图像）x和具有简单易处理分布zp（z）的潜在变量z（例如，多变量高斯分布），流量模型通常使用可逆神经网络fθ将x转换为z：z=fθ（x）。相反，x可以从z恢复为：其余高频分量分别。由于对自然图像的概率进行建模是一项重要的任务，因此以地面真实LR图像y* 为条件设计流模型是合理的，p（x|y）Participp（y，a|y*）= p（y|y）p（a|y，y*）。（二）理想情况下，我们希望模型可以生成与地面真实LR图像完全相同的这可以用狄拉克δ函数δ（y y*）表示，并进一步用多元高斯分布近似为：∗ ∗ ∗逆映射x = f −1（z）。一般来说，fθ由一系列可逆变换组成：f = f1◦ f2◦···◦ f K。中间变量-p（y|y）p（a|y，y）=δ（y− y）p（a|y）= lim（yy）p（ay），Σ→0（三）表格定义为hk=fk（hk−1），其中k1，...，K. f θ的输入h0和输出hN分别是x和z。具体地，fk是流动层，例如挤压层、批处理层、混合层归一化层、仿射耦合层等。根据变量变化公式和链式法则，对于一个样本x，对数概率log（x）可计算为Σ。 fk（hk−1）.其中Σ是对角协方差矩阵，所有对角元素接近零。注意，在这种情况下，y几乎等于y* 通过进一步将p（a，y）映射到标准多元高斯分布p（z）=（z，0，1），流动模型被定义为：p（x|y*）limN（y|y*，Σ）N（z|0，1）。（四）正如我们所看到的，部分潜在空间被约束为LR图像空间。尤其是分解的高-logp（x）= logp（fθ（x））+k=1 计程仪θhk−1、（1）频率分量A取决于另一分解分量Y。一旦接受训练，在哪里日志detfk（hk−1）. 是绝对值的对数θ在方向上，HCFlow可以将HR图像x分解成LR图像x。图像y和潜变量z，其遵循简单分布。fk在hk−1处的雅可比行列式的值。流动模型因此可以通过最小化负对数似然损失。3.2. 模型规格图像SR和图像重新缩放两者都尝试在给定LR图像的情况下重建HR图像x由于图像退化过程（或图像缩小）是图像超分辨率（或图像放大）的逆过程，因此我们可以使用可逆双射变换来对这两个过程进行x[y，a]，其中y和a是生成的LR图像，并且第遵循相反方向，HCFlow可以生成x给定LR图像输入y*和来自潜在分布的随机样本z请注意，这个模型将y*视为输入或输出，而不是外部条件先验。因此，它不显式地以y* 为条件，并且在HR和LR图像对之间完全可逆。此外，通过用多变量高斯分布来近似y的分布，它允许易于处理的雅可比行列式计算，使得模型可以通过最大似然法来优化。线性估计（MLE）。4079y1特征提取器z2一个2特征提取器E∈R××−HWHW22E∈R× × ××y2Xz1a1图3：具有2个流级别的分层条件流（HCFlow）的架构对于HR图像X，我们首先将其挤压、变换并分割成低频分量yi和高频分量ai。类似地，y1被分解为y2（即，在这种情况下为LR图像），并且在下一级中为2。a1和a2被变换为潜在变量z1和z2，条件是1（[2（y2），y1]）和2（y2）（注意1和2是特征提取器，例如，CNN）。该模型通过负对数似然损失进行训练，并且可以通过像素损失、感知损失和GAN损失进一步增强。3.3. 模型架构RealNVP [8]中提出的多尺度架构是一种流行的归一化流架构[32，22，12]。它由L个级别组成，在每个级别的末尾，一半的维度被分解。通常，因子化的维度直接高斯化用于负对数似然损失的计算，缺乏这些维度的充分因此，基于多尺度体系结构，我们采取了进一步的步骤，以保留的维度为条件的因子化维度建模。如示于图2，在每个电平l处，yl-1被分解为低频分量yl和高频分量al。然后，通过附加流来对a l建模，该附加流以张量yL，yL-1，…y1从多个流水平。通过这种设计，高频分量的重构在层次上取决于从所有先前水平重构的频率。在前向传播中，类似于二叉树的深度优先遍历，我们首先计算y1，将张量均匀地分成两个张量yl2×2×2C和12×2×2C。注意，对于最后一个级别，我们仅为y1保留3个通道以使其适合LR图像的RGB空间接下来，y1被馈送到下一级，而a1被输入到附加流中在第1个附加流中，通过P个流步骤将al变换为潜在变量zl与上述流程步骤不同，我们使用条件仿射耦合层[3，45]而不是比普通的仿射耦合层得到一个条件流。具体地，我们首先通过下式将条件特征cl+1从l个值el+1放大2最近邻插值，并将其与y1连接。然后，我们使用特征提取器fml来提取图像特征，其充当用于级别l的条件特征cl。请注意，特征提取器仅在正向和反向传播期间为仿射耦合提供缩放和移位。因此，关于可逆和具有易处理的雅可比矩阵的约束对于该部分不更正式地，HCFlow的分层条件机制被公式化如下：y2，…yL按顺序。然后，我们对分解后的维度进行建模-c=.l（yl）l= L、（五）按相反顺序排列：aL，aL−1，.，的1.在反prop中-L（[c，c、...、C，y]）1=L-1，...，1agation，我们计算yl和al一级一级，从级l L L−1l+1l升到1级。注意，仍然可以有效地计算整个流的雅可比行列式，因为a1、a2、…aL和y1，y2，.，可以表示为上三角块矩阵。HCFlow的详细架构如图所示。3.第三章。对于每个级别，第一层是挤压层，它将HWC输入至HW4Ctensor通过以空间大小换取通道数量来进行排序。然后，K流步骤用于将张量变换并将其分解成不同的分量。更具体地，每个流程步骤由三个层的序列组成：行为范数层、可逆11卷积层和仿射耦合层[8，22]。之后，分割层用于其中不同级别的条件特征以从cL到c1的相反顺序计算。特别地，对于最后一个水平，我们直接通过下式对yL进行建模：一个狄拉克δ函数δ（y y*），而不是将其转换为另一个潜在变量。这将潜在空间的一部分限制为LR图像空间，并隐含地使模型以y* 为条件。3.4. 培养目标图像SR。当HCFlow用于图像SR时，可以通过最小化负对数似然损失来训练它。Lnll=−logp（x），（6）挤压分裂挤压分裂4080L×××LL L×LL××××××LLLLL LLL L LL×该方法是无监督的并且稳定收敛。然而，在实践中，这种损失收敛缓慢，并且不能为图像SR提供强有力的监督。为了实现更好的HR图像PSNR，我们可以在逆传播中在所生成的SR图像上添加1个像素损失，导致如下的损失函数：L=λ1Lnll（x）+λ2L像素（x，xτ=0），（7）其中，X是地面实况HR图像，并且Xτ=0是通过输入地面实况LR图像y*并对具有温度τ=0的潜变量z进行采样而生成的SR图像。添加的像素损失可以帮助流程学习以面向PSNR的SR图像为中心的SR流形此外，我们可以在生成的SR图像上添加感知损失[17]和GAN损失[10]以提高视觉质量。这被公式化为，对于一般图像SR（4），我们分别将L、K、P设置为2、13和13。两个13块RRDB网络[43]被用作特征提取器。有关架构的更多详细信息，请该模型在DIV2K [1]和Flickr2K [39]的训练集上进行随机翻转训练。裁剪面片大小和小批量大小分别设置为160、160和16。Adam优化器[21]，β1=0。9和β2=0。99用于优化。对于HCFLow（仅具有nll），学习速率为2。510−4，并在300 k次迭代的50%、75%、90%和95% 处减少一半。我们从预训练的HCFlow微调HCFLow+（具有nll+像素）50k次迭代。nll和pixel的权重分别为λ1=210−3和λ2=1。值得指出的是，如果我们从头开始训练HCFlow+，同样，我们可以微调HCFlow++通过进一步添加L-色氨酸和L-甘。损失加权参数为λ1= 2×10−3，λ2= 1，λ3=L=λ1 Lnll（x）+λ2 L像素（x，xτ=0）+λ3Lpercep（x，xτ=τ0）+λ4Lgan（x，xτ=τ 0），（八）510−2和λ4= 510−1。对于面部图像SR（8），L、K、P分别被设置为3、13和13使用三个8块RRDB网络其中xτ=τ〇是通过输入y*生成的SR图像，并且对z进行采样，τ=τ0。注意，除非使用τ = 0的像素损失，否则τ〇被设置为0.8或0.9以保持HR图像的分辨率。图像缩放。与图像SR不同，图像重新缩放旨在恢复完全相同的HR图像。遵循[47]，我们将可逆HCFlow视为编码器-解码器框架，其中正向和反向过程对应于编码和解码阶段，re-encode。损失如下作为特征提取器。我们在CelebA训练集[31]上训练模型，并使用测试集中的前5，000张图像对其进行测试。在[22，32]之后，我们将HR图像裁剪和调整大小为160 160的分辨率，并随机翻转它们以进行数据增强。其他训练细节与一般图像SR相同。图像缩放。对于图像缩放（4），我们设定L、K、P分别为2、8和6。两个3块RRDB网络被用作特征提取器。特别地，我们使用Haar变换来代替挤压层和L=λ1L像素HR（x，xτ=1 ）+λ2L像素LR（y*，y）（九）移除可逆的11卷积层。有关数据准备和优化器的详细信息与常规映像相同+λ3Llatent（z），其中像素hr是1个像素损失，以确保在缩小和放大之后，重建图像Xt=1接近输入X。请注意，这种损失将显著降低所生成图像的多样性此外，像素LR是2像素损失，这引导y接近双三次LR图像y*，以便在缩小中生成视觉上令人愉悦的LR图像。最后一项Llatent（z）是对潜在变量z的L2正则化。4. 实验4.1. 实验装置我们进行了实验，一般的图像SR，人脸图像SR和图像缩放显示HCFlow的有效性。对于图像SR实验，我们通过三种损失组合来训练模型：nL1、nL1+像素和nL1+像素+&PercepGaN。相应的学习模型分别表示为HCFlow、HCFlow+和HCFlow++。Sr. 学习率初始化为2。510−4，在[100k，200k，300k，400k]处减半（总共500k次迭代）。损失加权参数分别为λ1= 1、λ2= 5 × 10−2和λ3=1 ×10−5。业绩评价。根据SRFlow [32]和IRN [47]，我们在RGB颜色空间上评估图像SR的PSNR和SSIM，并在YCbCr颜色空间的Y通道上评估图像重新缩放。我们还使用感知度量LPIPS [52]和两个无参考度量NIQE [35]和BRISQUE [34]来进行更好的视觉质量比较。使用5个样本的像素标准差来比较结果的多样性此外，还报告了一致性（缩减的SR图像和地面真实LR图像之间的PSNR4.2. 消融研究适合LR图像空间。为了学习HR和LR图像对之间的完全可逆流，HCFlow约束4081−×表1：一般图像SR（×4）的潜在空间和条件先验的消融研究在DIV2K [1]验证集上测试结果情况潜在空间条件先验（l=2）条件先验（l=1）PSNR↑（τ=0）SSIM↑（τ=0）（LPIPS↑）τ = 0。9一致性↑（τ=0. 九、LR-PSNR↑1z2， z1--4.760.340.86310.56-2z2， z1y*y1，y128.730.810.12341.97-3y2，z2，z1y*y1，y128.710.810.12441.7952.774y2，z2，z1--18.950.470.36140.7953.885y2，z2，z1y2y128.600.800.12641.9452.19HCFlowy2，z2，z1y2y2，y128.710.810.12442.0153.37表2：DIV2K [1]验证集的一般图像SR（×4）结果对于SRFlow和我们的方法，报告了5次绘制的平均结果方法#参数PSNR↑SSIM↑LPIPS↓NIQE↓BRISQUE多样性↑一致性↑LR-PSNR↑双三-26.700.770.4095.2053.8038.70-EDSR [29]43.1M28.980.830.2704.4643.3054.89-RRDB [43]16.7M29.440.840.2535.0852.4049.20-ESRGAN [43]16.7M26.220.750.1242.6122.7039.03-RankSRGAN [53]13.7M26.550.750.1282.4517.2042.33-SRFlow，τ= 0[32]39.5M29.070.810.2545.2039.4055.13-SRFlow，τ= 0。9[32]39.5M27.090.760.1213.5717.85.649.96-HCFlow，τ= 023.2M28.710.810.2854.6144.1042.0353.37HCFlow，τ= 0。923.2M27.020.760.1242.7921.74.842.0153.37HCFlow+，τ= 023.2M29.250.830.2124.4543.2051.1153.95HCFlow++，τ= 0。923.2M26.610.740.1102.8522.05.250.0752.59表3：CelebA [31]测试集上的面部图像SR（×8）结果对于SRFlow和我们的方法，报告了5次绘制的平均结果方法#参数PSNR↑SSIM↑LPIPS↓NIQE↓BRISQUE多样性↑一致性↑LR-PSNR↑双三-23.150.630.5177.8258.6035.19-RRDB [43]16.7M26.590.770.2306.0249.7048.22-ESRGAN [43]16.7M22.880.630.1203.4623.7034.04-SRFlow，τ= 0[32]40.0M26.740.760.2165.7440.4056.57-SRFlow，τ= 0。8[32]40.0M25.240.710.1104.2023.25.250.85-HCFlow，τ= 027.0M26.660.770.2106.4248.0051.8354.50HCFlow，τ= 0。827.0M24.990.710.1044.3431.65.951.8154.50HCFlow+，τ= 027.0M27.020.780.2126.0449.5051.1153.95HCFlow++，τ= 0。827.0M24.830.690.0903.8723.84.051.5751.82因此，可以将潜在空间的一部分作为LR图像空间，而不是使用LR图像作为外部先验。为了显示影响，我们从潜在空间中移除LR图像y2，如表1的情况1和2所示。当不存在条件先验（情况1）时，模型无法收敛，因为它没有足够的SR信息。当我们用地面真实LR图像y* 替换 y 2作为条件先验时（情况2，类似于SRFlow [32]），它的性能略优于HCFlow，尽管它们具有几乎相同的条件信息。潜在的原因可能是它具有比HCFlow更大的潜在空间。地面真实LR图像作为条件先验。HCFlow以传播期间生成的y1和y2为条件。当我们使用地面实况LR图像y*作为替换y2之前的条件时（情况3，表1），该模型实现了与HCFlow相似的性能。事实上，由于我们将y2的分布建模为狄拉克δ函数δ（y2y*），因此在模型收敛后，y2将几乎等于y*，这由高LR-PSNR证实。因此，条件生成的y2和外部y*具有类似的效果。层次条件机制。如表 1 的情况4 所示，类似于IRN[47]，我们通过移除所有条件先验来假设LR图像和其余高频分量是独立的。它产生显著更差的性能，因为HR图像（高频分量）的重建高度依赖于图像SR的LR图像（低频分量）尽管如此，它具有比情况1更好的结果，因为拟合到LR图像空间可以部分地发挥条件先验的作用在情况5中，我们从分层条件机制改变为单尺度条件机制，通过从级别1中移除 y2在这种情况下， zl（l=l，2）仅以来自相同水平的yl为在各种度量方面的性能下降，这表明分层条件机制可以更好地建模高频和低频分量之间的条件4.3. 图像超分辨率一般图像SR.对于一般图像SR（4），我们将HCFlow与最先进的基于CNN和基于流的SR模型（包括面向PSNR的EDSR）相结合[29]4082LR（×8）RRDBESRGANSRFlow，τ = 0。8 HCFlow，τ = 0。8HCFlow++，τ = 0。8地面实况RRDBESRGANRankSRGANSRFlow，τ = 0。9HCFlow，τ = 0。9HCFlow++，τ = 0。9地面实况图4：DIV2K [1]验证集上一般图像SR（×4）的视觉结果图5：CelebA [31]测试集上人脸图像SR（×8）[33] 和 RRDB [43] ，面向感知的 ESRGAN [43] 和RankSRGAN [53]，以及SRFlow [32]。所有方法都在相同的训练数据集上训练。从表2和图4，我们有几个观察如下。首先，当对具有温度τ=0的HR图像进行采样时，HCFlow的作用类似于面向PSNR的模型，实现了与EDSR和RRDB类似的性能。将HR像素损失（即，HCFlow+）可以进一步大幅提高PSNR和SSIM。第二，当τ=0时。9中，HCFlow的感知度量显著提升。具有感知损失和GAN损失（即，HCFlow++），感知指标进一步提高了显著的利润率LPIPS和BRISQUE术语，这通过视觉结果得到证实。注意，与ESRGAN和RankSR-GAN不同，HCFlow++的生成的HR图像仍然是多样化的。第三，HCFlow在定量指标和视觉质量方面都达到了最先进的它生成清晰的图像，几乎没有伪影。相比之下此外，与SRFlow相比，HCFlow仅具有大约一半的参数数量。面部图像SR。在人脸图像SR（×8）上测试了HCFlow算法的有效性。比较方法4083×∼×表4：不同数据集上的图像重新缩放⑷结果（Y通道PSNR / SSIM）。对于IRN [47]和我们的方法，报告了5次绘制的平均结果。不同样本的PSNR / SSIM差异小于0.02。降尺度放大Param第5组[4]第14集[48]BSD100 [33]城市100 [14]DIV2K [1]双三次的-0.810426.00 /0.702725.96 /0.667523.14 /0.657726.66 /0.8521Bicubic SRCNN [9]57.3K30.48 /0.862827.50 /0.751326.90 /0.710124.52 /0.7221-[55]第五十五话22.3M32.47 /0.899028.81 /0.787127.72 /0.741926.61 /0.8028-[29]第二十九话43.1M32.62 /0.898428.94 /0.790127.79 /0.743726.86 /0.808029.38 /0.9032[54]第五十四话15.6M32.63 /0.900228.87 /0.788927.77 /0.743626.82 /0.808730.77 /0.8460Bicubic RFANet [30]11.2M32.67 /0.900428.88 /0.789427.79 /0.744226.92 /0.8112-[43]第四十三话16.3M32.74 /0.901229.00 /0.79150.745527.03 /0.815230.92 /0.8486墨西哥[18]-31.81 /28.63 /28.51 /26.63 /31.16 /汽车EDSR [38]52.8M33.88 /0.917430.31 /0.838229.15 /0.800129.28 /0.871132.82 /0.8837IRN [47]4.4M36.19 /0.945132.67 /0.901531.64 /0.882631.41 /0.915735.07 /0.9318HCFlow4.4M36.29 /0.946833.02 /0.906531.74 /0.886431.62 /0.920635.23 /0.9346包括面向PSNR的RRDB、面向感知的ESR-GAN和基于流的SRFlow。如表3和图5所示，对于面部图像SR，可以得出与一般图像SR中类似的观察结果。与竞争方法相比，HCFlow实现了最佳的定量和视觉性能。特别是，HCFlow生成具有自然细节的清晰面部，特别是眼睛，牙齿和头发。通过比较，其他方法遭受过度平滑的结果或明显的伪影。4.4. 图像缩放作为图像SR和图像缩放的统一框架，HCFlow在图像缩放方面也达到了最先进的性能。我们将其与三种重新缩放方法进行比较：（1）双三次插值最先进的SR模型[9，55，29，54，43，30];（2）编码器-解码器模型[9，55，29，54，43，30 ]。els [18，38];（3）可逆神经网络[47]。从表4可以看出，当降尺度过程是固定的（即，双三次插值），不同的现有技术SR模型的性能是相似的并且有限。当降尺度模型针对升尺度模型进行优化时，结果得到了很大的改善。IRN在可逆结构的基础上通过联合优化进一步提高性能。与IRN算法相比，HCFlow算法在所有测试数据集上均取得了更好的性能，PSNR提高了0。100 35分贝。除此之外，如图所示6，HCFlow可以更好地保留图像细节，并生成比IRN更清晰的边缘。由于这两个模型具有相同数量的参数，因此HCFlow对于图像重新缩放比IRN更有效，这可以归因于高频和低频分量之间的条件建模。5. 结论本文提出了一个统一的框架，即分层条件流（HCFlow），用于图像超分辨率和图像缩放。它学习HR图像和LR图像以及潜变量之间特别地，我们学习LR图像空间和IRN HCFlow地面实况图6：DIV2K [1]验证集上图像重新缩放（4）更多结果见补充资料。设计潜在变量（高频分量）和LR图像（低频分量）之间的分层条件机制。对于图像SR，HCFLow通过负对数似然损失来训练，并且通过像素损失、感知损失和GAN损失来进一步增强以获得更好的性能。对于图像缩放，它被训练为编码器-解码器框架，其中正向和反向进程被联合优化。实验表明，HCFlow实现了国家的最先进的性能，一般的图像SR，人脸图像SR和图像缩放，在定量指标和视觉质量方面。致谢我们感谢博士。Suryansh Kumar进行了有益的讨论。这项工作得到了苏黎世联邦理工学院基金（OK），华为技术公司（芬兰）项目，中国国家留学基金委员会和Microsoft Azure赠款的部分支持。特别感谢Yijue Chen。4084引用[1] Eirikur Agustsson和Radu Timofte。Ntire 2017挑战单幅图像超分辨率：数据集和研究。在IEEE计算机视觉和模式识别研讨会会议上，第126-135页，2017年。五六七八[2] LyntonArdizzone，Jakob Kruse，Carsten Rother和UllrichK ¨ the。用非线性神经网络分析非线性问题在2018年学习代表国际会议上。3[3] LyntonArdizzone ， CarstenL üth ， Ja k obKruse ，CarstenRothe r，andUllrichKüthe.使用条件可逆神经网络的引导图像生成arXiv预印本arXiv：1907.02392，2019。4[4] Marco Bevilacqua、Aline Roumy、Christine Guillemot和Marie line Alberi Morel。基于非负邻域嵌入的低复杂度单幅图像超分辨率英国机器视觉会议，第135.1-135.10页，2012年。8[5] Jiezhang Cao，Yawei Li，Kai Zhang，and Luc Van Gool.视频超分辨率 Transformer 。 arXiv 预印本 arXiv ：2106.06847，2021。2[6] 程文龙、赵明博、叶之灵、古书航。Mfagan：用于存储器高效的设备上超分辨率gan的压缩框架。arXiv预印本arXiv：2107.12679，2021。2[7] Laurent Dinh ， David Krueger ， and Yoshua Bengio.Nice ：非线性独立分量估计。 arXiv预印本 arXiv ：1410.8516，2014。一、二、三[8] Laurent Dinh，Jascha Sohl-Dickstein，and Samy Ben-gio.使用实 nvp 的密度估计。 arXiv 预印本 arXiv ：1605.08803，2016。一、二、三、四[9] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoou Tang.学习用于图像超分辨率的深度卷积网络。在European Conference on ComputerVision，第184-199页，2014中。二、八[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展，第2672-2680页，2014年。二、五[11] Yong Guo ， Jian Chen ， Jingdong Wang ， Qi Chen ，Jiezhang Cao，Zeshuai Deng，Yanwu Xu，and MingkuiTan.闭环问题：单图像超分辨率的对偶回归网络。IEEE计算机视觉和模式识别会议，第5407-5416页，2020年。2[12] Jonathan Ho，Xi Chen，Aravind Srinivas，Yan Duan，and Pieter Abbeel. Flow++：通过变分去量化和架构设计改进基于流的生成模型。在国际机器学习会议上，第2722-2730页，2019年。一、二、三、四[13] 黄钦伟，大卫·克鲁格，亚历山大·拉科斯特和亚伦·库维尔。神经自回归流。arXiv预印本arXiv：1804.00779，2018。3[14] Jia-Bin Huang，Abhishek Singh，and Narendra Ahuja.单图像超分辨率从变换的自我范例。在IEEE Conferenceon Computer Vision and Pattern Recognition ，第 5197-5206页8[15] 矶部隆、徐佳、谷书航、李松江、王胜金、齐天。具有递归结构-细节网络的视频超分辨率。在欧洲计算机视觉会议上，第645-660页。Springer，2020年。2[16] Priyank Jaini，Kira A Selby，Yaoliang Yu。平方和多项式流。arXiv预印本arXiv：1905.02325，2019。一、二、三[17] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694-711页，2016年。二、五[18] Heewon Kim，Myungsub Choi，Bee Lim，and KyoungMu Lee.任务感知图像缩小。欧洲计算机视觉会议，第399-414页，2018年。二、八[19] Jiwon Kim，Jung Kwon Lee，and Kyoung Mu Lee.使用非常深的卷积网络实现精确的图像超分辨率。在IEEE计算机视觉和模式识别会议，第1646

下载后可阅读完整内容，剩余1页未读，立即下载