基于噪声和模糊核的精细退化建模的盲图像超分辨率

2 浏览量更新于2023-10-25 收藏 17.58MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

21280基于噪声和模糊核的精细退化建模的盲图像超分辨率0岳宗盛 1 ，赵倩 2 ，谢建文 3 ，张磊 4 ，孟德宇 2 ，5 ，黄坤宜 101 香港大学，中国香港 2 西安交通大学，中国西安 3百度研究，认知计算实验室，美国贝尔维尤 4 香港理工大学，中国香港 5深圳鹏城实验室，中国深圳0摘要0虽然最近基于模型的盲单图像超分辨率（SISR）的研究取得了巨大的成功，但大多数方法并没有充分考虑图像退化。首先，它们总是假设图像噪声服从独立同分布（i.i.d.）的高斯或拉普拉斯分布，这在很大程度上低估了真实噪声的复杂性。其次，先前常用的核先验（如归一化、稀疏性）对于保证合理的核解决方案并不能起到足够的效果，从而降低了后续SISR任务的性能。为了解决上述问题，本文提出了一种基于概率框架的模型盲SISR方法，从噪声和模糊核的角度精细地建模图像退化。具体而言，我们提出了一种基于补丁的非独立同分布噪声模型来处理复杂的真实噪声，期望增加模型对噪声表示的自由度。至于模糊核，我们新颖地构建了一个简洁而有效的核生成器，并将其作为显式核先验（EKP）插入到提出的盲SISR方法中。为了解决所提出的模型，我们专门设计了一个理论上有根据的蒙特卡罗EM算法。全面的实验证明了我们的方法在合成和真实数据集上优于当前最先进的方法。源代码可在https://github.com/zsyOAOA/BSRDM上获得。01. 引言0单图像超分辨率（SISR）是计算机视觉中的一个基本问题。它旨在从观察到的低分辨率（LR）图像中恢复出清晰详细的高分辨率（HR）对应图像。图像退化是图像超分辨率的功能相反过程，是从观察到的低分辨率图像中恢复出清晰详细的高分辨率图像的过程。0从高分辨率图像生成低分辨率图像是一个低分辨率图像生成问题。不幸的是，退化模型通常是未知的且复杂的，使得盲SISR问题极具挑战性。因此，如何合理而实际地建模退化对于盲SISR非常重要。早期的方法[14，24，44，45]将SISR简单地视为一个插值问题。它们具有快速处理速度，但总是模糊高频细节。后来的方法开始考虑图像退化，并可以粗略地分为两类，即基于模型的方法和基于学习的方法。从贝叶斯的角度来看，基于模型的方法[11，20，25，36，40，42]首先基于图像退化建立一个生成模型，然后在最大后验（MAP）框架下估计模糊核和高分辨率图像。这样的MAP估计是针对每个低分辨率图像单独实施的，因此倾向于对未知退化实现更好的泛化。另一方面，基于学习的方法[10，25，56，65]旨在基于大量根据预先假定的退化模型合成的低分辨率/高分辨率图像对来学习一个统一的超分辨率器。最近，为了提高它们的泛化能力，一些工作[8，16，28，51，54]尝试从非配对的真实图像数据中学习退化模型。然而，这些基于学习的方法严重依赖于收集到的训练数据，并且在测试中可能会遇到严重的性能下降，当出现未见过的退化时。在本文中，我们遵循基于模型的方法论，因为它具有更好的泛化能力。大多数基于模型的盲SISR方法可以一般地表述为以下MAP问题：0max x , k log p ( y | x , k ) + log p ( k ) + log p ( x ) , (1)0其中 y , x 和 k分别表示观测到的低分辨率图像、底层高分辨率图像和模糊核。最后一项表示图像先验，而前两项提供了我们对退化模型(即噪声分布和核先验)的认识。大多数现有方法都致力于设计更合理的图像先验。HR Image+LR ImageNoiseKernel21290模型参数0�0�~�(�|�)0潜变量0�~�(�)0�(�; �)0�(�)0� . ~�(� . |0, � . )0深度生成器0核建模0非独立同分布噪声0�0E步 M步 E步 M步0超拉普拉斯先验0�0图1. 提出的盲超分辨率图像重建方法及其对应的EM算法概述。构建了一个概率模型来描述观测到的低分辨率图像的生成过程，主要涉及两组参数，包括潜变量 z和模型参数 { α , L , λ }。设计了一种蒙特卡洛EM算法来交替更新它们，分别在E步和M步中。0例如梯度轮廓[42]、稀疏性[7,20]、DIP[46]等等[9,11,22,32,34,38]。然而，它们通常不充分考虑退化模型：0•至于噪声建模，大多数现有方法采用独立同分布(i.i.d.)的高斯或拉普拉斯分布来建模噪声。然而，这种简单的噪声假设通常低估了真实图像噪声的复杂性，在实际应用中显示出有限的鲁棒性。例如，由相机管道受到影响的最常见的相机传感器噪声是信号相关的，因此在统计上表现出明显的非独立同分布特性。0•至于核建模，传统方法通常忽略它或采用一些启发式先验，例如归一化(即核元素之和为1)[17]和稀疏性[3]，这通常不能保证合理的核解。最近，Liang等人[25]训练了一个由卷积神经网络(CNN)参数化的隐式映射，将潜在噪声映射到各向异性高斯核，然后将其嵌入到盲超分辨率图像重建中作为核先验。尽管取得了明显的性能改进，但该方法依赖于耗时且繁琐的预训练阶段。此外，在核估计和超分辨率任务之间的交替迭代中，训练过程中不可避免地会出现拟合误差，这可能会放大。因此，通过设计一个显式而有效的核先验，可以进一步提高盲超分辨率图像重建的性能。0为了解决上述问题，本文提出了一种概率盲超分辨率图像重建方法，精心考虑了噪声和核建模(见图1)。为了更好地建模复杂的真实噪声，采用了基于块的非独立同分布高斯噪声假设，而不是传统的独立同分布假设。在这种设置下，每个 p× p 的图像块都有自己的噪声参数，这更符合配置。0真实噪声的持续时间。至于模糊核，我们观察到它可以用协方差矩阵的显式可微函数来表示。这启发我们构建了一个显式的核先验(EKP)，用于通常使用的各向异性高斯核，它可以轻松嵌入当前基于深度学习(DL)的盲超分辨率图像重建方法中。总之，本文的贡献有三个方面：1.与常用的独立同分布的高斯或拉普拉斯分布不同，本方法采用了基于块的非独立同分布噪声分布，使其能够处理复杂的真实噪声。02.为盲SISR任务新构建了一种名为EKP的生成核先验。它具有明确而简洁的形式，并被证明能够获得更稳定的SISR核估计。03. 设计了一个理论上有根据的蒙特卡洛EM算法（见图1）来解决我们提出的模型。02. 相关工作0在本节中，我们简要回顾了图像退化模型和盲SISR的文献。02.1. 图像退化模型0图像退化模型是SISR中一个长期存在且开放的研究课题。最常见且最简单的退化模型是双三次降采样，在许多SISR工作中被广泛用于合成训练和测试数据[6, 11, 19, 23,64]。更一般的退化模型由一系列模糊、降采样和噪声添加组成，也被许多先前的工作广泛采用[37, 41, 58, 61,65]。最近，张等人[59]提出了一个更实用的退化模型，通过在模糊、降采样和噪声添加之间引入随机洗牌策略，以及更实用的相机传感器21300以及噪声添加过程中的JPEG压缩噪声。此外，王等人[47]考虑了常见的振铃和过冲伪影，并提出了一个高阶退化模型来覆盖更大的退化空间。02.2. 盲SISR方法0如介绍中所提到的，除了启发式的插值方法[14, 18, 24,44]之外，大多数现有方法可以宽松地分为两类，即基于模型和基于学习的方法。尽管本文侧重于基于模型的方法，但我们也为了完整性而简要回顾了基于学习的方法。基于模型的方法。基于模型的方法主要关注设计方程（1）中的三个项，即似然、核先验和图像先验。在过去几十年中，图像先验得到了更多的关注。典型的传统图像先验包括总变差（TV）[38]、超拉普拉斯[22]、梯度轮廓[42]、稀疏性[20]和非局部相似性[7]。随着深度学习的普及，提出了更多基于DL的图像先验。乌里亚诺夫等人[46]提出了一种代表性工作，即深度图像先验（DIP），用于捕捉低级图像统计信息。Shocher等人[41]试图利用尺度间补丁重复性的先验来恢复HR图像。更多相关工作可以在[2,34]中找到。核先验是MAP框架中的另一个重要部分。传统的盲SISR方法只考虑一些启发式的核先验，如归一化[17]和稀疏性[3]。最近，一些工作开始通过DNN隐式地建模核。例如，任等人[36]提出使用多层感知器（MLP）来建模核先验，而梁等人[25]训练了一种名为FKP的基于流的核先验用于盲SISR。与这种隐式建模方式不同，本文试图设计一种明确而简洁的核先验，希望在盲SISR任务中引导出更稳定的核估计。至于似然，大多数现有方法采用独立同分布的高斯或拉普拉斯分布，这通常无法符合真实噪声的配置，并导致在真实场景中性能下降。为了解决这个问题，本文采用了一种非独立同分布的噪声建模方法，以更好地传递真实噪声的配置，从而提高其广义能力。基于学习的方法。基于学习的方法的主要思想是从大量预模拟的LR/HR图像对中学习一个超分辨器。Dong等人[6]首次提出了从LR到HR图像的端到端CNN映射的学习。随后，设计了许多用于SISR的CNN架构[13, 19, 26, 31, 43, 48,64]。最近，由于实际中真实的LR图像很少与相应的HR图像一起出现，出现了一系列非配对的SISR方法[8, 16, 28, 51,54]。03. 提出的方法03.1. 退化假设0在以前的研究中，已经提出了各种退化模型。其中大部分可以写成下采样和随后的噪声添加过程，即0y = D(x; k, ↓s) + n, (2)0其中y和x分别表示LR和HR图像，D(x; k,↓s)表示带有模糊核k和s倍下采样器↓s的下采样过程，n是噪声。实际上，真实的LR图像可能是通过首先添加噪声然后对HR图像进行下采样得到的[59]，这使得噪声更加复杂。这个过程也可以用与公式（2）相同的格式来表示，即0y = D(x + n; k, ↓s) = D(x; k, ↓s) + ˆn, (3)0其中ˆn = D(n; k,↓s)。因此，我们只需要考虑公式（2）中的退化序列。对于模糊核k，我们假设它是一般的各向异性高斯核，正如[37,58]所指出的那样，这对于SISR来说已经足够了。此外，考虑到下采样器↓s的不同设置（例如，双三次[19]和直接1[58]）以及模糊和下采样过程之间的顺序（即，(x�k)↓s[58]和(x↓s)�k[62]，其中�是卷积算子），我们可以基于公式（2）得到多种不同的退化假设。本文旨在提出一种具有对噪声和核模型的精心考虑的盲SISR方法，不依赖于下采样器的格式和模糊和下采样过程之间的具体顺序。为了方便起见，在下一小节中，我们采用最广泛使用的退化假设来构建我们的SISR模型，即0y = (x � k) ↓ds + n, (4)0其中↓ds是直接下采样器，缩放因子为s。03.2. 概率SISR模型0在本小节中，我们将基于公式（4）中的退化模型构建我们的盲SISR方法，非独立同分布噪声建模。与整个图像上的传统独立同分布的高斯或拉普拉斯噪声假设不同，本文提出了一种基于块的非独立同分布噪声模型。给定任何观测到的LR图像y∈Rh×w，其中h和w分别表示图像的高度和宽度，我们将y视为N(N=hw)个高度重叠的p×p块。此外，我们假设每个块中包含的噪声服从不同的零均值高斯分布，其方差为01直接下采样器，缩放因子为s，意味着保留每个不同的s×s块的左上像素并丢弃其余部分。,(11)21310其自身的方差参数。具体而言，考虑以yi为中心的第i个图像块，我们有0yi � N(yi|[(x � k) ↓ds]i, λi), i = 1, 2, ..., N, (5)0其中λi是第i个图像块的噪声方差。在以往的研究中，通常假设噪声为加性白噪声（AWGN），这实际上是我们非独立同分布噪声分布的特例。通过将整个图像视为一个大小为h×w的大块，我们的噪声模型自然退化为AWGN，但噪声方差参数会在学习过程中自动更新（见第4节），而不是手动调整。核先验。基于对模糊核的各向异性高斯假设，我们构建了一个简洁而有效的核先验。对于任何大小为(2r+1)×(2r+1)的模糊核k，它定义如下：0kij = 10∑0| Λ | exp(-102STΛS, i, j ∈ {−r, ..., r},0(6) 其中 Λ 是精度矩阵，S = Σij是空间坐标。从公式（6）可以看出，在固定核大小后，模糊核完全由精度矩阵Λ决定。注意，公式（6）对Λ是可微的。这意味着它可以被看作是一个核生成器，在深度学习框架下可以通过随机梯度下降（SGD）轻松优化Λ。另一个棘手的问题是如何在优化过程中保证精度矩阵Λ的正定性。受到Cholesky分解的启发，我们将Λ重新参数化如下：0Λ = LLT，(7)0其中L∈R2×2是一个下三角矩阵。通过将式（7）代入式（6），我们得到以下显式核先验EKP：0kij = h(L) = 102π|L|exp �−102STLLTS�. (8)0在实践中，为了使L在优化过程中成为三角形，我们将L重写为L= Q ⊙ M，其中M = [1 0 11]，⊙是Hadamard乘积，然后转而优化Q。据我们所知，对于SISR来说，最有效的核先验是FKP[25]。FKP的主要思想是首先训练一个深度生成器，将潜在噪声映射到各向异性高斯核，然后使用预训练的生成器仅调整潜在噪声来估计模糊核。当将其应用于盲目SISR时，这个生成器的不可避免的拟合误差可能会被放大，从而限制了最终的性能。与FKP相比，我们提出的EKP具有以下优点：1）EKP是一个显式的核生成器，不依赖于预训练，更方便在SISR中使用。2）由于L完全由核k控制，因此L包含的参数比FKP中的潜在噪声向量少得多（分别为3 vs.11^2/15^2/19^2，用于尺度2/3/4）。这使得EKP在作为核先验插入盲目SISR后更容易进行优化。图像先验。我们使用基于CNN的生成器G从潜空间生成HR图像，即0EKP始终是一个精确的各向异性高斯核，自然地避免了FKP中的拟合误差问题。3）在EKP中，核k完全由L控制，L包含的参数比FKP中的潜在噪声向量少得多（分别为3 vs.11^2/15^2/19^2，用于尺度2/3/4）。这使得EKP在作为核先验插入盲目SISR后更容易进行优化。图像先验。我们使用基于CNN的生成器G从潜空间生成HR图像，即0x = G(z；α)，(9)0其中z和α分别表示潜变量和网络参数。正如[46]所示，由于CNN的强大拟合能力，G很容易过度拟合图像噪声。因此，我们引入传统的超拉普拉斯先验来通过以下α和z的联合分布约束生成的HR图像的统计规律性：0(α，z) � p(α) =0p(α|z) ∝ exp0�0−ρ0k=1|fk�G(z；α)|γ�0p(z) = N(z|0，I)，(12)0其中{fk}2k=1是沿水平和垂直方向的梯度滤波器，ρ和γ都是超参数。对于生成器G，我们遵循DIP[46]中的“hourglass”架构，但使用了一个包含更少参数的小版本。详细的网络架构可以在补充材料（SM）中找到。03.3. MAP估计0根据公式（5）-（12），构建了一个完整的概率模型。在MAP框架下，我们的目标是最大化以下后验概率：0p(α，L，λ|y) ∝ � p(y|α，L，λ，z) p(α|z) p(z)dz. (13)0注意，我们省略了先验项p(L)和p(Λ)，因为它们在我们的模型中被设置为非信息先验。将等式（13）两边取对数，我们得到以下最大化问题：0max α，L，λ log0= log �p(y|α，L，λ，z) p(α|z) p(z)dz + const. (14)04. 推理算法0受[52，53]的启发，我们设计了一种蒙特卡洛期望最大化（EM）算法[5]来解决6: end while7: IHR = G(z; α).�minα,L,λ E(α, L, λ) = 1222+Wnew = Wold − η�yj −��G(˜z; αold) ∗ h(Lold)�↓ds�21320算法1：所提方法的推理过程0输入：观测到的LR图像，超参数设置。输出：超分辨率HR图像IHR。01：初始化模型参数{α，L，λ}和潜变量z。02: while not converged do 3: E-Step: 从 p old ( z | y )中采样潜变量 z，遵循方程 ( 15 )。04: M-Step: (a) 根据方程 ( 18 )，在固定 λ的情况下更新参数 α 和 L。05: (b) 根据方程 ( 19 )，在固定 α 和 L的情况下更新噪声方差参数 λ。0方程 ( 14 ) 交替从其后验 p ( z | y ) 中采样潜变量 z，并在M-Step 中更新模型参数 { α , L , λ }。整个推理框架如图1 所示。E-Step。给定当前模型参数 { α old , L old , λold }，我们将其下的 z 的后验表示为 p old ( z | y )。在E-Step 中，我们的目标是使用 Langevin 动力学从 p old (z | y ) 中采样 z [ 50 ]：0z ( τ +1) = z ( τ ) + δ 20∂ z log p old ( z | y ) � �� z = z ( τ ) + δ ( τ ) , (15)0其中 τ 是 Langevin 动力学的时间步长，δ 表示步长大小，ζ是用于防止陷入局部模式的高斯白噪声。计算方程 ( 15 )的一个关键点是 ∂ ∂ z log p old ( z | y ) = ∂ ∂ z log p old ( z, y )，详细计算可以在补充材料中找到。在实践中，加速 Eq. (15 )中的蒙特卡洛采样收敛速度的一个小技巧是在每次学习迭代中从先前更新的 z开始。我们经验性地发现，通过简单地根据方程 ( 15 ) 进行 10次采样，它的性能非常稳定和良好。M-Step。在 E-Step中，将采样的潜变量记为 ˜ z，M-Step 的目标是最大化 Eq. (14 ) 对于模型参数 { α , L , λ } 的近似下界：0max α , L , λ Q ( α , L , λ ) = � p old ( z | y ) log p ( y | α , L , λ , z) p ( α | z ) p ( z )d z0≈ log p ( y | α , L , λ , ˜ z ) p ( α | ˜ z ) p (˜ z ) .(16)0等价地，方程 ( 16 ) 可以重新表述为以下最小化问题：0�� 1 λ ⊙ � y − � G (˜ z ; α ) � h ( L ) � s � � ��0k =1 | f k � G (˜ z ; α ) | γ . (17)0为了解决方程 ( 17 )，我们交替更新模型参数 { α , L } 和λ。具体而言，对于 α 和 L，可以根据基于反向传播（BP）算法[ 39 ] 的 SGD 直接进行优化：0∂ W E ( α , L , λ ) , W ∈ { α , L } , (18)0其中 η 是学习率。实际上，我们采用更先进的 Adam [ 21 ]算法来更新 α 和 L，而不是 Eq. ( 18 ) 的 SGD策略，这在经验上使其收敛速度更快。对于噪声方差λ，我们考虑 i -th 像素处的 p × p 补丁中的 λi。幸运的是，基于该图像补丁内的独立同分布高斯假设，我们有以下 λ i 的闭式解：0λ i = 0p 2 �0j ∈ N ( i )0j0� 2 , (19)0其中 N ( i ) 是以 i 为中心的 p × p 补丁中像素的索引集。需要注意的是 ( 17 )的第一项可以被视为带有权重 1 的重新加权 L 2 损失0λ，它在优化过程中通过方程 ( 19 ) 自动更新。算法 1中详细描述了所提出的 EM 算法。05. 实验结果0我们进行了大量实验证明了本文提出的在噪声和核心上进行精细建模的 b lind s uper- r esolution方法的有效性。为了方便起见，我们在本文的其余部分简要将其称为 BSRDM。05.1. 实验设置0模型设置。在整个实验中，我们经验性地将超参数ρ和γ设置为0.2和2/3。γ的设置基于这样一个事实，即指数为γ =2/3的超拉普拉斯比拉普拉斯或高斯更好地模拟图像梯度[22]。为了更新M-Step中的模型参数α和L，我们使用Pytorch[35]中默认设置的Adam[21]算法。α和L的学习率分别设置为2e-3和5e-3。至于噪声模型的块大小p，我们提供了两种不同的设置。对于第5.2节中的合成高斯噪声，我们将整个图像视为一个特殊的图像块。而对于第5.2节中的合成相机传感器噪声和第5.3节中的真实图像噪声，我们将p设置为15。为了公平比较，我们通过使用不同的随机种子运行我们的方法五次，并对其进行平均。比较方法。为了评估BSRDM，我们将其与五种方法进行比较，包括一种基于学习的方法RCAN[64]和四种基于模型的方法，即CSC[11]、ZSSR[41]、DoubleDIP[36]和×2PSNR↑24.8724.9925.0430.2723.9827.4529.56SSIM↑0.6860.6900.7010.8410.6370.7520.815LPIPS↓0.3180.3210.3110.2630.3970.3400.278×3PSNR↑21.9622.0222.0626.4920.3826.5928.19SSIM↑0.5510.5530.5660.7410.4980.7120.768LPIPS↓0.3970.3900.3910.3620.4690.3830.328×4PSNR↑20.1820.0820.2323.7317.9825.6626.76SSIM↑0.4750.4740.4900.6180.3940.6790.720LPIPS↓0.4640.4520.4600.5220.5330.4190.381×2PSNR↑24.4324.5224.7226.7323.4226.9528.01SSIM↑0.6480.6510.6710.7230.6180.7340.771LPIPS↓0.4040.4040.3850.3870.4270.3850.359×3PSNR↑21.7021.7321.8124.7420.0325.3126.24SSIM↑0.5230.5260.5440.6570.4750.6620.706LPIPS↓0.4930.4950.4810.4690.5160.4680.443×4PSNR↑20.0319.9919.9823.7918.0224.1824.79SSIM↑0.4540.4540.4750.6190.3760.6080.648LPIPS↓0.5530.5560.5430.5210.5860.5290.50721330表1.在Set14上不同退化组合下比较方法的平均PSNR/SSIM/LPIPS结果。最佳结果以粗体突出显示。灰色结果表示由于不匹配的退化而进行的不公平比较。请注意，结果是在Set14上使用图2中显示的不同模糊核的六种退化上进行平均的。0噪声类型尺度指标方法0CSC [ 11 ] RCAN [ 64 ] ZSSR-B [ 41 ] ZSSR-NB [ 41 ] DoubleDIP [ 36 ] DIPFKP [ 25 ] BSRDM (我们的)0案例10案例20图2. 用于合成LR图像的六个高斯核。0DIPFKP [ 25 ].具体而言，RCAN是一种在双三次降采样下训练的盲SISR方法；CSC试图使用卷积稀疏编码来恢复高频图像细节；ZSSR是一种零样本方法，利用单个图像中不同尺度上的补丁重复性；DoubleDIP和DIPFKP都是盲SISR方法，但具有不同的核先验。在第5.2节的合成实验中，我们考虑了ZSSR的盲和非盲设置，并分别表示为“ZSSR-B”和“ZSSR-NB”。对于ZSSR-B，我们使用其官方代码的默认设置，其中假设退化模型是双三次下采样器后跟AWGN噪声。而对于ZSSR-NB，我们提供了真实的模糊核。需要注意的是，ZSSR、DoubleDIP、DIPFKP和BSRDM都使用深度CNN生成HR图像。因此，与它们的比较可以更好地验证BSRDM中噪声和核建模带来的边际效应。05.2.合成数据评估0在这部分中，我们对两个常用数据集Set14[57]和DIV2K100[1]上的不同方法进行定量评估。DIV2K100包含DIV2K验证集的100个高分辨率图像，由于GPU内存限制，我们从每个图像中心裁剪一个1024×1024的补丁进行实验。通过公式（4）合成LR图像。为了进行全面比较，我们考虑了与不同模糊核和噪声类型相结合的多种退化。对于模糊核，选择了两个具有不同宽度（即1.2和2.0）的各向同性高斯核和四个各向异性高斯核，如图2所示。此外，我们考虑了两种噪声类型，如下所示：0（a）干净图像（b）噪声图像（c）噪声0图3.情况2的相机传感器噪声示例。从左到右：（a）干净图像；（b）带有相机传感器噪声的模拟噪声图像；（c）（a）和（b）之间的绝对残差（或噪声）。0噪声类型如下：0• 情况1：高斯噪声，噪声水平为2.55，这在当前SISR文献中被广泛使用[55,58]。0• 情况2：由[4,12]模拟的相机传感器噪声，图3显示了一个典型示例。特别地，情况2中的噪声非常接近真实的相机噪声，因此适用于评估具有复杂真实噪声的不同方法。对于定量指标，除了常用的PSNR和SSIM [49]之外，我们还采用了LPIPS[63]来比较恢复的HR图像与真实图像之间的感知相似性。请注意，PSNR和SSIM像大多数SISR文献一样在亮度通道中计算，而LPIPS直接在RGB通道中计算。与SotA方法的比较。表1列出了Set14上不同方法在不同退化下的PSNR、SSIM和LPIPS结果。DIV2K100上的比较可以在SM中找到。从表1可以看出，提出的BSRDM在所有退化情况下都取得了最好或至少第二好的结果。对于尺度因子为2和高斯噪声的退化，ZSSR-NB取得了最佳性能。而对于尺度因子为2和相机传感器噪声的退化，BSRDM优于ZSSR-NB，表明BSRDM能够处理更复杂的噪声，因为它的非独立同分布噪声建模。与当前最先进的（SotA）方法DIPFKP相比，BSRDM的性能更好。18.58/23.0723.05/25.6424.10/26.5426.54/27.7821340（b）HR图像0PSNR：上/下0（d）DoubleDIP0（e）ZSSR-NB0（f）DIPFKP0（a）放大的LR（x3）0（c）ZSSR-B17.79/21.960图4.不同方法在Set14上针对两种退化（高斯噪声和相机传感器噪声）的超分辨率结果。模糊核显示在放大的LR图像的右上角。0（b）CSC（c）RCAN（d）ZSSR（e）DoubleDIP（f）DIPFKP（g）BSRDM（我们的方法）0（a）放大的LR（x4）0图5.不同方法在真实LR图像上的三个超分辨率结果，尺度因子为4。请放大以获得最佳视图。0BSRDM的优越性表明了在SISR中噪声和核建模的重要性，尽管它们都使用相同的网络架构生成HR图像，但BSRDM的参数较少（见第5.4节）。0图4显示了高斯噪声（顶行）和相机传感器噪声（底行）的两个视觉结果。由于页面限制，我们只显示了五种最佳方法的结果，完整结果可以在SM中找到。我们可以很容易地观察到：1）在高斯噪声的情况下，所有比较方法都可以去除这种简单的AWGN噪声。由于更好的核建模，提出的BSRDM明显获得更清晰的结果。2）在相机传感器噪声下，四种比较方法的恢复图像仍然包含一些明显的噪声或伪影，主要是因为它们的独立同分布高斯噪声假设与真实噪声分布差异较大。相反，BSRDM能够去除大部分噪声并保持清晰图像。0细节。这证明了在复杂噪声下提出的非独立同分布噪声假设的有效性。0消融研究。本文的核心贡献主要包括非独立同分布噪声建模方式和构建的核先验EKP。为了验证它们的有效性，我们设计了两种基准方法。在第一个基准方法（记为基准1）中，我们将非独立同分布噪声假设替换为传统的独立同分布噪声假设。类似地，在第二个基准方法（记为基准2）中，我们将提出的EKP核先验替换为FKP[25]，这是目前已知最有效的核先验。0我们将BSRDM与这两个基准方法在结合图2中的六个模糊核和Set14上的缩放因子为2的相机传感器噪声的不同退化情况下进行比较。详细结果列在表2中。首先，与基准1相比，BSRDM的性能提升主要来自于非独立同分布噪声假设，这使得21350表2.在Set14上相机传感器噪声为2倍缩放的消融研究。PSNR/SSIM/LPIPS结果是在图2中显示的六个核设置上平均的。0方法噪声假设核先验 PSNR / SSIM / LPIPS 独立同分布非独立同分布 FKP EKP0基准1 � � 27.76 / 0.768 / 0.3730基准2 � � 27.52 / 0.765 / 0.3620BSRDM（我们的方法） � � 28.01 / 0.771 / 0.3590200 300 迭代次数: 1 100 500(a) (b)0图6. (a) 我们方法在第1、50、100、200和300次迭代中估计的模糊核，(b)真实的模糊核。0它能够更好地处理这种信号相关的相机传感器噪声。其次，BSRDM相对于基准2的优越性表明，我们提出的核先验EKP比FKP更有效，如第3.2节所分析的。图6显示了我们方法在优化过程中不同迭代中估计的模糊核。请注意，模糊核初始化为具有宽度s的各向同性高斯核（即第1次迭代），其中s是缩放因子。从这个图中我们可以看到，核逐渐调整到接近真实值。经过300次迭代，估计的核非常接近真实值，这有助于获得良好的超分辨率结果。05.3. 在真实数据上的评估0为了进一步验证BSRDM在真实SISR任务中的有效性，我们在RealSRSet[59]上对其进行评估，该数据集包含来自互联网或现有测试数据集[15，29，30，60]的20张真实图像。图5显示了包含SISR中不同场景的三个典型示例，即自然图像（顶部行），卡通图像（中间行）和文本图像（底部行）。可以很容易地看出，与其他比较方法相比，提出的BSRDM实现了明显更好的视觉效果。在第一个和第二个示例（图5的底部和中间行）中，低分辨率图像包含一些明显的相机传感器噪声或伪影。大多数比较方法无法很好地处理这些情况，并倾向于在超分辨率后放大噪声或伪影。由于其更强大的非独立同分布噪声建模，提出的BSRDM能够去除大部分这些噪声或伪影并保留更清晰的图像结构。对于常用的“芯片”示例（图5的底部行）来说，比较方法的超分辨率结果都非常模糊，这可能是因为估计的核与真实核不匹配。相反，BSRDM可以获得相对更清晰和更干净的高分辨率图像，因为提出的EKP使得更容易估计出合理的模糊核。正如[59]所指出的，我们还发现当前的非参考评估指标（如NIQE [33]，NRQM[27]和PI [1]）0表3. 不同方法在模型大小 (K) 和运行时间 (s) 上的比较结果0方法 ZSSR DoubleDIP DIPFKP BSRDM0尺度 × 2 × 3 × 4 × 2 × 3 × 4 × 2 × 3 × 4 × 2 × 3 × 40时间 (s) 56 117 235 90 194 361 91 190 333 53 108 1900# 参数 (K) 225 2396 2396 7620这些结果与我们在真实SISR任务中的感知视觉系统不一致。由于页面限制，我们将详细的定量比较和更多的视觉结果放在SM中。05.4. 模型大小和运行时间的比较0表3列出了现有基于模型的SISR方法在模型大小（参数数量）和运行时间上的比较结果。为了公平比较，我们考虑了三种典型方法（即ZSSR，DoubleDIP和DIPFKP），它们都通过GPU加速，并且表3中的运行时间结果是在GeForce RTX2080 TiGPU上测试的。具体来说，我们将LR图像大小固定为256×256，并计算将其超分辨率到512×512、768×768和1024×1024的大小，缩放因子分别为2、3和4时的经过时间。从表3可以很容易地观察到：1）我们的BSRDM具有适度数量的参数，与其他方法相比。2）尽管BSRDM的参数比ZSSR多，但它的速度与ZSSR相似。此外，BSRDM在缩放因子4下比ZSSR稍快。3）与当前的SotA方法DIPFKP相比，BSRDM不仅速度更快，而且参数更少。综合考虑模型大小、运行时间和SISR的性能，可以合理地说BSRDM在实际应用中是有效的和有潜力的。06. 结论0在本文中，我们提出了一种新的盲目SISR方法，在概率框架下，精心考虑了噪声和核的退化建模。具体而言，为了更好地适应复杂的真实噪声，我们的方法采用了基于补丁的非独立同分布噪声分布。至于模糊核，我们构建了一个明确而有效的核先验，命名为EKP，并将其应用于所提出的方法中。通过大量实验证明，我们验证了所提出方法在合成和真实数据集上的有效性和优越性。我们相信这项工作可以使盲目SISR研究社区受益。致谢。本工作部分得到了中国国家重点研发计划（2020YFA0713900），香港RGCGRF资助（项目编号17203119），澳门科学技术发展基金资助（061/2020/A2），中国国家自然科学基金委员会项目资助（合同号61721002和U1811461）。21360参考文献0[1] Eirikur Agustsson和Radu Timofte. Ntire2017单幅图像超分辨率挑战：数据集和研究.在计算机视觉和模式识别研讨会（CVPRW）IEEE/CF会议论文集中，页码126–135，2017年。 6 , 80[2] Siavash Arjomand Bigdeli, Matthias Zwicker, PaoloFavaro, and Meiguang Jin. 深度均值漂移先验用于图像恢复. 在I.Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S.Vishwanathan, 和 R.Garnett等人编辑的神经信息处理系统进展（NeurIPS）中，卷30. Curran Associates, Inc.，2017年。 30[3] Sefi Bell-Kligler，Assaf Shocher和Michal Irani.使用内部GAN的盲目超分辨率核估计.在神经信息处理系统进展（NeurIPS）中，卷32，页码284–293，2019年。 2 , 30[4] Tim Brooks, Ben Mildenhall, Tianfan Xue, Jiawen Chen,Dillon Sharlet, and Jonathan T Barron.学习原始降噪的图像非处理.在计算机视觉和模式识别（CVPR）IEEE/CVF会议论文集中，页码11036–11045，2019年。 60[5] Arthur P Dempster，Nan M Laird和Donald B Rubin.通过EM算法从不完整数据中获得最大似然估计.皇家统计学会：B系列（方法论），39（1）：1-22，1977年。 40[6] Chao Dong，Chen Change Loy，Kaiming He和XiaoouTang. 学习用于图像超分辨率的深度卷积网络.在欧洲计算机视觉会议（ECCV）的论文集中，页码为184-199。Springer，2014年。 2，30[7] Weisheng Dong，Lei Zhang，Guangming Shi和Xin Li.非局部集中稀疏表示用于图像恢复.IEEE图像处理交易（TIP），22（4）：1620-1630，2012年。2，30[8] Manuel Fritsche，Shuhang Gu和Radu Timofte.用于真实世界超分辨率的频率分离. 在2019年IEEE /CVF国际计算机视觉研讨会（ICCVW）的论文集中，页码为3599-360

下载后可阅读完整内容，剩余1页未读，立即下载