噪声估计和噪声合成的对比学习：一个创新的方法来生成真实的噪声图像

48 浏览量更新于2023-10-25 收藏 17.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

126820通过对比学习估计精细噪声模型0邹云豪傅颖 �0北京理工大学计算机科学与技术学院0摘要0随着对有效的深度去噪器的不懈努力，图像去噪取得了前所未有的进展。为了提高在现实世界中的去噪性能，近期的趋势采用了两种典型的解决方案：为合成更真实的训练数据设计更好的噪声模型，以及估计噪声水平函数来指导非盲去噪器。在这项工作中，我们结合了噪声建模和估计，并提出了一种创新的噪声模型估计和噪声合成流程，用于生成真实的噪声图像。具体而言，我们的模型以对比的方式学习了一个噪声估计模型，其中包含了精细的统计噪声模型。然后，我们使用估计的噪声参数来建模相机特定的噪声分布，并合成真实的噪声训练数据。我们工作的最引人注目之处在于，通过校准几个传感器的噪声模型，我们的模型可以扩展到预测其他相机。换句话说，我们可以使用仅有的测试图像来估计未知传感器的特定于相机的噪声模型，而无需费力的校准帧或成对的噪声/清晰数据。所提出的流程为深度去噪器赋予了与最先进的真实噪声建模方法相媲美的性能。01. 引言0图像去噪是低级视觉领域中的一个基本且重要的问题。利用强大的深度学习工具，先前的工作[40, 48,49]在加性白噪声假设下实现了几乎完美的去噪效果。然而，对于来自消费级相机和移动设备的真实照片的去噪结果不太令人满意[2, 10,37]。这种现象主要是由于噪声假设与真实传感器噪声分布之间的分布差异，导致训练和测试数据之间存在较大的领域差距。为此，更多的研究人员致力于真实噪声去除[1, 5, 12,18, 46, 51]。真实图像去噪需要解决两个重要问题。0� 通讯作者：fuying@bit.edu.cn0一种直接的方法是对真实的传感器噪声分布进行建模并生成更真实的数据[1, 9, 12, 22, 42, 45,50]。一些方法提出了统计模型来模拟真实噪声形成，它们通常校准从特殊捕获的帧中的相机特定噪声参数（例如噪声方差），然后生成训练数据。通过这种方式，深度网络可以从更真实的训练数据中受益。统计噪声模型，包括AWGN，Poisson-Guassian（P-G，[15]）模型，Poisson混合模型[47]等，通常用于噪声模型的早期探索。最近，一些基于深度生成模型如GAN [9, 12, 22, 45]和Normalizing Flow[1]的噪声建模文献已经出现，但在与精细的经过仔细校准的噪声参数的统计噪声模型[42,50]的竞争中失败。噪声建模方法的一个限制是它们依赖于特定相机的真实校准帧或噪声/清晰对，这在某些情况下是费力或无法实现的。0另一个重要问题是噪声估计。噪声水平函数通常用于基于滤波器的去噪方法[6,14]和基于深度学习的去噪网络[49]的指导。最近，有几种尝试估计噪声水平函数的方法，基于计算[11, 16, 28–31, 38,52]或深度学习[7, 8, 18, 43,49]。然而，这些方法都建立在AWGN等较差的噪声模型上，不能用于估计电路读出模式或源跟随器引起的更复杂的传感器噪声。此外，现有的噪声估计方法基本上将估计的参数作为推理输入值，并将其馈送到去噪滤波器[14]或端到端的深度神经网络[18]中。它们从未尝试通过这些参数来利用相机传感器的更内在属性。0在本文中，我们提出了一种新颖的噪声模型估计和噪声合成流程，仅使用测试数据就可以估计细粒度噪声模型的参数，从而使我们摆脱了对图像传感器繁琐或无法实现的校准。为了实现这一目标，我们提出了一种对比噪声估计模型，可以从单个图像中估计细粒度噪声模型的噪声参数。我们的对比估计框架分离了每个噪声分量，并很好地近似了单个图像的噪声参数，即使是对于模型从未见过的相机。然后，利用估计的参数，我们能够估计未知传感器在最先进的物理噪声模型下的内在联合分布。因此，我们将我们的流程应用于真实图像去噪，并通过合成更逼真的数据来促进训练过程。我们的新的特定于相机的噪声合成流程减轻了对复杂捕获方案的依赖，并生成了有希望的合成噪声图像。我们的工作的主要贡献可以总结如下：Noise Modeling.In recent years, the research of noiseremoval has been pushed forward greatly via strong deeplearning tools. Though denoising under the long-standingAWGN model has been well solved [3,6,48], things go dif-ferent for denoising images captured by real Digital SingleLens Reflex Camera (DSLR) and sensors of mobile phones.Actually, AWGN is inferior for not taking signal-dependentand complex sensor noise into account. A more precisemodel is Poisson-Guassian (P-G) model [15], which con-siders the unstable photon count on the sensor plane. Het-eroscedastic Gaussian (Hetero-G) model [16,18] is a widelyaccepted alternative for P-G, it uses a signal-dependentGaussian distribution to replace Poisson distribution. Otherstatistical models including Poisson Mixture model [47],mixed AWGN with Random Value Impulse Noise (RVIN)[51] and Gaussian Mixture Model [52] are also proposedto model real noise. Recently, Wei et al. [42] delineate thefull picture of sensor noise and craft fine-grained and pre-cise statistical model to describe noise distribution, whichgreatly boosts the performance in real image denoising, es-pecially in extremely dark imagery. Later, Zhang et al. [50]directly sample readout signal-independent noise from realbias patches. Deep learning based methods are also pre-1268302.我们采用基于对比学习的噪声估计框架，可以很好地近似细粒度噪声模型的参数。01.我们提出了一种新颖的噪声模型估计和逼真噪声合成流程，可以仅从测试数据中估计相机噪声模型，而无需任何特定于相机的训练数据。02.相关工作03.通过我们的逼真噪声合成流程，深度降噪器可以达到依赖于真实噪声/清晰图像或校准帧的先前噪声生成方法相媲美的结果。0在本节中，我们介绍了一些与所提出方法最相关的工作。首先，我们回顾了广泛使用的基于统计或深度学习的噪声建模方法。然后，我们介绍了噪声估计的现有方法和应用。0通过隐式模拟真实传感器噪声，我们提出了一种新的噪声建模方法。例如，生成模型如GAN[17]和归一化流[27]已经出现在最近的图像建模研究中[1,9,12,22,25,34,45]。然而，这些方法过于简化了现代传感器成像流程，并忽略了传感器电子设备引起的噪声源[4,21,24]。此外，生成模型在训练过程中不稳定，这些方法无法与精心校准的统计模型竞争（与直接使用图像配置文件中记录的噪声参数相反）。这些噪声建模方法对相机特定数据有特殊需求，例如校准帧或每个目标相机的清晰/噪声对。捕获数据并为每个相机传感器进行校准可能非常耗时。此外，在众多成像场景中，这些先决条件是不可用的，也无法保证。0噪声估计。噪声估计可以用于许多去噪方法。对于传统的非盲去噪方法，如非局部均值（NLM）[6]和BM3D[14]，噪声估计可以用于预测噪声水平，这是必需的输入。在早期，许多工作在平坦区域估计高斯噪声水平[23,33]，但它们受到平坦区域大小的影响。Pyatykh等人提出了一种基于主成分分析（PCA）的噪声水平估计方法[38]。类似地，Chen等人仔细分析了噪声方差和特征值之间的统计关系，以估计高斯参数[11]。在过去的十年中，一些工作[31,32]被提出来从单个图像中估计P-G噪声，这更接近真实数据。最近，Pimpalkhute等人提出了一种混合离散小波变换和边缘信息去除来估计高斯噪声方差的方法。噪声估计还经常出现在基于深度学习的去噪方法中[7, 18,49]。它们通常引入一个噪声水平估计模块，用噪声水平图来指导去噪网络。代表性的方法，如FFDNet[49]和CBDNet[18]，使用由几个卷积层组成的噪声估计子网络来预测噪声图。FBI-Denoiser[7]提出了一种泊松-高斯估计网络，仅从噪声图像中学习P-G噪声参数。现有噪声估计方法的一个不可避免的局限性是它们建立在不太准确的AWGN或P-G噪声模型之上。此外，对更细粒度噪声模型的估计高度不适定，这些方法都不能适应这种噪声模型的估计。在这项工作中，我们旨在在更完整的基于物理的噪声模型下估计噪声参数，并将这些噪声参数用于完全不同的目的。为了在潜在空间中分离不同噪声成分的特征，我们设计了一种数据增强策略，并以对比的方式学习我们的估计模型[13]。因此，我们可以减轻从特殊捕获的数据中构建噪声建模联合分布的负担。𝑃 = 𝐾, 𝜎, 𝜇#, 𝜎"ℒ%&'()*+(,-.S = C + N,(1)N(C).(2)(I + Ns) ∼ P(I),(3)126840锚点 (� ! , � ! )0正样本 (� $ , � ! )0负样本 (� % , � % )0特征提取器0特征提取器0特征提取器0模型0估计0噪声0合成0f0f0�(�)0投影0对比特征学习0模型估计和噪声合成流程0测试0集合0参数估计0f0平均池化0噪声参数0噪声估计0参数估计0噪声参数0清洁0噪声0�0图1. 我们相机模型估计和噪声合成流程的概述。03. 方法0在本节中，我们首先基于图像的物理形成提出了一种细粒度噪声模型。然后，我们描述了我们的数据生成流程和对比噪声估计框架。我们的工作的整体流程如图1所示。03.1. 形式和动机0现有的真实噪声生成方法[1, 12,41]受到不太准确的噪声假设的影响，并需要费力的校准帧（例如暗场帧和平场帧）或特定相机传感器的噪声/清晰对。在这项工作中，我们设计了一种新颖的噪声合成流程，仅从测试噪声图像中估计噪声模型。由于图像噪声主要在线性原始空间中产生，因此在这项工作中，我们专注于不受图像信号处理流程（ISP）影响的原始噪声建模和合成。对于常见的CCD和CMOS传感器，捕获的原始信号S可以表示为0其中 C 和 N分别表示潜在的干净图像和所有噪声分量的总和。它们都受到CCD/CMOS传感器的图像形成过程的影响。通常， N包含几个分量，包括信号相关噪声和信号无关噪声等。因此， N 服从由潜在干净图像 C 决定的分布 F 。0现有的数据驱动深度学习去噪器的性能严重依赖于大量的 (C, S )0用于监督的真实配对数据集的数量是有限的。然而，准确制定 F ( C )是不可行的，而且获取大量真实配对数据集非常费时费力。因此，许多研究[1, 9, 12, 22, 25, 34,45]致力于找到一个接近真实噪声 N 的合成噪声 ˆ N，准确地建模噪声分布 F ( C )非常重要。在这项工作中，我们致力于解决影响现有噪声合成方法精度和适用性的两个重要因素，即不够准确的噪声模型和费时费力的训练数据。我们还尝试在无法接触到相机的情况下估计统计噪声模型。03.2. 噪声形成模型0为了更好地合成噪声，准确的噪声模型是必不可少的。在这里，我们提出了一个细粒度的噪声形成模型，比广泛使用的AWGN和P-G模型更精确。数字图像在电子成像流程的许多步骤中都会受到损坏。在所有噪声源中，现实世界图像中最重要的四个组成部分是拍摄噪声、读出噪声、色偏和行噪声[42]。众所周知，由于光的量子性质，传感器收集到的光子数量是不稳定的。因此，原始光子信号中不可避免地添加了不可避免的拍摄噪声，其遵循泊松分布[20]。给定真实入射光子数 I ，拍摄噪声 N s 可以描述为0其中 P 是泊松分布。以往的研究通常用方差变化的高斯分布替代P ，以便更好地合成噪声。Nread ∼ N(µc, σ2),(4)Nrow ∼ N(0, σ2r).(5)N = KNs + Nrow + Nread.(6)101234log(K)01234log( )101234log(K)1.51.00.50.00.51.01.5log(r)(8)126850为了更容易进行校准，以往的研究通常用方差变化的高斯分布替代真实的泊松分布。当电路读取电子信号并将其转换为电压水平时，会产生读出噪声。不同噪声源的组合使其接近于随机的高斯分布。此外，暗电流的存在使噪声分布偏离了零中心。基于这些考虑，读出噪声 N read 可以表示为0其中 µ c是非零中心偏差。在极低的环境中存在明显的色偏。与电子-电压过程相关的另一个重要组成部分是行噪声，它是由逐行传感器读出格式引起的。我们将这种行噪声 N row建模为高斯分布0设 K 表示从 I 到潜在干净图像 C 的总增益，即 C = KI，则真实世界噪声形成模型可以表示为0对于拍摄噪声，给定总增益 K，我们可以通过将数字信号反转为光子数，从泊松分布中采样拍摄噪声，然后再次反转为数字信号来获得噪声。因此，对于下面的噪声估计模型，我们需要估计一个四元组噪声参数 ( K, σ, µ c , σ r ) 。03.3. 模型估计和噪声合成流程0在这里，我们介绍我们创新的模型估计和噪声合成流程。我们的流程估计噪声模型参数，并将噪声生成过程从费时费力的训练数据和不够准确的噪声模型问题中解放出来。给定从单个相机传感器捕获的测试去噪数据集，我们的流程首先估计第 3.2节中提到的噪声模型的参数，然后确定参数采样和噪声图像合成策略以生成逼真的训练数据。整个过程既不依赖于配对训练数据，也不依赖于真实的校准帧。我们的噪声合成流程的方案概述如图 1所示。给定一个嘈杂的测试数据集，我们首先估计每个单独图像的噪声参数 P i = ( K, σ, µ c , σ r )，并获得一组参数元组 { P 1 , P 2 , ∙ ∙ ∙ , P M } ，其中M是测试数据集的大小。我们专门设计了用于估计这种细粒度噪声的噪声估计模型，将在第 3.4节中描述。根据以前的研究[41,42]，我们假设系统的总增益 K 与0（a）读出噪声0（b）行噪声0图2.我们提供了一个典型相机传感器（即CanonEOS5D4）的校准结果，以展示(K，σ)和(K，σr)之间的对数线性关系。0ISO设置，读出和行噪声方差都与K的对数成比例。以CanonEOS5D4为例，噪声参数σ和σr与整体增益K之间的统计关系可以用对数线性模型很好地拟合，如图2所示。因此，我们使用线性回归模型来拟合K和σ、σr之间的对数线性关系，并得到估计的偏差和斜率。0logσr=ar logK+br。（7）0从这里，我们可以从测试集中最小和最大的估计增益中的均匀分布中采样相机增益K。然后，可以按照联合分布采样其他噪声参数。0log(K)�U�log(ˆKmin),log(ˆKmax)�，0log(σ)|log(K)�N�alog(K)+b，ˆσ2�，0log(σr)|log(K)�N�ar log(K)+br，ˆσ2r�，0如果需要在任何给定的ISO值O（不限于离散的ISO值）下合成逼真的训练样本，我们可以使用线性模型拟合K和O之间的关系，即K = α∙O，并替换方程（8）中的K的采样策略。03.4.对比噪声估计模型0尽管以前的噪声估计方法在AWGN和P-G噪声假设下获得了令人满意的性能，但这些噪声模型是粗糙的噪声模型。此外，以前的噪声估计方法尚未尝试估计更复杂和准确的噪声假设。在本节中，我们提出了一种基于深度学习的噪声估计模型，用于从单个噪声图像中预测四元组噪声参数（K，σ，µc，σr）。实际上，估计方程（6）中的噪声参数问题是高度不适定的，现有的基于PCA的[38]或基于分解的[11]噪声估计方法很难在统计上解决。此外，即使对于深度神经网络来说，这个问题也是具有挑战性的，因为深度网络需要区分每个噪声组成部分并从不同的维度估计噪声水平。为了解决这个问题，我们采用对比学习策略。我们首先学习一个提取器，提取最具有区分性的噪声估计表示，而不考虑低频场景信息。通过对比具有相同或不同噪声参数的场景，噪声估计网络更容易学习到精确的参数值。我们采用了一个简单高效的对比学习框架[13]。它通过在投影空间中的同一标签的不同增强视图之间最大化一致性来学习特征表示。我们的对比噪声估计框架如图1底部所示。学习过程包括无监督的对比特征学习阶段（右下角）和有监督的噪声估计阶段（左下角）。此外，我们需要一种随机数据增强策略来合成正负样本。我们对比噪声估计模型的主要组件如下所述。数据增强。给定一个在第i个场景Ci和参数Pi下合成的锚定噪声图像Si，特征提取器需要提供正负数据样本。在我们的情况下，正样本与锚定图像具有相同的噪声参数，而负样本则是使用不同的噪声参数合成的。此外，为了避免场景的影响，两个样本都是从随机场景中采样的。因此，正样本S+i和负样本S-i分别在（Ck，Pi）和（Cj，Pj）下合成。考虑到噪声水平的信息通常来自全局、垂直或水平维度的频率分量，我们在特征提取器之前使用Haar小波变换t(∙)。对比特征学习。特征提取器f(∙)用于从频率图像t(S)中提取表示。为了简单起见，我们使用ResNet作为特征提取器的主干，并为每个样本获得特征h=f(t(S))。然后，使用一个小型多层感知机（MLP）g(∙)将表示投影到低维向量，我们分别获得锚定样本、正样本和负样本的z、z+和z-。然后，对比框架学习扩大（z，z+）之间的相似性，并减小（z，z-）之间的相似性。相似性计算函数s可以是任何距离函数，这里我们使用余弦相似度。对于对比学习的损失可以表示为Lcontrastive = − logexp(s(z, z+)/τ)exp(s(z, z±)/τ),(9)L =∥r(Pi) − r( ˆPi)∥22 + τLcontrastive,(10)126860网络需要区分每个噪声分量，并从不同的维度估计噪声水平。为了解决这个问题，我们采用对比学习策略。我们首先学习一个提取器，提取最具有区分性的噪声估计表示，而不考虑低频场景信息。通过对比具有相同或不同噪声参数的场景，噪声估计网络更容易学习到精确的参数值。我们采用了一个简单高效的对比学习框架[13]。它通过在投影空间中的同一标签的不同增强视图之间最大化一致性来学习特征表示。我们的对比噪声估计框架如图1底部所示。学习过程包括无监督的对比特征学习阶段（右下角）和有监督的噪声估计阶段（左下角）。此外，我们需要一种随机数据增强策略来合成正负样本。我们对比噪声估计模型的主要组件如下所述。数据增强。给定一个在第i个场景Ci和参数Pi下合成的锚定噪声图像Si，特征提取器需要提供正负数据样本。在我们的情况下，正样本与锚定图像具有相同的噪声参数，而负样本则是使用不同的噪声参数合成的。此外，为了避免场景的影响，两个样本都是从随机场景中采样的。因此，正样本S+i和负样本S-i分别在（Ck，Pi）和（Cj，Pj）下合成。考虑到噪声水平的信息通常来自全局、垂直或水平维度的频率分量，我们在特征提取器之前使用Haar小波变换t(∙)。对比特征学习。特征提取器f(∙)用于从频率图像t(S)中提取表示。为了简单起见，我们使用ResNet作为特征提取器的主干，并为每个样本获得特征h=f(t(S))。然后，使用一个小型多层感知机（MLP）g(∙)将表示投影到低维向量，我们分别获得锚定样本、正样本和负样本的z、z+和z-。然后，对比框架学习扩大（z，z+）之间的相似性，并减小（z，z-）之间的相似性。相似性计算函数s可以是任何距离函数，这里我们使用余弦相似度。对于对比学习的损失可以表示为0其中τ表示温度参数。噪声估计。通过最小化对比损失Lcontrastive，特征提取器f能够学习输入噪声图像的判别性噪声特征。对于我们的0监督噪声估计学习，我们直接在提取的特征h上添加由全连接层组成的预测尾部。在训练阶段，首先训练对比度表示学习框架。然后，添加噪声估计模块，并与编码器一起进行训练。我们使用均方误差（MSE）损失来训练预测的噪声参数。我们不直接对预测的ˆPi进行惩罚，而是使用变换r来平衡ˆPi的权重和尺度。在实验中，我们对σ和σr进行对数操作，并为(K，logσ，µc，logσr)设置权重为(1，1，10，10)。因此，学习损失可以表示为0M �0其中M是训练样本的数量，τ在实验中设置为0.1。04. 实验0在本节中，我们首先提供实验设置，包括使用的评估指标和数据集。然后，我们对噪声估计和合成流程以及下游去噪任务进行实验。最后，我们进行消融研究的实验。04.1. 实验设置0度量标准。对于噪声图像合成，我们使用KL散度来评估合成噪声与真实相机传感器捕获的噪声数据之间的距离。我们遵循之前的工作[1]，对噪声块的直方图进行离散KL散度计算，可以表示为�p(xi)log(p(xi)/q(xi))，其中p(xi)和q(xi)是真实样本和估计样本的归一化直方图。对于真实去噪实验，我们使用信噪比（PSNR）和结构相似性（SSIM）来衡量2D空间保真度。较大的PSNR和SSIM表示更好的结果，而较小的KL散度表示更好的合成。数据集。我们的流水线在广泛使用的真实图像去噪数据集SIDD[2]上进行评估。SIDD由五个智能手机相机收集而来，包括三星Galaxy S6 Edge（S6），iPhone7（IP），Google Pixel（GP），Motorola Nexus6（N6）和LGG4（G4）。它包含320对用于训练和测试的RAW图像对。此外，我们还在其他公共配对的原始数据集上合成噪声，包括CRVD[44]和PMRID[41]，旨在证明我们的噪声合成流水线的泛化性。为了训练我们的噪声估计网络，我们遵循校准步骤[42]，通过真实的偏置和平场帧仔细校准几个相机传感器，形成我们的相机噪声模型数据集。具体而言，由于公式（6）中的噪声分量是可加的，我们逐个校准它们。在校准前一个分量之后，减去该噪声的均值，0123456logK123456logσPredicted Sample Predicted LineGT SampleGT Line-3-2-1012logK-1-0.500.511.522.5logσPredicted Sample Predicted LineGT SampleGT Line-10123logK01234logσPredicted Sample Predicted Line-1-0.500.51logK00.511.5logσPredicted Sample Predicted Line126870(a) 索尼RX100VI0(b) 华为P40 Pro0(c) 三星Galaxy S60(d) LG G40图3.噪声模型估计性能。前两个相机模型是在合成噪声图像上估计的，而底部相机模型是在没有GroundTruth参数的真实SIDD数据集上估计的。0为了避免影响其他噪声组件的校准。我们的相机噪声模型数据集包括佳能EOS5D4，尼康D850，索尼RX100VI和华为P40 Pro。0实现。在实验中，使用自适应矩估计方法[26]最小化损失，动量参数为0.9。学习率初始设为10^-4，每50个epoch除以10。由于较大的批量大小有利于对比框架的学习，我们在训练阶段将批量大小设置为32。估计和去噪过程均训练200个epoch。我们的模型使用深度学习框架PyTorch[35]实现，使用NVIDIA RTX 3090 GPU进行训练。04.2. 噪声模型估计和噪声合成0噪声模型估计。我们首先评估我们的对比噪声估计模型的有效性。我们的模型是在具有来自我们校准良好的相机噪声模型数据集的噪声参数的合成数据集上进行训练的，然后应用于未知（或未校准）的传感器估计。在训练阶段，我们随机从这些相机候选者中采样噪声参数Pi来合成噪声图像。我们的噪声估计模型预测了(K, σ, µc,σr)这些参数，并由真实的Pi进行监督。我们在图3中可视化了我们噪声模型估计的线性最小二乘拟合。对于前两个图，我们展示了对合成噪声图像的估计，从中可以看出我们的对比噪声估计模型能够准确地估计噪声参数。后两个图显示了SIDD数据集的两个移动传感器的估计模型。请注意，我们用于合成目的的SIDD数据集的一部分包含Sam-0分别是SIDD S6和LGG4。我们观察到我们的模型估计的噪声参数在图3中明显形成6个和4个簇。这种现象支持我们对SIDD相机的估计模型。在SIDD上进行噪声合成。为了评估我们的流程在噪声图像合成上的效果，我们将其与几种最先进的噪声建模方法进行比较，包括：1）AWGN噪声模型，2）P-G噪声模型，3）Noiseflow [1]和4）CANGAN[9]。在这些方法中，AWGN和P-G是常用的统计噪声模型，Noiseflow是基于正态化流的噪声建模方法，CANGAN是一种代表性的基于GAN的噪声生成模型。Noiseflow和CANGAN的训练需要带噪声/干净图像对。我们在不同ISO下的SIDD数据集上测试了所有方法，并合成了4×64×64的噪声补丁。所有比较方法和我们的流程的噪声合成准确性列在表1中。通过比较所有方法，可以看出我们的生成流程提供了有希望的性能，即使我们从未见过任何超出测试集的数据。这部分是由于准确的对比噪声估计，部分是由于更加逼真的细粒度噪声模型，该模型仔细考虑了图像形成过程。尽管CANGAN也取得了良好的性能，但它需要配对的训练数据和与目标图像相同设置的推理噪声图像。图4显示了所有比较噪声模型和我们方法的合成噪声图像的可视化结果。这表明我们的流程生成了更加逼真的噪声补丁。在CRVD和PMRID上进行噪声合成。我们还提供了其他数据集上的合成噪声图像。给定一张噪声图像及其对应的干净图像，我们首先通过将我们的模型输入另一张具有与目标图像相同ISO的噪声图像来估计噪声参数。然后，我们使用估计的噪声参数在干净图像上生成噪声。如图5所示，我们的模型生成了逼真的噪声。请注意，CRVD、PMRID和SIDD中使用的相机都不包含在我们的训练数据中，这意味着结果可以验证我们流程的泛化能力。04.3. 实际图像去噪应用0在这里，我们使用第4.2节中描述的噪声合成方法（AWGN、P-G、Noiseflow、CANGAN和我们的方法）生成合成训练数据集。然后，我们使用这些数据集来训练一个常见的去噪UNet[39]，旨在评估我们的模型估计和噪声生成流程在下游去噪应用中的优越性。除了在合成数据上进行训练外，我们还进行了在真实配对数据集上训练的去噪实验。我们在SIDDS6数据集上进行真实图像去噪实验。我们直接使用Noiseflow和CANGAN的预训练合成模型，并采样4×126880表1.在SIDD数据集上，所有比较方法的噪声合成性能。使用KL散度评估了五个SIDD相机的定量结果。我们的方法在没有提供任何特定相机训练数据的情况下，提供了微小的改进。最佳结果以粗体显示。0相机AWGN P-G Noiseflow [1] CANGAN [9] 我们0S6 0.4793 0.1023 0.0617 0.0432 0.0385 IP 0.8367 0.0514 0.0327 0.0178 0.0100 GP 0.6254 0.03160.0756 0.0146 0.0219 N6 0.7321 0.0168 0.0731 0.0187 0.0165 G4 1.0987 0.0315 0.0519 0.0161 0.01870平均0.7544 0.0467 0.0590 0.0220 0.02110AWGN P-G Noiseflow [1] CANGAN [9] 我们真实清晰0图4.在SIDD数据集[2]上合成的噪声图像。从左到右显示了AWGN/P-G/Noiseflow/CANGAN/我们的结果/真实噪声图像/清晰输入图像。0CRVD0PMRID0清晰合成真实噪声0图5.我们在CRVD和PMRID上的噪声合成结果。0512×512所有方法的噪声补丁。定量结果显示在表2中。可以推断出，由于我们的噪声合成流程生成的高质量训练数据，我们的方法的降噪结果在像素精度和结构相似性方面超过了所有比较方法。另一个观察结果是，P-G优于CANGAN，这与噪声估计的结果相反。原因是包括AWGN、P-G和我们模型在内的统计模型可以在连续的ISO值下为去噪器提供更广泛范围的噪声。此外，我们想强调的是，尽管我们的合成流程仅建立在嘈杂的SIDD测试数据上，但令人惊讶的是，我们的模型与配对的真实数据相比给出了类似的结果。这些结果证明了我们方法的有效性。图6显示了所有方法的降噪可视化结果，表明我们的生成流程126890表2. SIDD数据集上S6相机的定量降噪结果。在没有看到任何超出测试噪声图像的数据的情况下，我们的噪声合成流程优于其他生成方法，并且甚至与配对的真实数据取得了可比较的结果。0ISO Metrices AWGN P-G Noiseflow [1] CANGAN [9] 配对数据我们0100 PSNR 50.13 53.80 51.82 52.85 53.94 54.12 SSIM 0.9809 0.9957 0.9941 0.9947 0.9962 0.99620800 PSNR 46.45 48.41 42.75 48.20 48.68 48.82 SSIM 0.9700 0.9935 0.9693 0.9917 0.9942 0.994101600 PSNR 47.29 48.92 41.09 47.93 49.10 49.11 SSIM 0.9638 0.9880 0.9281 0.9853 0.9889 0.988503200 PSNR 42.16 43.47 34.85 42.90 43.61 43.05 SSIM 0.9429 0.9644 0.8054 0.9621 0.9653 0.95810所有PSNR 47.55 49.91 44.96 49.19 50.10 50.13 SSIM 0.9698 0.9896 0.9517 0.9879 0.9902 0.98910输入 AWGN P-G Noiseflow [1] CANGAN [9] 配对数据我们 GT0图6. SIDD [2] S6降噪结果，从左到右显示了AWGN/P-G/Noiseflow/CANGAN/配对数据/我们的结果。0表3.关于我们的对比损失和细粒度噪声模型的消融研究。0设置PSNR SSIM0w/o L对比 49.03 0.9868 Hetero-G 50.040.9874 我们 50.13 0.98910可以在实际中受益于真实照片的降噪。04.4.消融研究0在这一部分中，我们进行了更多的实验来验证我们的对比噪声模型估计框架的有效性。我们声称对比学习方式有助于模型学习可分离噪声分量的参数，并且细粒度噪声模型也有助于更好的噪声合成。因此，我们进行了消融研究，通过去除对比损失并将细粒度噪声模型替换为主导的Hetero-G来进行。对每种情况进行了降噪实验。如表3所示，我们的完整模型取得了更好的结果，进一步验证了我们的对比学习策略和细粒度噪声模型的优越性。05. 结论0在本文中，我们提出了一种新颖的噪声合成流程，通过仅使用测试数据来估计相机特定的噪声模型。我们的方法基于细粒度的基于物理的噪声模型，并设计了一种对比学习的噪声估计模型。在没有看到任何配对图像或校准数据的情况下，我们的流程可以与最先进的噪声合成方法取得竞争性的结果。令人鼓舞的是，仅给定测试噪声图像，我们的模型估计和噪声合成流程可以直接用于对其他未知相机进行建模，无需重新训练。我们的模型有潜力促进其他应用，包括低光增强，这将成为我们未来的工作。06. 限制讨论和更广泛的影响0我们的模型估计和噪声合成流程旨在估计未知传感器的噪声模型。然而，我们目前的模型仅适用于BayerCFA，并未扩展到非BayerCFA（如X-Trans）。因此，如果我们不确定传感器的CFA，使用我们的模型可能存在风险。我们的工作没有更广泛的影响。0致谢本工作得到了中国国家自然科学基金会的支持，项目编号为62171038、61827901和62088101。126900参考文献0[1] Abdelrahman Abdelhamed，Marcus ABrubaker和Michael SBrown。噪声流：条件归一化流的噪声建模。在IEEE国际计算机视觉会议上，第3165-3173页，2019年。1，2，3，5，6，7，80[2] Abdelrahman Abdelhamed，Stephen Lin和Michael SBrown。智能手机相机的高质量去噪数据集。在IEEE计算机视觉和模式识别会议上，第1692-1700页，2018年。1，5，7，80[3] Michal Aharon，Michael Elad和AlfredBruckstein。K-svd：一种用于稀疏表示的过完备字典设计算法。IEEE信号处理交易，54（11）：4311-4322，2006年。20[4] Robert A. Boie和Ingemar J.Cox。相机噪声分析。IEEE模式分析与机器智能交易，14（06）：671-674，1992年。20[5] Tim Brooks，Ben Mildenhall，Tianfan Xue，JiawenChen，Dillon Sharlet和Jonathan TBarron。用于学习原始去噪的图像的非处理。在IEEE计算机视觉和模式识别会议上，第11036-11045页，2019年。10[6] Antoni Buades，Bartomeu Coll和J-MMorel。一种用于图像去噪的非局部算法。在IEEE计算机视觉和模式识别会议上，第2卷，第60-65页，2005年。1，20[7] Jaeseok Byun，Sungmin Cha和TaesupMoon。Fbi-denoiser：用于Poisson-Gaussian噪声的快速盲图像去噪器。在IEEE计算机视觉和模式识别会议上，第5768-5777页，2021年。1，20[8]曹越，吴小鹤，齐树然，刘晓，吴中勤和左旺盟。伪ISP：从彩色图像去噪器中学习伪相机信号处理管道。arXiv预印本arXiv:2103.10234，2021年。10[9] Ke-Chi Chang，Ren Wang，Hung-Jin Lin，Yu-LunLiu，Chia-Ping Chen，Yu-Lin Chang和Hwann-TzongChen。学习相机感知噪声模型。在欧洲计算机视觉会议上，第343-358页。Springer，2020年。1，2，3，6，7，80[10] 陈晨，陈启峰，徐佳和VladlenKoltun。学习在黑暗中看见。在IEEE计算机视觉和模式识别会议上，第3291-3300页，2018年。10[11] Guangy

下载后可阅读完整内容，剩余1页未读，立即下载